TREC DL 2019 Track dataset

TREC DL 2019 Track의 2가지 tasks 

  • document retrieval 
  • passage retrieval 

Training data & development data 

  • MS MARCO 데이터셋을 이용함 
  • document retrieval data는 passage retrieval data에서 passage 가 나타났던 문서를 가져오고, passage의 label을 문서에 전파함 

Test data 

  • 예전 참가자들의 상위 10개 결과들을 가져와서 NIST에서 수동 평가 

TREC DL official metrics 

  • NDCG@10 on test and MRR@10 on MARCO Passage Dev. 
  • MARCO Document Dev 데이터에는 noise가 있고, label coverage가 낮아서 recall 측정은 별 의미가 없다. 
    • 이 데이터는 앞서 적었듯이, marco passage data에서 문단이 나타난 문서를 가져와서, 문단의 label을 문서에 전파해서 만들었음. 
    • 그런데, 문단 레이블링 작업 2년후에 문서 레이블링 작업을 했고, 문단 레이블링 시의 문서는 남아있지 않다. 즉, 문단 추출시에 문서와 2년 후의 문서가 다를 수 있고, 다수의 문서에서 해당 문단을 포함하고 있지 않다. 그래서 문단의 레이블을  문서의 레이블로 그대로 사용하는데에는 오류가 많을 수 있다. 
    • 이로 인해서, 문단 검색용 학습 데이터가 문서 검색용 학습 데이터보다 더 효과적인 것으로 알려져 있다. 

References 

댓글

이 블로그의 인기 게시물

utf-8과 utf8