TREC DL 2019 Track dataset

MS MARCO 데이터셋을 이용함
document retrieval data는 passage retrieval data에서 passage 가 나타났던 문서를 가져오고, passage의 label을 문서에 전파함

이 데이터는 앞서 적었듯이, marco passage data에서 문단이 나타난 문서를 가져와서, 문단의 label을 문서에 전파해서 만들었음.
그런데, 문단 레이블링 작업 2년후에 문서 레이블링 작업을 했고, 문단 레이블링 시의 문서는 남아있지 않다. 즉, 문단 추출시에 문서와 2년 후의 문서가 다를 수 있고, 다수의 문서에서 해당 문단을 포함하고 있지 않다. 그래서 문단의 레이블을 문서의 레이블로 그대로 사용하는데에는 오류가 많을 수 있다.
이로 인해서, 문단 검색용 학습 데이터가 문서 검색용 학습 데이터보다 더 효과적인 것으로 알려져 있다.

adagio33