ms marco dataset

ms marco dataset

9/12/2021 03:09:00 오후

MSMARCO passage retrieval dataset

880만개(8,841,823) 영어 문단(passage)으로 구성

평균 문단 길이: 56.58 (토큰 개수)

60이라는 논문도 있음.

전체로는 약 5억개의 토큰으로 구성 (중복 토큰 포함)

질의는 100만개 정도 (1,010,916개: 논문별로 질의 개수에서 차이가 있네 ㅠ)

평균 질의 길이: 5.97 (토큰 개수)
질의-positive passage 쌍의 개수 (학습데이터) : 532,751개

질의 개수: 502,939 개
질의당 거의 1개의 positive passage가 있음

최대 7개의 positive passage가 있음.

질의-positive passage 쌍의 개수 (dev 데이터) :59,273개

질의 개수: 55,578 개 (6,980개라는 논문도 있음)
질의당 거의 1개의 positive passage가 있음

최대 6개의 positive passage가 있음.

100만개 질의에서 일부는 학습과 dev 데이터에 없음

test 질의일 듯한데, test 질의는 6,837개라는 논문이 있음

[ 출처: RocketQA 논문 ]
: NQ는 natural question dataset임.
: rocketQA에서는 original NQ dataset에서 일부만 사용해서, 일부의 통계임.

MSMARCO document retrieval dataset

3백만개의 영어 문서로 구성
문서는 평균 900개의 토큰으로 구성

참조:

Luyu Gao et al., COIL: Revisit Exact Lexical Match in Information Retrieval with Contextualized Inverted List, arXiv:2104.07186
https://github.com/microsoft/MSMARCO-Passage-Ranking#data-information-and-formating
Yingqi Qu, et al., RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering, NAACL 2021

댓글