MSMARCO passage retrieval dataset
- 880만개(8,841,823) 영어 문단(passage)으로 구성
- 평균 문단 길이: 56.58 (토큰 개수)
- 전체로는 약 5억개의 토큰으로 구성 (중복 토큰 포함)
- 질의는 100만개 정도 (1,010,916개: 논문별로 질의 개수에서 차이가 있네 ㅠ)
- 평균 질의 길이: 5.97 (토큰 개수)
- 질의-positive passage 쌍의 개수 (학습데이터) : 532,751개
- 질의 개수: 502,939 개
- 질의당 거의 1개의 positive passage가 있음
- 최대 7개의 positive passage가 있음.
- 질의-positive passage 쌍의 개수 (dev 데이터) :59,273개
- 질의 개수: 55,578 개 (6,980개라는 논문도 있음)
- 질의당 거의 1개의 positive passage가 있음
- 최대 6개의 positive passage가 있음.
- 100만개 질의에서 일부는 학습과 dev 데이터에 없음
- test 질의일 듯한데, test 질의는 6,837개라는 논문이 있음
[ 출처: RocketQA 논문 ]
: NQ는 natural question dataset임.
: rocketQA에서는 original NQ dataset에서 일부만 사용해서, 일부의 통계임.
MSMARCO document retrieval dataset
- 3백만개의 영어 문서로 구성
- 문서는 평균 900개의 토큰으로 구성
참조:
댓글