ms marco dataset

MSMARCO passage retrieval dataset 

  • 880만개(8,841,823) 영어 문단(passage)으로 구성 
    • 평균 문단 길이: 56.58 (토큰 개수) 
      • 60이라는 논문도 있음.  
    • 전체로는 약 5억개의 토큰으로 구성 (중복 토큰 포함) 
  • 질의는 100만개 정도 (1,010,916개: 논문별로 질의 개수에서 차이가 있네 ㅠ) 
    • 평균 질의 길이: 5.97 (토큰 개수) 
    • 질의-positive passage 쌍의 개수 (학습데이터) : 532,751개 
      • 질의 개수: 502,939 개 
      • 질의당 거의 1개의 positive passage가 있음 
        • 최대 7개의 positive passage가 있음. 
    • 질의-positive passage 쌍의 개수 (dev 데이터) :59,273개 
      • 질의 개수: 55,578 개 (6,980개라는 논문도 있음) 
      • 질의당 거의 1개의 positive passage가 있음 
        • 최대 6개의 positive passage가 있음. 
    • 100만개 질의에서 일부는 학습과 dev 데이터에 없음 
      • test 질의일 듯한데, test 질의는 6,837개라는 논문이 있음 

[ 출처: RocketQA 논문 ]
: NQ는 natural question dataset임. 
: rocketQA에서는 original NQ dataset에서 일부만 사용해서, 일부의 통계임. 

MSMARCO document retrieval dataset 

  • 3백만개의 영어 문서로 구성
  • 문서는 평균 900개의 토큰으로 구성 

참조: 

댓글

이 블로그의 인기 게시물

utf-8과 utf8