TREC Complex Answer Retrieval (CAR) 데이터

 TREC Complex Answer Retrieval (CAR) 데이터 

  • 2017년 생성된 데이터 
  • 위키피디아에서 추출한 2900만개의 문단으로 구성 
  • 3백만개의 질의 
    • 위키피디아 제목과 섹션의 heading을 합쳐서 질의를 만듬 
  • positive passages 
    • 질의 생성에 사용한 section의 passage를 positive passage로 간주 
  • test query: 2,254개 

참조: Omar Khattab and Matei Zaharia, ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT, sigir 2020 "4.1 Methodology" 

댓글

이 블로그의 인기 게시물

utf-8과 utf8