QA datasets

 

Natural questions (NQ): 구글 검색 질의를 이용하고, 문서는 위키피디아를 사용함 
  • 질의 개수 
    • train: 79,168
    • dev: 8,757
    • test: 3,610 
TriviaQA: trivia 질의를 이용하고, 문서는 web을 이용함 
  • 질의 개수 
    • train: 78,785
    • dev: 8,837
    • test: 11,313 
WebQuestions (WQ): google suggest api로 질의 정하고, 문서는 Freebase 이용함 
  • 질의 개수 
    • train: 3,417
    • dev: 361
    • test: 2,032 
CuratedTREC
  • 질의 개수 
    • train: 1,3535
    • dev: 133
    • test: 694 
SQuAD v1.1: wikipedia 문서를 보고 질의를 만듬. 그래서 문서와 질의간의 텀이 일치하는 경우가 종종 있는 듯. 

댓글

이 블로그의 인기 게시물

utf-8과 utf8