Xiangsheng Li et al., A Cooperative Neural Information Retrieval Pipeline with Knowledge Enhanced Automatic Query Reformulation, WSDM2022
Query reformulation(QR) 학습을 NRM(nerual ranking model) 학습과 동시에 하는 방법 제안
- 논문에서 QR은 query expansion을 의미함.
- query expansion = 사용자 질의 + 신규 단어
- 신규 단어를 찾는 방법에 관한 논문임
- QR은 강화학습 (reinforcement learning)으로 학습
- QR 학습시에 NRM의 랭킹 결과를 참조하는데,
- 자세히는 모르겠음. ㅠ
- QR 을 위한 후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함
- 중국 데이터를 평가를 하므로, knowledge가 중국어 데이터임.
- knowledge는 영어의 wordnet 같은 것으로 생각됨.
- NRM은 기존 KNRM 방식과 BERT 방식을 사용함.
- 각각을 함께 사용하는 것은 아니고, 각각으로 실험함
- NRM 학습시에는 QR로 생성한 질의를 사용하고, 사용자 질의를 그대로 사용하지는 않음
- QR model 학습시에는 NRM 모델은 고정하고, NRM 모델 학습시에 QR model은 고정함
QR
- QR 후보 단어 수집
- 후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함
- knowledge는 XLore라는 영/중 knowledge graph 이용
- subclass, instnaceof, same, related 등의 관계가 있는 리소스로, wordnet과 유사한 것으로 생각됨
- knowledge enhanced QR
- 질의 entity만을 대상으로 knowledge에서 후보 단어 수집
- knowledge에서 subclass, instnaceof, same, related 의 관계에 있는 단어를 후보로 사용
- 그림 1 참조
- QR 후보 단어 선정
- deep learning을 이용함
- 사용자 질의와 후보 단어를 신경망 입력으로 사용하고, 후보 단어 중에서 적절한 단어를 선택하도록 함. (그림 3 참조)
NRM
- 기존 모델을 그대로 사용하고 있음. (KNRM, Nogueria의 BERT 모델)
- 모두 reranking에 사용함. (first-stage ranking을 위한 방법은 아님)
실험 결과
- 실험 데이터는 중국어 데이터임
- 특이하게 고유명사 질의가 95.9%이고, 질의당 고유명사가 3.44개로 너무 많음
- QR의 경우 (테이블 3 참조)
- rule-based model인 TFIDF, RM은 검색 품질 향상에 기여하지 못함.
- 학습 기반 모델인 SL, RL-CNN은 검색 품질 향상에 기여함
애매한 부분
- QR 후보 단어 생성시에 PRF와 knowledge 를 함께 사용하는지 여부
- "3.2 Automatic Query Reformulation"에 따르면 함께 사용했을 거 같음.
- 그러나 실험 결과에서는 이를 동시에 사용했다고 명시되지 않은거 같고, 함께 사용했다면 PRF 때문에 검색을 2번해야 되어서 테이블 5와 같은 결과가 나올 수 없을 듯. (응답 시간이 2배가 걸려야 될거 같음)
댓글