Knowledge Enhanced Automatic Query Reformulation, wsdm2022

Xiangsheng Li et al., A Cooperative Neural Information Retrieval Pipeline with Knowledge Enhanced Automatic Query Reformulation, WSDM2022 

Query reformulation(QR) 학습을 NRM(nerual ranking model) 학습과 동시에 하는 방법 제안 

  • 논문에서 QR은 query expansion을 의미함. 
    • query expansion = 사용자 질의 + 신규 단어 
    • 신규 단어를 찾는 방법에 관한 논문임 
  • QR은 강화학습 (reinforcement learning)으로 학습
    • QR 학습시에 NRM의 랭킹 결과를 참조하는데, 
    • 자세히는 모르겠음. ㅠ 
  • QR 을 위한 후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함 
    • 중국 데이터를 평가를 하므로, knowledge가 중국어 데이터임. 
    • knowledge는 영어의 wordnet 같은 것으로  생각됨. 
  • NRM은 기존 KNRM 방식과 BERT 방식을 사용함. 
    • 각각을 함께 사용하는 것은 아니고, 각각으로 실험함 
    • NRM 학습시에는 QR로  생성한 질의를 사용하고, 사용자 질의를 그대로 사용하지는 않음
  • QR model 학습시에는 NRM 모델은 고정하고, NRM 모델 학습시에 QR model은 고정함 

QR 

  • QR 후보 단어 수집 
    • 후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함 
    • knowledge는  XLore라는 영/중 knowledge graph 이용 
      • subclass, instnaceof, same, related 등의 관계가 있는 리소스로, wordnet과 유사한 것으로 생각됨 
    • knowledge enhanced QR 
      • 질의 entity만을 대상으로 knowledge에서 후보 단어 수집 
      • knowledge에서 subclass, instnaceof, same, related 의 관계에 있는 단어를 후보로 사용 
      • 그림 1 참조 


  • QR 후보 단어 선정 
    • deep learning을 이용함 
    • 사용자 질의와 후보 단어를 신경망 입력으로 사용하고, 후보 단어 중에서 적절한 단어를 선택하도록 함. (그림 3 참조) 

NRM  

  • 기존 모델을 그대로 사용하고 있음. (KNRM, Nogueria의 BERT 모델) 
  • 모두 reranking에 사용함. (first-stage ranking을 위한 방법은 아님) 

실험 결과 

  • 실험 데이터는 중국어 데이터임 
    • 특이하게 고유명사 질의가 95.9%이고, 질의당 고유명사가 3.44개로 너무 많음 
  • QR의 경우 (테이블 3 참조) 
    • rule-based model인 TFIDF, RM은 검색 품질 향상에 기여하지 못함. 
    • 학습 기반 모델인 SL, RL-CNN은 검색 품질 향상에 기여함 

애매한 부분 

  • QR 후보 단어 생성시에 PRF와 knowledge 를 함께 사용하는지 여부 
    • "3.2 Automatic Query Reformulation"에 따르면 함께 사용했을 거 같음. 
    • 그러나 실험 결과에서는 이를 동시에 사용했다고 명시되지 않은거 같고, 함께 사용했다면 PRF 때문에 검색을 2번해야 되어서 테이블 5와 같은 결과가 나올 수 없을 듯. (응답 시간이 2배가 걸려야 될거 같음) 


댓글

이 블로그의 인기 게시물

utf-8과 utf8