Knowledge Enhanced Automatic Query Reformulation, wsdm2022

Knowledge Enhanced Automatic Query Reformulation, wsdm2022

5/14/2022 02:15:00 오후

Xiangsheng Li et al., A Cooperative Neural Information Retrieval Pipeline with Knowledge Enhanced Automatic Query Reformulation, WSDM2022

Query reformulation(QR) 학습을 NRM(nerual ranking model) 학습과 동시에 하는 방법 제안

논문에서 QR은 query expansion을 의미함.
query expansion = 사용자 질의 + 신규 단어
신규 단어를 찾는 방법에 관한 논문임
QR은 강화학습 (reinforcement learning)으로 학습
QR 학습시에 NRM의 랭킹 결과를 참조하는데,
자세히는 모르겠음. ㅠ
QR 을 위한 후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함
중국 데이터를 평가를 하므로, knowledge가 중국어 데이터임.
knowledge는 영어의 wordnet 같은 것으로 생각됨.
NRM은 기존 KNRM 방식과 BERT 방식을 사용함.
각각을 함께 사용하는 것은 아니고, 각각으로 실험함
NRM 학습시에는 QR로 생성한 질의를 사용하고, 사용자 질의를 그대로 사용하지는 않음
QR model 학습시에는 NRM 모델은 고정하고, NRM 모델 학습시에 QR model은 고정함

QR

QR 후보 단어 수집
후보 단어는 pseudo relevance feedback(PRF) 방식과 knowledge를 이용함
knowledge는 XLore라는 영/중 knowledge graph 이용
subclass, instnaceof, same, related 등의 관계가 있는 리소스로, wordnet과 유사한 것으로 생각됨
knowledge enhanced QR
질의 entity만을 대상으로 knowledge에서 후보 단어 수집
knowledge에서 subclass, instnaceof, same, related 의 관계에 있는 단어를 후보로 사용
그림 1 참조

QR 후보 단어 선정
deep learning을 이용함
사용자 질의와 후보 단어를 신경망 입력으로 사용하고, 후보 단어 중에서 적절한 단어를 선택하도록 함. (그림 3 참조)

NRM

기존 모델을 그대로 사용하고 있음. (KNRM, Nogueria의 BERT 모델)
모두 reranking에 사용함. (first-stage ranking을 위한 방법은 아님)

실험 결과

실험 데이터는 중국어 데이터임

특이하게 고유명사 질의가 95.9%이고, 질의당 고유명사가 3.44개로 너무 많음

QR의 경우 (테이블 3 참조)

rule-based model인 TFIDF, RM은 검색 품질 향상에 기여하지 못함.
학습 기반 모델인 SL, RL-CNN은 검색 품질 향상에 기여함

애매한 부분

QR 후보 단어 생성시에 PRF와 knowledge 를 함께 사용하는지 여부

"3.2 Automatic Query Reformulation"에 따르면 함께 사용했을 거 같음.
그러나 실험 결과에서는 이를 동시에 사용했다고 명시되지 않은거 같고, 함께 사용했다면 PRF 때문에 검색을 2번해야 되어서 테이블 5와 같은 결과가 나올 수 없을 듯. (응답 시간이 2배가 걸려야 될거 같음)

댓글