Learning to Rewrite Queries, yahoo, cikm2016

Yunlong He, et al., Learning to Rewrite Queries, CIKM2016

  • yahoo 논문 

2단계로 query rewriting(QR) 하는 방법 제안 

  • 1단계) query rewriting 후보 생성 
    • 기존 QR 방법들을 이용해서 후보 생성 
  • 2단계) 후보들 중에서 적합한 QR 선정 
    • 기계 학습 이용 

후보 생성 방법 

  • 후보 생성은 어떤 방법을 이용해도 됨. 
  • 논문에서는 SMT를 이용하는 방법과 LSTM을 이용하는 방법으로 후보 생성함 
    • 실험에서 SMT에서 10개 후보, LSTM으로 10개 후보 생성함
  • 후보 생성 모델의 학습데이터: (질의, 클릭 문서)에서 (질의, 문서 제목)를 추출해서 사용 
    • 800M 쌍으로 구성  

QR 후보에 점수 부여 

  • (사용자 질의, QR 질의)를 입력으로 받아서, 점수를 부여하는 모델 구축  
  • (사용자 질의, QR 질의, 클릭빈도)로 구성된 학습데이터로 모델 학습함 
    • 클릭빈도 = QR 질의로 검색된 문서를 사용자 질의가 클릭한 빈도 
    • 클릭빈도가 높을수록 좋은 QR 질의로 간주함 
    • 클릭빈도를 예측하는 모델을 만들게 됨 
  • 몇개의 QR 질의를 사용하는지는 논문에 없음. 
    • 추측으로는 (사용자 질의, 사용자 질의)의 모델 점수보다 높은 QR 질의만 사용할 듯 
  • 모델에서 사용하는 자질 (표1) 
    • 사용자 질의에서 추출한 자질: 단어수, 불용어수 등 
    • QR 질의에서 추출한 자질: 단어수, 불용어수 등 
    • (사용자 질의, QR 질의) 쌍에서 추출한 자질 : jaccard similarity 등 
    • 18개 자질로 많지 않음. (이걸로 동작하는게 신기함) 




댓글

이 블로그의 인기 게시물

utf-8과 utf8