Learning to Rewrite Queries, yahoo, cikm2016
Yunlong He, et al., Learning to Rewrite Queries, CIKM2016
- yahoo 논문
2단계로 query rewriting(QR) 하는 방법 제안
- 1단계) query rewriting 후보 생성
- 기존 QR 방법들을 이용해서 후보 생성
- 2단계) 후보들 중에서 적합한 QR 선정
- 기계 학습 이용
후보 생성 방법
- 후보 생성은 어떤 방법을 이용해도 됨.
- 논문에서는 SMT를 이용하는 방법과 LSTM을 이용하는 방법으로 후보 생성함
- 실험에서 SMT에서 10개 후보, LSTM으로 10개 후보 생성함
- 후보 생성 모델의 학습데이터: (질의, 클릭 문서)에서 (질의, 문서 제목)를 추출해서 사용
- 800M 쌍으로 구성
QR 후보에 점수 부여
- (사용자 질의, QR 질의)를 입력으로 받아서, 점수를 부여하는 모델 구축
- (사용자 질의, QR 질의, 클릭빈도)로 구성된 학습데이터로 모델 학습함
- 클릭빈도 = QR 질의로 검색된 문서를 사용자 질의가 클릭한 빈도
- 클릭빈도가 높을수록 좋은 QR 질의로 간주함
- 클릭빈도를 예측하는 모델을 만들게 됨
- 몇개의 QR 질의를 사용하는지는 논문에 없음.
- 추측으로는 (사용자 질의, 사용자 질의)의 모델 점수보다 높은 QR 질의만 사용할 듯
- 모델에서 사용하는 자질 (표1)
- 사용자 질의에서 추출한 자질: 단어수, 불용어수 등
- QR 질의에서 추출한 자질: 단어수, 불용어수 등
- (사용자 질의, QR 질의) 쌍에서 추출한 자질 : jaccard similarity 등
- 18개 자질로 많지 않음. (이걸로 동작하는게 신기함)
댓글