RANCE, umass, sigir2021
해결하고자 하는 문제
- ANCE는 hard negative sampling 방법인데, 본 논문은 ANCE의 문제점을 개선한다.
- ANCE에서는 labeling 되지 않은 문서는 non-relevant하다고 가정한다.
- 정보검색에서 완벽하게 labeling 된 데이터는 없을 듯. (질의마다 모든 문서를 수동 검수하는 것은 불가능)
- 질의에 대해서 labeling이 안된 문서가 relevant 문서일 수 있고, 실제로도 이런 경우는 종종 있다.
- 본 논문에서는 labeling 되지 않은 문서 중에서 relevant 문서는 제외함으로써, ANCE의 문제를 해결한다.
논문에서 제안하는 방법
- training data보다 질의당 positive doc이 좀더 많이 labeling 된 validation set을 이용한다.
- ms marco dataset는 질의당 1개의 positive doc이 labeling 되어 있다.
- TREC 2019 deep learning track dataset에는 질의당 1개보다 더 많은 positive doc이 labelding 되어 있다.
- 그래서 TREC 2019 deep learning track dataset을 validation set으로 이용한다.
- validation set에서 relevant 일 가능성이 높은 경우, 해당 문서는 negative sampling으로 선택될 가능성을 낮춘다.
- 정확하게는 아래와 같이 문서 단위가 아니고, rank 단위로 relevant일 가능성을 판단한다.
- 수식 (1)은 rank r을 negative sample로 선택할 확률 Psample(r)을 계산한다.
- 수식 (1)에서 Prelevant(r)은 rank r이 relevant할 확률을 의미한다. 수식 (2) 참조
- validation set에 있는 전체 Q'에 대해서 현재의 NRM과 ANN로 검색한 결과에서 rank r에 있는 문서가 validation set에서 관련있는 문서일 확률을 의미한다.
- Q'는 validation set에 있는 질의 집합이고, R'(q)는 질의 q와 관련성 있는 문서집합이다. L'q(r)는 NRM과 ANN으로 질의 q를 검색한 결과에서 rank r에 해당되는 문서이다.
- discount(r)은 낮은 rank의 문서는 선택될 확률을 낮게 주기 위한 장치이다. reverse logarithm function을 이용한다.
- pseudo relevance feedback (PRF)로 논문에서는 Rocchio’s algorithm를 이용하며, 신규 query representation은 사용자 질의 representation과 검색된 상위 k개 문서의 represention으로 표현한다.
- Training with Dynamic Error Margin (DEM)
- BM25가 잘 못하는 질의에 대해서 NRM이 잘하도록 학습하기 위한 방법이다.
- pairwise loss에서 margin을 설정할 때, BM25가 잘하면 margin을 작게 잡고, BM25가 못하면 margin을 크게 설정한다.
- 수식 (3)는 pair loss이고, 수식 (4)는 BM25 점수를 고려해서 margin m을 구하는 수식이다. M 함수는 nrm으로 질의-문서간의 유사도 함수이고, M hat 함수는 BM25로 계산한 질의-문서간의 유사도 함수이다.
세부 사항
- neural ranking model(NRM)을 위한 방법이다.
- NRM 중에서 representation based approach 이며, 이는 질의 벡터와 문서 벡터를 각각 생성하고, 두 벡터간의 유사도를 구하는 방법이다. 유사도 계산시에 ANCE에서는 inner product를 이용한다.
- ANCE는 nrm으로 검색해서 상위 200개 문서 중에서 positive 에 속하지 않는 문서를 negative로 간주하고, 이 negative에서 일부를 추출해서 학습에 사용한다.
- RANCE에서도 nrm으로 검색해서 상위 200개 문서 중에서 negative를 선택한다.
실험데이터
- 평가 데이터 (evaluation data):
- TREC 2019 deep learning track dataset
- MS Marco dataset
- 학습 데이터: MS Marco dataset
- validation data : TREC 2019 deep learning track dataset
- two-fold cross validataion: 반으로 나눠서, 반은 validataion set, 나머지 반은 evaluation set으로 사용
- 질의가 43개로 많지 않음.
실험 결과
- re-ranking 과 full-retrieval 모두에서 ANCE보다 좋은 결과를 보인다. 표 1 참조.
- pseudo relevance feedback (PRF), Dynamic Error Margin (DEM) 기여도가 있다. 표 2 참조.
- PRF의 기여도가 꽤 큼. 그런데 PRF는 검색을 2번 해야 되어서, 서비스에 사용하기 쉽지 않다.
- PRF, DEM을 제외하고, rance만으로는 품질 향상이 그리 크지 않다.. NDCG, recall을 봤을 때.
- 학습 초반에는 1등 문서가 negative로 선택될 가능성이 높다가, 학습이 진행되면서 선택될 가능성이 낮아진다. (그림 2)
댓글