Sheng-Chieh Lin et al., Distilling Dense Representations for Ranking using Tightly-Coupled Teachers, arXiv:2010.11386
- University of Waterloo 논문. Jimmy Lin이 3저자임
TCT-ColBERT (Tightly-Coupled Teacher ColBERT)
- knowledge distillation 방법
- teacher로 colbert를 사용한다.
- student로는 bi-encoder model을 사용한다.
- BERT의 토큰 임베딩 결과에 대한 average pooling을 임베딩으로 사용한다.
- 질의 임베딩과 문서 임베딩의 유사도는 dot product로 계산한다.
loss 함수
- $\tau_{q_i}^+$는 $i$번째 질의 $q_i$의 positive 문서 집합을 의미한다.
- $D_B$는 in-batch negative 문서 집합를 의미한다.
- $\hat P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 teacher model이 계산한 값이다.
- $P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 student model이 계산한 값이다.
- KL은 KL-divergence를 의미한다.
Hybrid Dense-Sparse Ranking
- BM25와 dense retrieval을 함께 사용해서 문서 점수 $\phi (q, d)$를 계산한다.
- 수식에서 $\phi_{sp}$는 sparse retrieval 모델인 BM25 점수를 의미한다.
- 수식에서 $\phi_{ds}$는 dense retrieval 모델인 student model 점수를 의미한다.
- 수식에서 $D_{sp}$는 sparse retrieval 모델로 검색된 문서들이다.
- 수식에서 $D_{ds}$는 dense retrieval 모델로 검색된 문서들이다.
- sparse retrieval 모델과 dense retrieval 모델 모두로 검색된 문서는 두 모델의 점수를 weighted sum한다.
- sparse retrieval 모델로만 검색된 문서의 경우, dense retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 dense retrieval 모델 점수로 사용한다.
- dense retrieval 모델로만 검색된 문서의 경우, sparse retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 sparse retrieval 모델 점수로 사용한다.
댓글