tct-colbert, waterloo, (2020)

tct-colbert, waterloo, (2020)

10/17/2021 06:38:00 오후

Sheng-Chieh Lin et al., Distilling Dense Representations for Ranking using Tightly-Coupled Teachers, arXiv:2010.11386

University of Waterloo 논문. Jimmy Lin이 3저자임

TCT-ColBERT (Tightly-Coupled Teacher ColBERT)

knowledge distillation 방법
teacher로 colbert를 사용한다.
student로는 bi-encoder model을 사용한다.

BERT의 토큰 임베딩 결과에 대한 average pooling을 임베딩으로 사용한다.
질의 임베딩과 문서 임베딩의 유사도는 dot product로 계산한다.

loss 함수

$\tau_{q_i}^+$는 $i$번째 질의 $q_i$의 positive 문서 집합을 의미한다.
$D_B$는 in-batch negative 문서 집합를 의미한다.
$\hat P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 teacher model이 계산한 값이다.
$P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 student model이 계산한 값이다.
KL은 KL-divergence를 의미한다.

Hybrid Dense-Sparse Ranking

BM25와 dense retrieval을 함께 사용해서 문서 점수 $\phi (q, d)$를 계산한다.
수식에서 $\phi_{sp}$는 sparse retrieval 모델인 BM25 점수를 의미한다.
수식에서 $\phi_{ds}$는 dense retrieval 모델인 student model 점수를 의미한다.
수식에서 $D_{sp}$는 sparse retrieval 모델로 검색된 문서들이다.
수식에서 $D_{ds}$는 dense retrieval 모델로 검색된 문서들이다.
sparse retrieval 모델과 dense retrieval 모델 모두로 검색된 문서는 두 모델의 점수를 weighted sum한다.
sparse retrieval 모델로만 검색된 문서의 경우, dense retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 dense retrieval 모델 점수로 사용한다.
dense retrieval 모델로만 검색된 문서의 경우, sparse retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 sparse retrieval 모델 점수로 사용한다.

댓글