tct-colbert, waterloo, (2020)

Sheng-Chieh Lin et al., Distilling Dense Representations for Ranking using Tightly-Coupled Teachers, arXiv:2010.11386

  • University of Waterloo 논문. Jimmy Lin이 3저자임 

TCT-ColBERT (Tightly-Coupled Teacher ColBERT) 

  • knowledge distillation 방법 
  • teacher로 colbert를 사용한다. 
  • student로는 bi-encoder model을 사용한다. 
    • BERT의 토큰 임베딩 결과에 대한 average pooling을 임베딩으로 사용한다. 
    • 질의 임베딩과 문서 임베딩의 유사도는 dot product로 계산한다. 

loss 함수 

  • $\tau_{q_i}^+$는 $i$번째 질의 $q_i$의 positive 문서 집합을 의미한다.  
  • $D_B$는 in-batch negative 문서 집합를 의미한다. 
  • $\hat P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 teacher model이 계산한 값이다. 
  • $P(d'|q_i)$ 는 $q_i$가 주어졌을 때, 문서 $d'$의 확률을 student model이 계산한 값이다.
  • KL은 KL-divergence를 의미한다. 



    Hybrid Dense-Sparse Ranking

    • BM25와 dense retrieval을 함께 사용해서 문서 점수 $\phi (q, d)$를 계산한다. 
    • 수식에서 $\phi_{sp}$는 sparse retrieval 모델인 BM25 점수를 의미한다. 
    • 수식에서  $\phi_{ds}$는 dense retrieval 모델인 student model 점수를 의미한다. 
    • 수식에서 $D_{sp}$는 sparse retrieval 모델로 검색된 문서들이다. 
    • 수식에서 $D_{ds}$는 dense retrieval 모델로 검색된 문서들이다. 
    • sparse retrieval 모델과 dense retrieval 모델 모두로 검색된 문서는 두 모델의 점수를 weighted sum한다. 
    • sparse retrieval 모델로만 검색된 문서의 경우, dense retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 dense retrieval 모델 점수로 사용한다. 
    • dense retrieval 모델로만 검색된 문서의 경우, sparse retrieval 모델로 검색된 문서 중에서 가장 낮은 점수를 sparse retrieval 모델 점수로 사용한다. 






      댓글

      이 블로그의 인기 게시물

      utf-8과 utf8