YAKE (Yet Another Keyword Extractor)

YAKE

  • Ricardo Campos, et al., YAKE! Collection-Independent Automatic Keyword Extractor, ecir2018
  • 문서에서 키워드 추출하는 알고리즘 
  • 데모 페이지: http://yake.inesctec.pt/demo/user 

키워드 추출을 위한 5가지 자질 

  • casing : (아마도) 대문자 정보 
  • word positional : 문서의 앞부분에 있는 단어는 중요함 
  • word frequency : 문서에 많이 있는 단어는 중요함 
  • word relatedness to context : 주변 단어가 다양하면 중요하지 않음 
    • 참고) 불용어의 주변 단어는 다양함 
  • word DifSentence : 여러 문장에 있는 단어는 중요함 

5가지 자질을 적절히 (heuristically) 조합해서 키워드 점수 부여 

  • 키워드는 1-gram, 2-gram, 3-gram으로 구성 

댓글

이 블로그의 인기 게시물

utf-8과 utf8