
TF-IDF (Term Frequency-Inverse Document Frequency)
·
딥러닝/자연어
TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) 일반적으로 일부 단어가 더 자주 나타난다는 사실을 조정하여,문서 콜렉션이나 코퍼스에서 단어의 중요도를 측정한 것. = 문서 단어 행렬 (DTM) 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다.이를 위해, 우선 DTM(Document-Term Matrix)을 만든 후, TF-IDF 가중치를 부여합니다. TF-IDF는 주로 문서의 유사도를 구하는 작업,검색 시스템에서 검색 결과의 중요도를 정하는 작업,문서 내에서 특정 단어의 중요도를 구하는 작업 등에 사용될 수 있습니다. TF-IDF는 TF와 IDF를 곱한 값을 의미합니다.문서를 d, 단어를 t,문서의 총 갯수를 n,이라고 표현할..