TF-IDF (Term Frequency-Inverse Document Frequency)
·
딥러닝/자연어
TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) 일반적으로 일부 단어가 더 자주 나타난다는 사실을 조정하여,문서 콜렉션이나 코퍼스에서 단어의 중요도를 측정한 것. = 문서 단어 행렬 (DTM) 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다.이를 위해, 우선 DTM(Document-Term Matrix)을 만든 후, TF-IDF 가중치를 부여합니다. TF-IDF는 주로 문서의 유사도를 구하는 작업,검색 시스템에서 검색 결과의 중요도를 정하는 작업,문서 내에서 특정 단어의 중요도를 구하는 작업 등에 사용될 수 있습니다. TF-IDF는 TF와 IDF를 곱한 값을 의미합니다.문서를 d, 단어를 t,문서의 총 갯수를 n,이라고 표현할..
문서 단어 행렬 (DTM, Document-Term Matrix, DTM)
·
딥러닝/자연어
1. DTM 표기법 문서 단어 행렬이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것을 말합니다.쉽게 생각하면 각 문서에 대한 BoW를 하나의 행렬로 만든 것으로 생각할 수 있으며,BoW와 다른 표현 방법이 아니라 BoW 표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어 입니다.    과일이길고노란먹고바나나사과싶은저는좋아요문서1000101100문서2000110100문서3011020000문서4100000011 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기합니다.문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 점에서 의의를 갖습니다. 만약 필요에 따라서는 형태소 분석기로 단어 토큰화를 수행하고, 불용어에 해당되는 조사들 또한 제거하여 더 정제된 DTM을 만..
RAG (개요)
·
딥러닝/자연어
* 해당 게시물은 wikidocs 를 참고하여 작성하였습니다. * 문제가 있을시 알려주시면 감사합니다. RAG 개요 RAG 파이프라인은 기존의 언어 모델에 검색 기능을 추가하여, 주어진 질문이나 문제에 대해 더 정확하고 풍부한 정보를 기반으로 답변을 생성할 수 있게 해줌. 파이프라인은 크게 아래 다섯 단계로 구성 * 데이터 로드 * 텍스트 분할 * 인덱싱 * 검색 * 생성 ——— 1. 데이터 로드 RAG에 사용할 데이터를 불러오는 단계 입니다. 외부 데이터 소스에서 정보를 수집하고, 필요한 형식으로 변환하여 시스템에 로드합니다. 예를 들면 공개 데이터셋, 웹 크롤링을 통해 얻은 데이터, 또는 사전에 정리된 자료일 수 있습니다. 가져온 데이터는 검색에 사용될 지식이나 정보를 담고 있어야 합니다. 2. 텍스..
행복한 감자 형아
'딥러닝' 카테고리의 글 목록