RAG - Text Splitter
·
딥러닝/자연어
* 해당 내용은 학습을 목적으로 작성되었습니다.LangChain은 긴 문서를 작은 단위인 Chunk 로 나누는 텍스트 분리 도구를 다양하게 지원합니다.텍스트를 분리하는 작업을 chunking 이라고 부르기도 합니다.이렇게 문서를 작은 조각으로 나누는 이유는 LLM 모델의 입력 토큰의 개수가 정해져 있기 때문입니다.허용 한도를 넘는 텍스트는 모델에서 입력으로 처리할 수 없게 되는 것입니다.한편, 텍스트가 너무 긴 경우에는 핵심 정보 이외에 불필요한 정보들이 많이 포함될 수 있어서 RAG 품질이 낮아지는 요인이 될 수도 있습니다.핵심 정보가 유지될 수 있는 적절한 크기로 나누는 것이 매우 중요합니다.LangChain이 지원하는 다양한 텍스트 분리기는 분할하려는 텍스트 유형과 사용 사례에 맞춰 선택할 수 있는..
RAG (개요)
·
딥러닝/자연어
* 해당 게시물은 wikidocs 를 참고하여 작성하였습니다. * 문제가 있을시 알려주시면 감사합니다. RAG 개요 RAG 파이프라인은 기존의 언어 모델에 검색 기능을 추가하여, 주어진 질문이나 문제에 대해 더 정확하고 풍부한 정보를 기반으로 답변을 생성할 수 있게 해줌. 파이프라인은 크게 아래 다섯 단계로 구성 * 데이터 로드 * 텍스트 분할 * 인덱싱 * 검색 * 생성 ——— 1. 데이터 로드 RAG에 사용할 데이터를 불러오는 단계 입니다. 외부 데이터 소스에서 정보를 수집하고, 필요한 형식으로 변환하여 시스템에 로드합니다. 예를 들면 공개 데이터셋, 웹 크롤링을 통해 얻은 데이터, 또는 사전에 정리된 자료일 수 있습니다. 가져온 데이터는 검색에 사용될 지식이나 정보를 담고 있어야 합니다. 2. 텍스..
행복한 감자 형아
'rag' 태그의 글 목록