RAG - Text Splitter
·
딥러닝/자연어
* 해당 내용은 학습을 목적으로 작성되었습니다.LangChain은 긴 문서를 작은 단위인 Chunk 로 나누는 텍스트 분리 도구를 다양하게 지원합니다.텍스트를 분리하는 작업을 chunking 이라고 부르기도 합니다.이렇게 문서를 작은 조각으로 나누는 이유는 LLM 모델의 입력 토큰의 개수가 정해져 있기 때문입니다.허용 한도를 넘는 텍스트는 모델에서 입력으로 처리할 수 없게 되는 것입니다.한편, 텍스트가 너무 긴 경우에는 핵심 정보 이외에 불필요한 정보들이 많이 포함될 수 있어서 RAG 품질이 낮아지는 요인이 될 수도 있습니다.핵심 정보가 유지될 수 있는 적절한 크기로 나누는 것이 매우 중요합니다.LangChain이 지원하는 다양한 텍스트 분리기는 분할하려는 텍스트 유형과 사용 사례에 맞춰 선택할 수 있는..