forked from docling-project/docling
-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Description
프로젝트
No response
상세 설명
Background
- docling의 결과물로 langchain splitter를 사용할 때 \n이 들어오지 않아 청크가 문장 중간에 끊기는 현상을 발견함. 현재는 첨부용 전처리기에서 docx, hwpx 에서 hybrid chunker를 사용하고 있음. docling document를 md 파일로 변환 후 \n이 포함되게 하고 docx, hwpx에서도 다른 확장자와 같이 recursivesplitter를 사용하도록 함.
To Do
- docling document에 export_to_markdown을 사용해 md로 변환
- md를 이용해 기존에 사용하던 langchain recursive splitter로 바꿈
See Also
- 청크 결과가 이전 방법과 비교해서 차이가 있는지 확인