Skip to content

첨부용 전처리기 HybridChunker 교체 #80

@kkcdkk

Description

@kkcdkk

프로젝트

No response

상세 설명

Background

  • docling의 결과물로 langchain splitter를 사용할 때 \n이 들어오지 않아 청크가 문장 중간에 끊기는 현상을 발견함. 현재는 첨부용 전처리기에서 docx, hwpx 에서 hybrid chunker를 사용하고 있음. docling document를 md 파일로 변환 후 \n이 포함되게 하고 docx, hwpx에서도 다른 확장자와 같이 recursivesplitter를 사용하도록 함.

To Do

  • docling document에 export_to_markdown을 사용해 md로 변환
  • md를 이용해 기존에 사용하던 langchain recursive splitter로 바꿈

See Also

  • 청크 결과가 이전 방법과 비교해서 차이가 있는지 확인

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions