RAG
23 - 05 - 2025
Thay vì chỉ đơn thuần dựa vào embedding, Agentic Chunking cho phép các LLMs chủ động đánh giá từng câu trong văn bản để quyết định xem câu đó nên được thêm vào chunk hiện tại hay tạo thành một chunk mới. Đồng thời, hệ thống cũng liên tục cập nhật tiêu đề (Title) và tóm tắt (Summary) của từng chunk dựa trên nội dung được bổ sung, giúp tổ chức thông tin rõ ràng và chính xác hơn. Quy trình này không chỉ nâng cao độ chính xác và tính toàn diện của các phần thông tin được chia nhỏ, mà còn hỗ trợ hiệu quả cho các hệ thống truy xuất và sinh câu trả lời tự động, đặc biệt là trong các mô hình Retrieval-Augmented Generation. Agentic Chunking là một phương pháp chia nhỏ văn bản linh hoạt, thông minh, được điều khiển bởi các mô hình ngôn ngữ lớn. Quy trình này giúp tạo ra các đoạn chunk có nội dung tập trung, dễ quản lý và nâng cao chất lượng truy xuất thông tin.
Khởi tạo chunk đầu tiên với câu đầu tiênHệ thống bắt đầu bằng việc tạo một chunk ban đầu chứa câu đầu tiên của văn bản. Đồng thời, nó cập nhật tiêu đề Title và tóm tắt Summary của chunk này dựa trên nội dung câu vừa thêm.
Duyệt lần lượt từng câu trong văn bảnAgent (mô hình LLM) sẽ phân tích từng câu tiếp theo theo thứ tự trong văn bản. Mỗi câu được xem xét kỹ lưỡng để xác định xem có nên đưa vào chunk hiện tại hay không.
Quyết định thêm câu vào chunk hiện tại hoặc tạo chunk mới
Nếu câu mới có liên quan chặt chẽ về nội dung và ngữ cảnh với chunk hiện tại, câu sẽ được thêm vào chunk đó. Sau đó, Title và Summary của chunk được cập nhật lại để phản ánh nội dung mới.
Nếu câu không phù hợp để thêm vào chunk hiện tại (ví dụ: thay đổi chủ đề hoặc quá dài gây mất tập trung), hệ thống sẽ tạo một chunk mới với câu đó làm nội dung khởi đầu. Title và Summary cho chunk mới cũng được thiết lập dựa trên câu này.