RAG truyền thống vẫn còn nhiều hạn chế:
Trong hệ sinh thái AI hiện đại, các mô hình ngôn ngữ lớn (LLM) như GPT-4, Claude 3, Gemini, Mistral hay LLaMA không còn được triển khai theo kiểu đơn lẻ. Thay vào đó, các tổ chức thường kết hợp nhiều mô hình khác nhau để đạt được sự cân bằng giữa hiệu quả, chi phí và độ tin cậy. Tuy nhiên, việc tích hợp này không hề đơn giản: mỗi mô hình có API riêng, yêu cầu bảo mật riêng và cách tính chi phí khác nhau. Điều đó dẫn đến những khó khăn trong quản lý, mở rộng và thay đổi mô hình linh hoạt.