Cache-Augmented Generation là gì và nó có tốt hơn RAG?

1. Cache-Augmented Generation (CAG)

 

Mô hình Cache-Augmented Generation (CAG) là một phương pháp cải tiến trong việc tạo ra văn bản sử dụng các mô hình ngôn ngữ lớn (LLMs), nơi mô hình không phải thực hiện các phép tính thời gian thực mà thay vào đó sử dụng bộ nhớ đã được tính toán sẵn (KV-cache).

Cách thức hoạt động: Khi mô hình nhận dữ liệu đầu vào, thay vì phải truy xuất dữ liệu hoặc tính toán mọi thứ từ đầu, nó sử dụng bộ nhớ đã được tính toán sẵn (KV-cache). Bộ nhớ này chứa các thông tin liên quan mà mô hình có thể tái sử dụng trong quá trình sinh câu trả lời.

  • KV-Cache: Là bộ nhớ lưu trữ thông tin đã được tính toán trước đó, mô hình có thể sử dụng lại thông tin này mà không cần phải thực hiện lại phép tính nặng.
  • Pre-computation of Data: Trước khi sử dụng, dữ liệu sẽ được tính toán và lưu vào bộ nhớ KV. Việc này giúp giảm tải cho mô hình trong quá trình xử lý và sinh văn bản.

Lợi ích:

  • Giảm thiểu độ trễ: Vì thông tin đã được tính toán và lưu trữ sẵn, quá trình sinh văn bản trở nên nhanh hơn.

  • Tiết kiệm tài nguyên tính toán: Mô hình không cần phải truy xuất từ các cơ sở dữ liệu hoặc tính toán lại mọi thứ từ đầu.

 

2. CAG vs. RAG

 

CAG có một lợi thế trong việc giảm độ trễ vì nó không cần phải truy xuất thông tin từ các cơ sở dữ liệu bên ngoài. Tuy nhiên, RAG có thể cung cấp các kết quả cập nhật và chính xác hơn nhờ vào khả năng truy xuất thông tin mới.