RAG
17 - 12 - 2024
Cơ sở dữ liệu vector là hệ thống lưu trữ và quản lý dữ liệu dưới dạng vector – các dãy số biểu diễn dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh và video. Mỗi vector là một biểu diễn toán học có thể nắm bắt thông tin ngữ nghĩa, nội dung hoặc đặc điểm của dữ liệu gốc. Trong thời đại AI và dữ liệu lớn, dữ liệu phi cấu trúc như hình ảnh, video, đoạn hội thoại hoặc âm thanh chiếm phần lớn thông tin trên Internet và trong đời sống. Tuy nhiên, dữ liệu này rất khó xử lý và tìm kiếm bằng các phương pháp truyền thống vì chúng không có cấu trúc rõ ràng. Chuyển đổi dữ liệu phi cấu trúc thành các vector số thông qua mô hình học máy như mạng nơ-ron hoặc các mô hình ngôn ngữ lớn (LLM). Dưới đây là quy trình phổ biến cho một cơ sở dữ liệu vector: Nguồn ảnh: Bài viết gốc. Truy vấn (Querying): Cơ sở dữ liệu vector so sánh vector truy vấn với các vector trong tập dữ liệu bằng cách sử dụng tìm kiếm tương đồng dựa trên một thước đo do người dùng xác định trước. Điều này giúp tìm ra các vector gần nhất với vector truy vấn, tối đa hóa độ tương đồng.