RAG 17 - 12 - 2024

Cơ sở dữ liệu Vector (Vector Database) là gì?

Cơ sở dữ liệu vector là hệ thống lưu trữ và quản lý dữ liệu dưới dạng vector – các dãy số biểu diễn dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh và video. Mỗi vector là một biểu diễn toán học có thể nắm bắt thông tin ngữ nghĩa, nội dung hoặc đặc điểm của dữ liệu gốc. Trong thời đại AI và dữ liệu lớn, dữ liệu phi cấu trúc như hình ảnh, video, đoạn hội thoại hoặc âm thanh chiếm phần lớn thông tin trên Internet và trong đời sống. Tuy nhiên, dữ liệu này rất khó xử lý và tìm kiếm bằng các phương pháp truyền thống vì chúng không có cấu trúc rõ ràng. Chuyển đổi dữ liệu phi cấu trúc thành các vector số thông qua mô hình học máy như mạng nơ-ron hoặc các mô hình ngôn ngữ lớn (LLM). Dưới đây là quy trình phổ biến cho một cơ sở dữ liệu vector: Nguồn ảnh: Bài viết gốc. Truy vấn (Querying): Cơ sở dữ liệu vector so sánh vector truy vấn với các vector trong tập dữ liệu bằng cách sử dụng tìm kiếm tương đồng dựa trên một thước đo do người dùng xác định trước. Điều này giúp tìm ra các vector gần nhất với vector truy vấn, tối đa hóa độ tương đồng.

RAG 08 - 11 - 2024

Baseline RAG: Tìm Hiểu Về Basic Retriever

  Để tạo ra một hệ thống RAG hiệu quả, tài liệu lớn nên được chia thành các đoạn nhỏ hơn trước khi tạo embedding. Embedding là một dạng biểu diễn ngữ nghĩa của văn bản, giúp hệ thống hiểu được ý nghĩa tổng quát của văn bản. Khi văn bản quá dài hoặc chứa nhiều chủ đề khác nhau, embedding của nó sẽ trở nên kém chính xác và không giữ được giá trị thông tin cốt lõi. Vì vậy, chia nhỏ tài liệu giúp embedding trở nên sắc nét và chính xác hơn, từ đó cải thiện hiệu quả truy xuất thông tin. Chia nhỏ tài liệu lớn: Trước tiên, cần phải chia tài liệu lớn thành các đoạn nhỏ hơn để chuẩn bị cho việc tạo embedding. Điều này giúp tối ưu hóa độ chính xác của embedding. Tạo embedding cho câu hỏi của người dùng: Khi người dùng đặt câu hỏi, câu hỏi đó sẽ được đưa vào hệ thống và chuyển thành embedding để so sánh với các đoạn embedding đã có.  

Bài Đọc Nhiều Nhất

Tổng hợp các mô hình CNN nổi tiếng - Phần 1

Tổng quan ROS cơ bản

Hướng dẫn cài đặt và thực hành Spring Boot (Phần 1)