RAG 31 - 12 - 2024

Bạn đã hiểu về tìm kiếm ngữ nghĩa Semantic Search chưa?

Với các truy vấn đơn giản, công cụ tìm kiếm thường dễ dàng tìm ra nội dung phù hợp chỉ bằng cách đối chiếu từ khóa. Ví dụ, khi bạn tìm kiếm “giày thể thao màu trắng,” hệ thống sẽ hiển thị các sản phẩm có từ “giày thể thao” trong tiêu đề hoặc mô tả, và màu trắng trong thuộc tính. Nếu bổ sung các từ đồng nghĩa như “màu ngà” hoặc “màu kem,” bạn có thể tìm được nhiều lựa chọn hơn (Hình 1). Nhưng khi truy vấn trở nên phức tạp hơn, bạn phải tự thêm các từ đồng nghĩa, và kết quả có thể bao gồm cả các loại giày khác như giày chạy bộ hoặc giày sneaker.   Hình 1. Nếu bổ sung các từ đồng nghĩa như “màu ngà” hoặc “màu kem,” bạn có thể tìm được nhiều lựa chọn hơn Chẳng hạn, việc tìm kiếm từ “túi laptop” hoặc thậm chí “túi cho máy tính xách tay” có thể không khó với tìm kiếm từ khóa, nhưng các truy vấn như “đồ dùng để mang máy tính khi đi học” hoặc “làm sao để bảo vệ laptop khi di chuyển?” sẽ được xử lý tốt hơn nhiều bởi tìm kiếm ngữ nghĩa (Hình 2). Hình 2. Nhiều mô tả ngữ nghĩa ám chỉ cùng một đối tượng 1. Tìm kiếm ngữ nghĩa (Semantic Search) là gì?  Chẳng hạn, khi bạn tìm kiếm "địa điểm du lịch mùa hè," tìm kiếm ngữ nghĩa không chỉ nhận diện từ "địa điểm" hay "mùa hè" mà còn cố gắng hiểu rằng bạn đang tìm kiếm những gợi ý về các điểm đến thích hợp cho kỳ nghỉ vào mùa hè. Kết quả có thể bao gồm những bài viết về bãi biển, khu nghỉ dưỡng mát mẻ hoặc các hoạt động ngoài trời phổ biến. Điều này giúp người dùng tiếp cận đúng thông tin mà họ cần, ngay cả khi từ khóa trong truy vấn không xuất hiện trực tiếp trong dữ liệu.

RAG 17 - 12 - 2024

Cơ sở dữ liệu Vector (Vector Database) là gì?

Cơ sở dữ liệu vector là hệ thống lưu trữ và quản lý dữ liệu dưới dạng vector – các dãy số biểu diễn dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh và video. Mỗi vector là một biểu diễn toán học có thể nắm bắt thông tin ngữ nghĩa, nội dung hoặc đặc điểm của dữ liệu gốc. Trong thời đại AI và dữ liệu lớn, dữ liệu phi cấu trúc như hình ảnh, video, đoạn hội thoại hoặc âm thanh chiếm phần lớn thông tin trên Internet và trong đời sống. Tuy nhiên, dữ liệu này rất khó xử lý và tìm kiếm bằng các phương pháp truyền thống vì chúng không có cấu trúc rõ ràng. Chuyển đổi dữ liệu phi cấu trúc thành các vector số thông qua mô hình học máy như mạng nơ-ron hoặc các mô hình ngôn ngữ lớn (LLM). Dưới đây là quy trình phổ biến cho một cơ sở dữ liệu vector: Nguồn ảnh: Bài viết gốc. Truy vấn (Querying): Cơ sở dữ liệu vector so sánh vector truy vấn với các vector trong tập dữ liệu bằng cách sử dụng tìm kiếm tương đồng dựa trên một thước đo do người dùng xác định trước. Điều này giúp tìm ra các vector gần nhất với vector truy vấn, tối đa hóa độ tương đồng.

Bài Đọc Nhiều Nhất

Tổng hợp các mô hình CNN nổi tiếng - Phần 1

Tổng quan ROS cơ bản

Hướng dẫn cài đặt và thực hành Spring Boot (Phần 1)