AI 19 - 06 - 2025

LiteLLM: Chuẩn hóa truy cập LLM và điều phối thông minh qua LLM Gateway

Trong hệ sinh thái AI hiện đại, các mô hình ngôn ngữ lớn (LLM) như GPT-4, Claude 3, Gemini, Mistral hay LLaMA không còn được triển khai theo kiểu đơn lẻ. Thay vào đó, các tổ chức thường kết hợp nhiều mô hình khác nhau để đạt được sự cân bằng giữa hiệu quả, chi phí và độ tin cậy. Tuy nhiên, việc tích hợp này không hề đơn giản: mỗi mô hình có API riêng, yêu cầu bảo mật riêng và cách tính chi phí khác nhau. Điều đó dẫn đến những khó khăn trong quản lý, mở rộng và thay đổi mô hình linh hoạt.

RAG 23 - 05 - 2025

Agentic Chunking – Nâng cao độ chính xác và toàn diện của câu trả lời trong hệ thống RAG

Trong bài trước, chúng ta đã tìm hiểu về Semantic Chunking – kỹ thuật cắt văn bản “có hiểu biết” dựa trên embedding, giúp mô hình AI phân đoạn văn bản thành các phần nhỏ có ý nghĩa để truy xuất hiệu quả. Tuy nhiên, Semantic Chunking vẫn còn một số giới hạn khi phải xử lý các văn bản phức tạp, nơi việc hiểu sâu sắc ngữ cảnh và nội dung chi tiết của từng câu là rất quan trọng.  

RAG 08 - 11 - 2024

Baseline RAG: Tìm Hiểu Về Basic Retriever

  Để tạo ra một hệ thống RAG hiệu quả, tài liệu lớn nên được chia thành các đoạn nhỏ hơn trước khi tạo embedding. Embedding là một dạng biểu diễn ngữ nghĩa của văn bản, giúp hệ thống hiểu được ý nghĩa tổng quát của văn bản. Khi văn bản quá dài hoặc chứa nhiều chủ đề khác nhau, embedding của nó sẽ trở nên kém chính xác và không giữ được giá trị thông tin cốt lõi. Vì vậy, chia nhỏ tài liệu giúp embedding trở nên sắc nét và chính xác hơn, từ đó cải thiện hiệu quả truy xuất thông tin. Chia nhỏ tài liệu lớn: Trước tiên, cần phải chia tài liệu lớn thành các đoạn nhỏ hơn để chuẩn bị cho việc tạo embedding. Điều này giúp tối ưu hóa độ chính xác của embedding. Tạo embedding cho câu hỏi của người dùng: Khi người dùng đặt câu hỏi, câu hỏi đó sẽ được đưa vào hệ thống và chuyển thành embedding để so sánh với các đoạn embedding đã có.  

Generative AI 10 - 06 - 2024

𝐏𝐚𝐢𝐧𝐭𝐢𝐧𝐠 𝐖𝐢𝐭𝐡 𝐀𝐈 | LỘ DIỆN NHỮNG TÁC PHẨM XUẤT SẮC TẠI VÒNG CHUNG KẾT

Vòng Chung kết Cuộc thi Vẽ tranh cùng AI 2024 đã diễn ra vào ngày 08/6/2024 vừa qua tại Trường Đại học Quốc tế Sài Gòn với sự tham dự của các thí sinh, phụ huynh đến từ nhiều tỉnh thành trên khắp cả nước. Các thí sinh ở nhiều tỉnh thành trên khắp cả nước đến tham dự vòng Chung kết cuộc thi.      

Generative AI 16 - 05 - 2024

Tối ưu mô hình ngôn ngữ lớn với llama.cpp và chạy trên … điện thoại?

  Các mô hình ngôn ngữ lớn (LLMs) đang làm thay đổi nhiều ngành công nghiệp. Từ các chatbot hỗ trợ khách hàng đến các công cụ phân tích dữ liệu tinh vi, khả năng của công nghệ mạnh mẽ này đang thay đổi cảnh quan của tương tác kỹ thuật số và tự động hóa. Hình 1. Mô hình ngôn ngữ lớn đang là xu hướng công nghệ hiện đại. Nguồn ảnh. Tuy nhiên, ứng dụng thực tế của các LLMs có thể bị hạn chế bởi nhu cầu về máy tính công suất cao hoặc sự cần thiết cho thời gian phản hồi nhanh. Các mô hình này thường yêu cầu phần cứng tiên tiến, điều này có thể làm khó khăn trong việc áp dụng chúng trong môi trường thực tế. Hình 2. Triển khai mô hình LLaMa 65. 2B yêu cầu tới 260. 8 GB RAM. Nguồn.

Knowledge Distillation 16 - 05 - 2024

Khái niệm về Knowledge Distillation (chắt lọc tri thức) trong machine learning

Hôm nay mình sẽ giới thiệu về khái niệm về Knowledge Distillation (Chắt lọc Tri thức) trong machine learning. 1. Giới thiệu   2. Huấn luyện Distillation Knowledge Huấn luyện mô hình Student nhằm mục đích mô phỏng lại việc mô hình Teacher xử lý thông tin từ dữ liệu đầu vào. Do đó lúc này dữ liệu sẽ được đưa vào cùng lúc với mô hình Teacher và Student , điểm khác biệt mô hình Teacher sẽ được đặt ở trạng thái suy luận (tức không cập nhật tham số) và mô hình Student sẽ được đặt ở trạng thái huấn luyện. Đồng thời thay vì sử dụng nhãn là ground-truth như với các mô hình phân loại thông thường, chúng ta sẽ sử dụng output của mô hình Teacher để làm nhãn cho mô hình Student . Lúc này hàm loss của mô hình có dạng:

Bài Đọc Nhiều Nhất

Tổng hợp các mô hình CNN nổi tiếng - Phần 1
Tổng quan ROS cơ bản
Hướng dẫn cài đặt và thực hành Spring Boot (Phần 1)