Meta ra mắt bộ ba mô hình AI Llama 4

Llama 4 là thế hệ mô hình AI đa phương thức mới, đánh dấu một bước tiến đáng kể trong lĩnh vực này. Nó được phát triển bởi Meta và được thiết kế để mang lại sự hiểu biết và tạo sinh nội dung đa dạng một cách tự nhiên.

Các điểm chính bao gồm:

  • Đa dạng về quy mô và kiến trúc mô hình: Llama 4 bao gồm các mô hình với quy mô tham số khác nhau, được thiết kế để phục vụ nhiều nhu cầu tính toán và hiệu suất khác nhau.
    • Llama 4 Behemoth: Mô hình lớn nhất với 288 tỷ tham số và 16 chuyên gia hoạt động. Nó được huấn luyện trên một lượng lớn dữ liệu đa phương thức.
    • Llama 4 Maverick: Mô hình với 178 tỷ tham số và cửa sổ ngữ cảnh rộng 114 nghìn tokens. Nó được mô tả là mô hình đa phương thức tốt nhất hiện có trong lớp của nó. Các mô hình Llama 4 Maverick có 178 tỷ tham số và 400 tỷ tổng số tham số. Chúng duy trì ngữ cảnh dài hơn đáng kể và sử dụng kiến trúc Mixture of Experts (MoE) thưa thớt, trong đó chỉ một phần nhỏ của các chuyên gia được kích hoạt cho mỗi mã thông báo.
    • Llama 4 Scout: Mô hình nhỏ hơn với 16 tỷ tham số và cửa sổ ngữ cảnh công nghiệp là 10 nghìn tokens, với tổng cộng 1098 nghìn tokens. Các mô hình Llama 4 Scout là các mô hình đầu tiên của Meta AI chỉ dựa trên kiến trúc bộ mã hóa. Các mô hình MoE hiệu quả hơn nhiều về tính toán vì chúng chỉ kích hoạt một phần nhỏ tổng số tham số cho mỗi mã thông báo.
  • Hiệu suất vượt trội:
    • Llama 4 Maverick được đánh giá là vượt trội so với Gemini 1.5 Flash và Mistral Large trên một loạt các chuẩn mực.
    • Các mô hình này đạt được kết quả tốt nhất trong lớp về tỷ lệ chi phí trên hiệu suất so với các mô hình trò chuyện thử nghiệm khác, với Llama 4 Maverick đạt điểm số ELO trên 1475 trên LMSys.
    • Theo các đánh giá nội bộ, Llama 4 Maverick và Llama 4 Scout vượt trội hơn đáng kể so với Llama 3 trên nhiều điểm chuẩn.
  • Khả năng đa phương thức: Llama 4 không chỉ xử lý văn bản mà còn tích hợp khả năng hiểu và xử lý hình ảnh và có khả năng sẽ hỗ trợ thêm các phương thức khác. Điều này cho phép nó thực hiện các tác vụ phức tạp hơn liên quan đến nhiều loại dữ liệu.
  • Huấn luyện trên lượng dữ liệu lớn: Các mô hình Llama 4 được huấn luyện trên một lượng lớn dữ liệu đa dạng, bao gồm văn bản, mã, hình ảnh và có thể cả âm thanh. Điều này giúp chúng nắm bắt được nhiều kiến thức và cải thiện khả năng tổng quát hóa.
  • Kỹ thuật huấn luyện tiên tiến: Meta AI đã áp dụng các kỹ thuật tiền huấn luyện và hậu huấn luyện mới để cải thiện hiệu suất và độ an toàn của Llama 4.
    • Fine-grained Structured Pruning (FPSP) đã được sử dụng để nâng cao hiệu quả huấn luyện và giảm chi phí tính toán.
    • Các mô hình đã trải qua quá trình điều chỉnh sau huấn luyện để phù hợp với nhiều trường hợp sử dụng và đạt được sự cân bằng giữa hiệu suất và an toàn. Điều này bao gồm việc sử dụng Direct Preference Optimization (DPO), một phương pháp học tăng cường nhẹ nhàng.
  • Ứng dụng rộng rãi: Meta AI đang cung cấp các mô hình Llama 4 cho cộng đồng để thúc đẩy sự đổi mới.
    • Llama 4 Scout và Llama 4 Maverick có sẵn để tải xuống trên llama.com và Hugging Face.
    • Người dùng có thể trải nghiệm Meta AI, được xây dựng dựa trên Llama 4, trên các nền tảng như WhatsApp, Messenger, Instagram Direct và web.
    • Meta tin rằng việc cung cấp quyền truy cập vào các mô hình này sẽ cho phép các nhà phát triển xây dựng các sản phẩm tốt hơn và giải quyết những thách thức khó khăn.
  • Tập trung vào an toàn: Meta đặc biệt chú trọng đến việc phát triển Llama 4 một cách an toàn và có trách nhiệm. Họ đã thực hiện các biện pháp để giảm thiểu các rủi ro tiềm ẩn và đảm bảo rằng mô hình được sử dụng một cách đạo đức.
  • Dành cho cộng đồng: Meta tin rằng Llama 4 sẽ là nền tảng cho sự đổi mới trong hệ sinh thái AI và họ đang chia sẻ các mô hình này với cộng đồng các nhà phát triển và nhà nghiên cứu

Tóm lại, Llama 4 là một bước tiến quan trọng trong lĩnh vực AI đa phương thức, mang lại hiệu suất vượt trội, khả năng đa dạng và tiềm năng ứng dụng rộng rãi, đồng thời được phát triển với sự chú trọng đến an toàn và khả năng tiếp cận cho cộng đồng