Generative AI 19 - 12 - 2024

Hiểu về "Temperature" trong các mô hình ngôn ngữ lớn

Trong các mô hình ngôn ngữ lớn như GPT-3. 5 hoặc GPT-4, tham số "temperature" là một tham số quan trọng quyết định tính ngẫu nhiên của văn bản được sinh ra. Vậy temperature được sử dụng như thế nào và làm sao để điều chỉnh nó? Cùng tìm hiểu!

RAG 17 - 12 - 2024

Cơ sở dữ liệu Vector (Vector Database) là gì?

Cơ sở dữ liệu vector là hệ thống lưu trữ và quản lý dữ liệu dưới dạng vector – các dãy số biểu diễn dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh và video. Mỗi vector là một biểu diễn toán học có thể nắm bắt thông tin ngữ nghĩa, nội dung hoặc đặc điểm của dữ liệu gốc.

Blog kỹ thuật 25 - 02 - 2022

Tổng hợp các mô hình CNN nổi tiếng - Phần 1

Đây sẽ là một bài giới thiệu sơ lược về các kiến trúc CNN kinh điển nhất bắt đầu từ AlexNet năm 2012, tới những mô hình được cải tiến sau này như VGG, ResNet, Inception, MobileNet, … Mô hình CNN qua các năm ở các cuộc thi ImageNet Large Scale Visual Recognition Challenge Nhóm các mô hình này được xây dựng dựa trên các lớp tích chập làm chủ đạo, ban đầu được sử dụng cho các bài toán Phân loại ảnh. Tới năm 2012, sự xuất hiện và thành công của AlexNet đã làm mọi người chú ý tới hướng đi này, lịch sử của nhóm mô hình này chỉ chưa được 10 năm nhưng đã tạo nên một nhánh riêng cho các mô hình máy học - các mô hình Deep learning. Tiếp theo mình sẽ đưa ra sơ lược về các mô hình CNN theo thứ tự thời gian, cũng như các cải tiến của những mô hình sau so với mô hình trước, một số các case study chúng ta có thể áp dụng.   Sự phát triển qua các năm và các hướng phát triển chính của mô hình CNN

Blog kỹ thuật 25 - 02 - 2022

Giới thiệu về Tensorflow Framework

Nhằm hỗ trợ người đọc hiểu rõ và thuận lợi trong quá trình triển khai các Project sử dụng Framework Tensorflow, trong bài viết này em sẽ trình bày chi tiết từ những khái niệm cơ bản nhất đến phần triển khai model và đưa ra ứng dụng thực tế. 1.   Giới thiệu Tensorflow. Tại sao lựa chọn Tensorflow?2.   Cài đặt3.   Các khái niệm cơ bản4.   Luồng hoạt động5.   Xây dựng một mô hình học máy dùng Tensorflow6.   Lợi ích mang lại từ Tensorflow Tại sao lựa chọn Tensorflow? - Có khả năng tương thích và mở rộng tốt. Được Google phát triển cho machine learning phục vụ cả nghiên cứu lẫn xây dựng các ứng dụng thực tế Tensorflow chia làm các layer cơ bản: -  Tensorflow Kernel là một gói triển khai của Tensorflow (Có cả CPU và GPU) nó là cách giao thức gần nhất đối với các thiết bị phần cứng của tensorflow.

Blog kỹ thuật 25 - 02 - 2022

Giới thiệu về Aerospike DB

1.   Aerospike là gì? 2. Tổng quan kiến trúc? Client layer Clustering and Data Distribution Layer Data Storage Layer Aerospike là một lưu trữ key-value với mô hình dữ liệu schemaless. Dữ liệu được đẩy vào trong các hộp chứa, namespace policy. Namespace chia dữ liệu thành các tập(set) tương tự như table trong RDBMS và các bản ghi(record) tương ứng với row trong RDBMS. Mỗi record được đánh một index key duy nhất trong tập set và một hoặc nhiều hơn các tên bins tương ứng với column trong RDBMS.

Blog kỹ thuật 25 - 02 - 2022

Giới thiệu về PyTorch Framework

Deep Learning framework giúp đẩy nhanh quá trình nghiên cứu, triển khai các bài toán liên quan đến AI/ML. Có rất nhiều framework cho Deep Learning như PyTorch, TensorFlow, Keras, MXNet,… Trong đó PyTorch và Tensorflow được sử dụng nhiều trong các Hội nghị Khoa học cũng như trong ứng dụng thực tế. Series bài viết này sẽ giới thiệu về PyTorch để mọi người có thể nắm được cơ bản Framework này cũng như sử dụng nó để giải quyết bài toán từ đầu, nội dung sẽ bao gồm các phần sau:1. Giới thiệu2. Cài đặt3. Tensors4. Autograd5. Neural Networks6. Dataset, DataLoaders7. Loss, Optimizer8. Huấn luyện mô hình9. Save và Load ModelDemo Google Colab: https://colab. research. google. com/drive/1ssBwy1VBSikHHdhBx9gvdDIKDjEM7EEM?usp=sharing Đặc biệt, trong các lĩnh vực nghiên cứu, nhiều tác giả hiện nay sử dụng PyTorch để triển khai bài toán của mình. PyTorch cho thấy lợi thế của nó trong lĩnh vực nghiên cứu bởi việc rất dễ dàng debug model. Trong phần giới thiệu từ Github PyTorch, PyTorch có 2 tính năng chính: Tự động tính toán đạo hàm khi triển khai/xây dựng/huấn luyện mô hình Neural Networks (Autograd, sẽ được trình bày ở phần sau) Ở trang chủ PyTorch có hướng dẫn cài đặt phiên bản mới nhất: Stable (phiên bản hiện tại là 1. 8. 1): phiên bản ổn định, được hỗ trợ và thử nghiệm hiện tại của PyTorch, phù hợp với nhiều đối tượng sử dụng.

Blog kỹ thuật 25 - 02 - 2022

Về Eviction Policy cho database redis

Eviction Policy, tiếng Việt: chính sách trục xuất, là một cơ chế diễn ra khi có thêm dữ liệu được lưu vào database dẫn đến tràn bộ nhớ. Database, cụ thể là redis-server, sẽ phải quyết định xem, xoá bớt dữ liệu hiện tại nó đang giữ để có bộ nhớ trống lưu dữ liệu mới vào. Tránh dẫn đến tình trạng database bị Out-Of-Memory (OOM) và khiến hệ thống tắc nghẽn. Database redis có sẵn một số cơ chế Eviction policy, trong đó quan trọng nhất chính là LRU và Expire set. Expire Set: Mỗi cặp Keys-Value sẽ có thông tin Time-To-Live (second), khi TTL trở về 0, cặp Keys-Value này sẽ bị xoá. Use case: Eviction Policy chỉ được thực thi khi user gửi các lệnh mà kết qủa của lệnh đó sử dụng bộ nhớ vượt quá bộ nhớ tối đa đã cấp cho database. Các lệnh ở đây đa số là các lệnh ghi dữ liệu ( SADD, SET,. . . ), và một số lệnh DEL đặc biệt. allkeys-lru: Xoá các keys thông qua cơ chế Least Recently Used (LRU) để cấp phát thêm bộ nhớ cho data mới.

Bài Đọc Nhiều Nhất

Tổng hợp các mô hình CNN nổi tiếng - Phần 1
Tổng quan ROS cơ bản
Hướng dẫn cài đặt và thực hành Spring Boot (Phần 1)