Vận hành Mô hình AI Cao cấp Ngay Trên Máy Tính Cá nhân

Mục lục

Lợi ích của việc phát triển và thử nghiệm với mô hình mã nguồn mở
Giới thiệu về Ollama
- Các mô hình AI tương thích
- Yêu cầu hệ thống
- Thử nghiệm hiệu suất
Hướng dẫn cài đặt và vận hành Ollama
- Tải xuống và cài đặt
- Nạp mô hình Llama 3.1 8B
- Quản lý mô hình đã cài đặt
Bổ sung giao diện WebUI
- Cài đặt Docker Desktop
- Cài đặt Open WebUI
- Truy cập Open WebUI
Tích hợp với IDE và API
Nâng cao hiệu suất với GPU
- Sử dụng GPU NVIDIA
- Sử dụng GPU AMD
Chạy Ollama trong Docker container
- GPU NVIDIA với Docker
- GPU AMD với Docker
Kết luận

Lợi ích của việc phát triển và thử nghiệm với mô hình mã nguồn mở

So với việc phụ thuộc hoàn toàn vào các mô hình ngôn ngữ lớn (LLM) được lưu trữ công khai từ các nhà cung cấp như OpenAI, Microsoft, Meta hay Google, việc tự vận hành mô hình mã nguồn mở mang lại nhiều ưu điểm:

Bảo mật dữ liệu: Các LLM được lưu trữ công khai yêu cầu gửi dữ liệu qua internet, tiềm ẩn rủi ro về quyền riêng tư và bảo mật. Chạy mô hình cục bộ đảm bảo dữ liệu nhạy cảm luôn nằm trong tầm kiểm soát của bạn.

Tùy chỉnh: Mô hình mã nguồn mở cho phép tùy chỉnh cao hơn. Nhà phát triển có thể tinh chỉnh, điều chỉnh siêu tham số và sửa đổi kiến trúc để phù hợp với nhu cầu cụ thể.

Kiểm soát chi phí: Dịch vụ AI dựa trên đám mây có thể rất tốn kém, đặc biệt là đối với các ứng dụng quy mô lớn. Lưu trữ mô hình cục bộ giúp giảm đáng kể chi phí sử dụng API và truyền dữ liệu.

Khả năng ngoại tuyến: Mô hình cục bộ có thể được sử dụng mà không cần kết nối internet, điều này rất cần thiết cho các ứng dụng yêu cầu tính khả dụng cao hoặc ở khu vực có kết nối internet không ổn định.

Linh hoạt và thử nghiệm: Tự lưu trữ mô hình cho phép bạn thử nghiệm các thuật toán và cấu hình khác nhau, từ đó tạo ra các giải pháp sáng tạo và hiểu biết sâu hơn về công nghệ AI.

Tự do khỏi chính sách sử dụng: Chạy LLM cục bộ đồng nghĩa với việc bạn không bị ràng buộc bởi các chính sách sử dụng của OpenAI, Microsoft, Meta hay Google. Bạn có thể sử dụng bất kỳ lời nhắc nào và triển khai LLM đã được sửa đổi, được đào tạo trên dữ liệu mà các dịch vụ này có thể hạn chế.

Giới thiệu về Ollama

Ollama là một nền tảng mã nguồn mở linh hoạt, được cấp phép MIT, được thiết kế để giúp các nhà phát triển và nhà nghiên cứu dễ dàng chạy và quản lý các mô hình học máy cục bộ trên phần cứng của riêng họ.

Các mô hình AI tương thích: Ollama hỗ trợ nhiều mô hình AI, bao gồm:

Llama 3.1 (nhiều biến thể tham số)
Google Gemma2 (nhiều biến thể tham số)
Phi 3 Mini & Medium
Mistral
Moondream 2
Neural Chat
Starling
Code Llama
Llama 2 Uncensored
LLaVA
Solar

Yêu cầu hệ thống:
Ollama khuyến nghị tối thiểu 8 GB RAM cho các mô hình 7B, 16 GB cho 13B và 32 GB cho 33B.

Thử nghiệm hiệu suất:
Bài viết đã thử nghiệm Ollama trên Macbook Pro M1 Pro và M1 Ultra với 32GB và 64GB RAM. Kết quả cho thấy hiệu suất tốt với các mô hình có tham số 8B-10B (Llama 3.1, Google Gemma2) khi chỉ sử dụng CPU. Tuy nhiên, biến thể 70B gặp phải một số hạn chế về hiệu suất. Hệ thống Linux với GPU NVIDIA hoặc AMD dự kiến sẽ xử lý các mô hình này hiệu quả hơn.

Hướng dẫn cài đặt và vận hành Ollama

Tải xuống và cài đặt:

Truy cập trang tải xuống của Ollama và chọn trình cài đặt phù hợp với hệ điều hành (MacOS, Linux, Windows).
Làm theo hướng dẫn cài đặt được cung cấp.

Nạp mô hình Llama 3.1 8B:

Truy cập trang thư viện Llama 3.1 trên Ollama và sao chép lệnh để tải mô hình Llama 3.1 8B: ollama run llama3.1:8b
Mở terminal (MacOS, Linux) hoặc Command Prompt/PowerShell (Windows), dán lệnh trên và nhấn Enter.
Sau khi mô hình được tải, bạn có thể gửi truy vấn trò chuyện để kiểm tra chức năng của nó.

Quản lý mô hình đã cài đặt:

Liệt kê mô hình: Sử dụng lệnh ollama list
Xóa mô hình: Sử dụng lệnh ollama rm <tên_mô_hình>
Thêm mô hình mới: Duyệt qua thư viện Ollama và sử dụng lệnh ollama run <tên_mô_hình>

Bổ sung giao diện WebUI

Cài đặt Docker Desktop:

Truy cập trang Bắt đầu của Docker và tải xuống Docker Desktop cho hệ điều hành của bạn (MacOS, Linux, Windows).
Làm theo hướng dẫn cài đặt và khởi động Docker sau khi hoàn tất.

Cài đặt Open WebUI:

Mở terminal (MacOS, Linux) hoặc Command Prompt/PowerShell (Windows) và chạy lệnh sau:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Truy cập Open WebUI:

Mở Docker Desktop và điều hướng đến bảng điều khiển.
Tìm vùng chứa Open WebUI và nhấp vào liên kết bên dưới Cổng để mở WebUI trong trình duyệt.
Tạo tài khoản Open WebUI (nếu bạn chưa có) và đăng nhập.

Tích hợp với IDE và API

Ollama có thể được tích hợp vào các Môi trường Phát triển Tích hợp (IDE) khác nhau bằng cách sử dụng API, giúp nâng cao quy trình phát triển bằng cách cung cấp tương tác liền mạch với các mô hình AI.

Sử dụng Continue để tích hợp IDE:

Đảm bảo Ollama đang chạy và có thể truy cập được.
Làm theo hướng dẫn trên blog Ollama Continue để cài đặt Continue trong IDE ưa thích của bạn.

Với Continue và API Ollama, bạn có thể tận dụng trực tiếp các tính năng hỗ trợ code do AI cung cấp như đề xuất code, hoàn thành code và hỗ trợ gỡ lỗi ngay trong môi trường phát triển của mình.

Nâng cao hiệu suất với GPU

Đối với các ứng dụng đòi hỏi khắt khe hơn, đặc biệt là những ứng dụng yêu cầu các mô hình lớn hơn như mô hình Llama 3.1 70B và 405B, bạn nên chạy Ollama trên hệ thống Linux được trang bị GPU mạnh mẽ.

Sử dụng GPU NVIDIA:

Cài đặt CUDA và cuDNN theo hướng dẫn từ tài liệu NVIDIA CUDA.
Sau khi cài đặt, đảm bảo môi trường của bạn được định cấu hình chính xác.
Chạy lệnh sau: ollama run llama3.1:70b --use-gpu

Sử dụng GPU AMD:

Cài đặt ROCm theo hướng dẫn từ tài liệu ROCm.
Sau khi cài đặt, đảm bảo môi trường của bạn được định cấu hình chính xác.
Chạy lệnh sau: ollama run llama3.1:70b --use-gpu

Chạy Ollama trong Docker container

Bạn vẫn có thể tận dụng hỗ trợ GPU nếu muốn chạy Ollama trong Docker container. Lưu ý rằng các hướng dẫn này hiện chỉ áp dụng cho Linux.

GPU NVIDIA với Docker:

Cài đặt CUDA và cuDNN như đã đề cập ở trên.
Cài đặt NVIDIA Container Engine theo hướng dẫn từ tài liệu Docker của NVIDIA.
Sử dụng lệnh sau để chạy Ollama với hỗ trợ GPU NVIDIA trong Docker container:

docker run --gpus all -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v ollama:/app/backend/data --name ollama --restart always ollama/ollama:latest

GPU AMD với Docker:

Cài đặt ROCm theo hướng dẫn từ tài liệu ROCm.
Sử dụng lệnh sau để chạy Ollama với hỗ trợ ROCm trong Docker container:

docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm

Vận hành Mô hình AI Cao cấp Ngay Trên Máy Tính Cá nhân