Google Tận Dụng GPU L4 Của NVIDIA Để Cho Phép Người Dùng Chạy Ứng Dụng Suy Luận AI Trên Cloud

Google đã tận dụng sức mạnh của GPU L4 do NVIDIA sản xuất để cung cấp cho người dùng khả năng chạy các ứng dụng suy luận AI, chẳng hạn như GenAI, trên nền tảng điện toán đám mây.

Tin tức: Google đã chính thức công bố hỗ trợ GPU NVIDIA L4 cho dịch vụ Cloud Run, mở ra một loạt các khả năng mới cho các nhà phát triển.

Lợi ích của việc sử dụng GPU L4 trên Cloud Run:

Suy luận thời gian thực với các mô hình AI nhẹ: Người dùng có thể sử dụng các mô hình AI như Google Gemma (2B/7B) hoặc Meta Llama 3 (8B) để xây dựng chatbot tùy chỉnh hoặc tóm tắt tài liệu trực tuyến.
Phục vụ các mô hình AI GenAI được tinh chỉnh: Điều này cho phép cá nhân hóa các mô hình AI như tạo hình ảnh theo thương hiệu của công ty.
Tăng tốc các dịch vụ Cloud Run cần nhiều tài nguyên: Các tác vụ như nhận dạng hình ảnh, chuyển mã video và hiển thị 3D sẽ được thực hiện nhanh hơn.

Cloud Run là gì?

Cloud Run là một nền tảng được quản lý hoàn toàn cho phép chạy mã trực tiếp trên cơ sở hạ tầng của Google. Nó kết hợp sự linh hoạt của container với sự đơn giản của serverless, giúp tăng năng suất.

Tại sao cần GPU cho suy luận AI?

Nhiều ứng dụng suy luận AI, đặc biệt là những ứng dụng cần xử lý thời gian thực, yêu cầu tăng tốc GPU để mang lại trải nghiệm người dùng mượt mà.

Thông số kỹ thuật:

Mỗi phiên bản Cloud Run hỗ trợ gắn một GPU NVIDIA L4.
Không cần đặt trước GPU.
Hiện tại, Cloud Run GPU có sẵn tại khu vực us-central1 (Iowa), dự kiến sẽ được mở rộng sang châu Âu và châu Á vào cuối năm.

Ưu điểm:

Hiệu suất cao: 24GB VRAM giúp xử lý các mô hình lên đến 9 tỷ tham số, bao gồm Llama 3.1 (8B), Mistral (7B) và Gemma 2 (9B).
Khả năng mở rộng tự động: Dịch vụ tự động thu nhỏ về 0 khi không sử dụng, giúp tối ưu hóa chi phí.

Google cung cấp một bảng so sánh thời gian khởi động lạnh cho các mô hình AI phổ biến:

| Mô hình | Kích thước | Thời gian khởi động | |---|---|---| | gemma:2b | 1.7 GB | 11-17 giây | | gemma2:9b | 5.1 GB | 25-30 giây | | llama2:7b | 3.8 GB | 14-21 giây | | llama2:13b | 7.4 GB | 23-35 giây | | llama3.1:8b | 4.7 GB | 15-21 giây |

Kết luận:

Google Cloud Run với hỗ trợ GPU L4 của NVIDIA là một giải pháp mạnh mẽ cho các ứng dụng suy luận AI. Nó cung cấp hiệu suất cao, khả năng mở rộng linh hoạt và chi phí tối ưu.

Để bắt đầu sử dụng Cloud Run với GPU NVIDIA, người dùng có thể đăng ký tham gia chương trình thử nghiệm tại g.co/cloudrun/gpu.

Google Tận Dụng GPU L4 Của NVIDIA Để Cho Phép Người Dùng Chạy Ứng Dụng Suy Luận AI Trên Cloud