SambaNova Cloud: Đưa Llama 3.1 405B Vào Sử Dụng Với Tốc Độ 100+ Token/Giây

SambaNova, một công ty khởi nghiệp trong lĩnh vực hạ tầng trí tuệ nhân tạo (AI), vừa ra mắt dịch vụ đám mây cho phép truy cập và sử dụng các mô hình ngôn ngữ lớn (LLM) với tốc độ xử lý ấn tượng. Dịch vụ này được thiết kế để cung cấp khả năng suy luận nhanh chóng, cho phép người dùng nhận được phản hồi gần như ngay lập tức từ các mô hình AI, đặc biệt là Llama 3.1 405B của Meta.

Trong bối cảnh AI đang phát triển mạnh mẽ, nhiều nền tảng đám mây đã xuất hiện, cung cấp API truy cập vào các mô hình AI phổ biến. Phần lớn các dịch vụ này dựa trên GPU, nhưng một số nhà cung cấp chuyên biệt như Cerebras, Groq và giờ là SambaNova đang cạnh tranh bằng cách trình làng những giải pháp phần cứng tối ưu hóa cho việc xử lý các mô hình LLM lớn nhất với tốc độ nhanh nhất.

Tốc độ xử lý được đo bằng số lượng "token" mà mô hình AI có thể xử lý trong một giây. Token là cách các mô hình ngôn ngữ mã hóa từ, đoạn từ, dấu câu và số. Do đó, tốc độ xử lý token càng cao, thời gian phản hồi của hệ thống càng nhanh.

SambaNova cho biết họ đã đạt được tốc độ xử lý 132 token/giây với mô hình Llama 3.1 405B (có hơn 405 tỷ tham số, gấp đôi kích thước của GPT-3.5 của OpenAI) và với độ chính xác 16-bit, tương tự như cách nó được huấn luyện. So sánh với con người, tốc độ đọc trung bình của một người là khoảng 5 từ/giây, thì tốc độ xử lý của SambaNova gần như gấp đôi so với các hệ thống GPU nhanh nhất hiện có, theo dữ liệu từ Artificial Analysis.

Llama 3.1 405B là mô hình "biên giới" đầu tiên của Meta, được giới thiệu hồi đầu hè năm nay, có khả năng cạnh tranh với các mô hình lớn hơn từ OpenAI, Anthropic và Google. Việc chạy mô hình 405B với độ chính xác 16-bit không phải là dễ dàng, vì chỉ riêng việc lưu trữ nó đã cần đến 810 GB dung lượng bộ nhớ.

Để vận hành mô hình này, SambaNova sử dụng 16 bộ tăng tốc SN40L, mỗi bộ có 64 GB bộ nhớ HBM3 tốc độ cao và 520 MB SRAM tích hợp. Bộ tăng tốc này, có tên mã Cerulean 1, được thiết kế với bộ nhớ cache lớn, giúp giảm thiểu chi phí hiệu năng thường thấy trong các hệ thống đa GPU.

SambaNova đạt được tốc độ xử lý cao nhờ vào bộ nhớ cache lớn của SN40L, cho phép tránh những vấn đề về hiệu năng thường gặp ở các hệ thống đa GPU. Mặc dù vậy, việc chạy Llama 3.1 405B với độ chính xác 16-bit cũng đòi hỏi một số sự thỏa hiệp, bao gồm việc giảm cửa sổ ngữ cảnh từ 128k xuống còn 8k.

SambaNova Cloud cung cấp cả phiên bản miễn phí và phiên bản doanh nghiệp trả phí. Trong tương lai, công ty cũng dự kiến sẽ ra mắt phiên bản dành cho nhà phát triển, cho phép họ xây dựng các mô hình dựa trên Llama 3.1.

Tuy nhiên, SambaNova không phải là nhà cung cấp duy nhất đang cạnh tranh dựa trên tốc độ xử lý. Cerebras, với dịch vụ đám mây được ra mắt gần đây, đã tuyên bố tốc độ lên tới 450 token/giây với Llama 3.1 70B và đang hướng tới tốc độ 350 token/giây với phiên bản 405B. Groq cũng đã đạt được tốc độ 300 token/giây với Llama 2 70B, và đang tiếp tục phát triển các bộ tăng tốc thế hệ tiếp theo.

Cuộc đua về tốc độ xử lý trong lĩnh vực AI đang ngày càng nóng lên, và SambaNova Cloud với tốc độ ấn tượng của mình hứa hẹn sẽ là một lựa chọn hấp dẫn cho các doanh nghiệp và nhà phát triển muốn tận dụng sức mạnh của các mô hình ngôn ngữ lớn.

SambaNova Cloud: Đưa Llama 3.1 405B Vào Sử Dụng Với Tốc Độ 100+ Token/Giây