SambaNova Đạt Kỷ Lục Tốc Độ Xử Lý Mô Hình Llama 3.1 405B
SambaNova Systems, một công ty chuyên về giải pháp phần cứng và phần mềm trí tuệ nhân tạo (AI), vừa đạt được một cột mốc mới về hiệu suất, thiết lập kỷ lục thế giới về tốc độ xử lý mô hình Llama 3.1 405B của Meta, đạt tốc độ 114 token mỗi giây. Hiệu suất này, được xác nhận bởi Artificial Analysis, vượt xa các nhà cung cấp khác hơn bốn lần, khẳng định vị thế dẫn đầu của SambaNova trong lĩnh vực tốc độ và hiệu quả AI.
Andrew Ng, người sáng lập DeepLearning.ai, chia sẻ sự ấn tượng: "Tôi đã thử nghiệm API của SambaNova Systems để phục vụ token Llama 3.1 405B tốc độ cao. Thật tuyệt vời khi thấy mô hình hàng đầu chạy với tốc độ như vậy. Xin chúc mừng Samba Nova đã đạt kỷ lục tốc độ 114 token/giây."
Kỷ lục này được thiết lập bằng cách sử dụng một nút đơn 16-socket, hoạt động với độ chính xác 16-bit đầy đủ trên chip RDU tùy chỉnh của SambaNova. Phát triển này giải quyết bài toán cân bằng giữa chất lượng và tốc độ trong các mô hình lớn như Llama 3.1 405B, cho phép triển khai mô hình trong nhiều ứng dụng nhạy cảm với tốc độ, chẳng hạn như hỗ trợ khách hàng và đại lý AI.
George Cameron, đồng sáng lập Artificial Analysis, xác nhận kỷ lục, cho biết nền tảng của SambaNova giúp giảm thiểu sự đánh đổi giữa kích thước mô hình và tốc độ hoạt động, khiến nó trở nên khả thi cho các ứng dụng thời gian thực.
Chip RDU thế hệ thứ tư của SambaNova, SN40L, đóng vai trò quan trọng trong thành tựu này, hỗ trợ xử lý thời gian thực, mở ra những trường hợp sử dụng doanh nghiệp mới. Bao gồm: xử lý tài liệu thông minh, AI trợ lý thời gian thực và AI có thể giải thích, tất cả đều hưởng lợi từ tốc độ của nền tảng.
Công ty hiện đang cung cấp bản demo của mô hình Llama 3.1 405B trên trang web của họ và mời các nhà phát triển truy cập API để xây dựng các ứng dụng AI cấp doanh nghiệp.
SambaNova Systems là một công ty công nghệ chuyên về phần cứng và phần mềm trí tuệ nhân tạo (AI). Được thành lập vào năm 2017 tại Palo Alto, California bởi Kunle Olukotun, Rodrigo Liang và Christopher Ré, công ty cung cấp các giải pháp được thiết kế đặc biệt cho các ứng dụng học sâu và AI.
Công nghệ của công ty được xây dựng dựa trên chip SN40L, có kiến trúc luồng dữ liệu có thể cấu hình lại. Thiết kế này tối ưu hóa việc di chuyển dữ liệu và giảm độ trễ, khiến nó trở nên hiệu quả cao cho các tác vụ AI so với các hệ thống dựa trên GPU truyền thống.

0 comments Blogger 0 Facebook
Đăng nhận xét