SambaNova: Nâng tầm khả năng mở rộng AI với bộ nhớ 24TB, vượt mặt Cerebras và Groq

Cuộc đua về tốc độ xử lý token đang trở nên nóng hơn bao giờ hết khi SambaNova, Cerebras và Groq cùng nhau đẩy giới hạn hiệu suất của công nghệ suy luận AI. SambaNova gần đây đã tạo nên cơn sốt khi thiết lập kỷ lục mới cho khả năng suy luận trên mô hình Llama 3.1 405B của Meta. Nền tảng này đạt được tốc độ 132 token đầu ra mỗi giây khi chạy mô hình ở độ chính xác 16 bit gốc.

Trong một cuộc phỏng vấn độc quyền với AIM, Sumti Jairath, kiến trúc sư trưởng của SambaNova, và Raghu Prabhakar, kiến trúc sư và kỹ sư sáng lập, đã hé lộ những điểm khác biệt của SambaNova so với các đối thủ cạnh tranh. Đáng chú ý, trong số ba nhà cung cấp - Groq, Cerebras và SambaNova - SambaNova là nền tảng duy nhất cung cấp Llama 3.1 405B.

Khả năng suy luận API trên SambaNova Cloud được hỗ trợ bởi chip AI tùy chỉnh SN40L của họ, sở hữu kiến trúc Reconfigurable Dataflow Unit (RDU). Được sản xuất trên tiến trình 5nm của TSMC, SN40L RDU tích hợp DRAM, HBM và SRAM trên mỗi chip.

Jairath giải thích rằng một trong những điểm khác biệt chính giữa SambaNova và Cerebras và Groq là hệ thống phân cấp bộ nhớ ba cấp độ của họ. "Nếu bạn xem xét Groq và Cerebras, họ chỉ có SRAM. Không có HBM và không có bộ nhớ dung lượng cao."

Ông tiếp tục giải thích rằng việc chạy mô hình Llama 70B trên Groq yêu cầu chín rack phần cứng, mỗi rack chứa tám nút có thể sử dụng được và tám LPU mỗi nút. Thách thức, ông giải thích, là phải có đủ SRAM để chứa 140 gigabyte bộ nhớ, điều cần thiết cho 70 tỷ tham số.

Ông bổ sung rằng trong khi Groq và Cerebras xử lý mô hình 70B, việc mở rộng quy mô sẽ gặp khó khăn nếu số lượng tham số tăng lên. "Lý do Cerebras và Groq chưa có Llama 3.1 405B là bởi vì dung lượng cần thiết sẽ phải tăng thêm từ năm đến mười lần. Lượng phần cứng cần thiết trở nên không thực tế," ông nói.

Nói về SambaNova, ông giải thích rằng họ chỉ sử dụng một rack, hoặc 16 SN40L RDU, cho cả mô hình Llama3.1 70B và 405B nhờ kiến trúc luồng dữ liệu và hệ thống phân cấp bộ nhớ ba cấp độ của họ. "Chúng tôi có 24 terabyte DDR, một terabyte HBM và khoảng tám gigabyte SRAM. Sự kết hợp này cho phép chúng tôi quản lý tối đa 12 nghìn tỷ tham số trong một rack duy nhất," ông cho biết.

Nói về Cerebras, ông giải thích rằng họ sẽ cần bốn wafer, được triển khai trên bốn rack phần cứng, cho Llama3.1 70B. "Lý do họ chưa cung cấp Llama3.1 405B là vì nó sẽ yêu cầu 12 rack phần cứng - tổng cộng 12 wafer - khiến nó trở nên tốn kém đối với họ," ông nói.

Sẵn sàng hợp tác với OpenAI

SambaNova Systems gần đây đã ra mắt một bản demo mới trên Hugging Face, cung cấp một giải pháp thay thế mã nguồn mở, tốc độ cao cho mô hình o1 của OpenAI. Bản demo sử dụng mô hình Llama 3.1 Instruct của Meta và cạnh tranh trực tiếp với phiên bản phát hành mới nhất của OpenAI.

Jairath cho biết công ty sẵn sàng hợp tác với bất kỳ mô hình mã nguồn mở nào phù hợp với khả năng của o1 của OpenAI. Điều thú vị là ông bổ sung rằng SambaNova cũng sẵn sàng hợp tác với OpenAI để chạy các mô hình của họ.

"Nếu OpenAI muốn sử dụng phần cứng của chúng tôi và chạy các mô hình của họ đằng sau tường lửa của họ, tôi không thấy lý do gì khiến nó không mang lại hiệu suất tốt hơn," ông nói. Jairath cũng chỉ ra rằng các mô hình của OpenAI có khả năng sẽ được hưởng lợi từ phần cứng của SambaNova, nói rằng, "Hiện tại họ đang chạy trên GPU, và kiến trúc mô hình của họ phù hợp tốt với những gì SambaNova cung cấp."

Hiệu quả hơn GPU truyền thống

Prabhakar giải thích rằng việc chạy một thao tác phức tạp như bộ giải mã Transformer trên GPU thường liên quan đến nhiều lần khởi chạy kernel, mỗi lần đều có các mẫu truy cập bộ nhớ riêng và chi phí đồng bộ hóa. Ngược lại, kiến trúc luồng dữ liệu của SN40L RDU cho phép hợp nhất các thao tác này thành một cuộc gọi kernel duy nhất, giảm đáng kể chi phí chung và tăng thông lượng.

"Trên GPU, mỗi lần thực thi bộ giải mã có thể yêu cầu nhiều lần chuyển đến bộ nhớ băng thông cao (HBM), dẫn đến những khoản phí băng thông và độ trễ đáng kể. Bằng cách hợp nhất tất cả các toán tử thành một đơn vị thực thi duy nhất, chúng tôi loại bỏ những bất hiệu quả này và đạt được hiệu suất cao hơn từ 3x đến 4x so với NVIDIA DGX H100. Ngoài ra, bằng cách cung cấp hiệu suất này chỉ với 16 chip, hoặc một rack, SN40L có Hiệu suất/Diện tích tốt hơn 10X so với Cerebras, và Hiệu suất/Diện tích tốt hơn 40X so với Groq, chuyển thành Hiệu suất/TCO tốt hơn nhiều," Prabhkar nói.

Nói về chip SN40L, ông giải thích, "Chip này có hơn nửa gigabyte SRAM trên một socket duy nhất, khoảng 64 gigabyte HBM, và 1,5 terabyte bộ nhớ DDR dung lượng cao ngoài gói. Hệ thống cung cấp 638 teraflops, tương đương với, mặc dù hơi thấp hơn, sức mạnh tính toán của NVIDIA Hopper H100 làm mát bằng không khí cho BF16 teraflops.

Mô hình kinh doanh của SambaNova

Jairath cho biết SambaNova là một công ty đầy đủ chức năng. "Chúng tôi cung cấp mọi thứ, từ chip đến API, về cơ bản là mọi thứ ở giữa." Ông giải thích rằng vào năm 2020, họ bắt đầu bán hệ thống chip.

"Hộp của chúng tôi rất giống với hộp DGX của NVIDIA. Bất kỳ ai cũng có thể lấy nó và sau đó mã hóa, và chúng tôi vẫn bán nó. Sản phẩm đó được gọi là SambaNova Datascale," ông nói. "Ngoài ra, SambaNova Cloud (cloud.sambanova.ai) cung cấp quyền truy cập API vào các mô hình Llama3.1 với các tầng miễn phí và trả phí."

Jairath giải thích rằng mô hình kinh doanh hiện tại của họ phục vụ các doanh nghiệp muốn có một dịch vụ giống như ChatGPT nhưng đằng sau tường lửa của riêng họ. "Nếu ai đó muốn toàn bộ hệ thống - hệ thống chip, tất cả các API, và mô hình - nhưng đằng sau tường lửa của họ, nơi họ có thể đào tạo và chạy mô hình mà không cần gửi dữ liệu ra ngoài, đó là ngành kinh doanh mà chúng tôi đang tham gia," ông nói.

Ông cho biết mục tiêu của họ là cung cấp các giải pháp AI cho doanh nghiệp cho phép khách hàng tinh chỉnh và triển khai các mô hình trên đám mây. Công ty cũng cung cấp một tùy chọn để triển khai những mô hình này một cách an toàn đằng sau tường lửa của khách hàng.

Hơn nữa, ông giải thích rằng trong tương lai gần với sự xuất hiện của các giải pháp AI đại lý, các công ty sẽ không chỉ triển khai một mô hình, thay vào đó sẽ có nhiều mô hình hoạt động cùng nhau, mà các bộ phận khác nhau trong công ty sẽ tinh chỉnh.

"Các doanh nghiệp sẽ chạy hàng trăm mô hình này. Khi họ cần vận hành nhiều mô hình như vậy, họ không thể triển khai một bộ GPU riêng biệt cho mỗi mô hình, vì chi phí sẽ tăng theo cấp số nhân," Jairath kết luận.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top