SambaNova, Được Hỗ Trợ Bởi BlackRock, Ra Mắt Dịch Vụ Suy Luận Trí Tuệ Nhân Tạo "Nhanh Nhất Thế Giới"

SambaNova Systems, một công ty trí tuệ nhân tạo được hỗ trợ bởi các nhà đầu tư hàng đầu như SoftBank, BlackRock, SK Telecom và các bộ phận đầu tư mạo hiểm của Intel và Samsung, vừa ra mắt dịch vụ suy luận AI trên nền tảng đám mây, tuyên bố sở hữu tốc độ suy luận nhanh nhất thế giới.

Dịch vụ SambaNova Cloud cho phép các doanh nghiệp chạy mô hình Llama 3.1 của Meta với tốc độ đáng kinh ngạc: 461 mã thông báo mỗi giây (t/s) cho phiên bản 70 tỷ tham số và 132 t/s cho phiên bản khổng lồ 405 tỷ tham số. SambaNova khẳng định dịch vụ đám mây mới của mình sẽ giúp các nhà phát triển xây dựng và chạy các mô hình AI với tốc độ chưa từng có và độ trễ thấp, vượt xa tốc độ suy luận của các hệ thống do các nhà cung cấp như OpenAI, Anthropic và Google vận hành.

Rodrigo Liang, Giám đốc điều hành của SambaNova Systems, chia sẻ: "SambaNova Cloud là dịch vụ API nhanh nhất dành cho các nhà phát triển. Chúng tôi cung cấp tốc độ kỷ lục thế giới và độ chính xác 16 bit đầy đủ - tất cả đều được hỗ trợ bởi chip AI nhanh nhất thế giới. SambaNova Cloud đang mang đến những mô hình mã nguồn mở chính xác nhất cho cộng đồng nhà phát triển rộng lớn với tốc độ mà họ chưa từng trải nghiệm trước đây."

SambaNova đang cạnh tranh với các công ty như Nvidia bằng cách thiết kế phần cứng chuyên dụng cho việc chạy các mô hình AI. Chip SN40L của họ được thiết kế để có chi phí thấp hơn và dễ sử dụng hơn so với phần cứng của Nvidia như H100. Với kiến trúc bộ nhớ ba tầng được thiết kế riêng và kiến trúc luồng dữ liệu độc quyền, SN40L của SambaNova được thiết kế để tăng tốc độ xử lý các mô hình AI.

SambaNova Cloud tương tự như các dịch vụ từ các đối thủ cạnh tranh như Groq và Cerebras, tuy nhiên, phần cứng của SambaNova được tối ưu hóa đến mức có thể chạy trên một rack duy nhất chỉ gồm tám khay chứa SN40L, giúp giảm thiểu diện tích cơ sở hạ tầng cần thiết để vận hành.

Người dùng cũng có thể chuyển đổi giữa các mô hình với tốc độ cao, tự động hóa quy trình làm việc bằng chuỗi lời nhắc và nhập các mô hình đã được tinh chỉnh để chạy trên nền tảng.

Liang nhấn mạnh: "Các đối thủ cạnh tranh hiện chưa cung cấp mô hình 405B cho các nhà phát triển do chip của họ không hiệu quả. Các nhà cung cấp chạy trên GPU Nvidia đang giảm độ chính xác của mô hình này, làm giảm độ chính xác của nó và chạy với tốc độ quá chậm. Chỉ có SambaNova mới chạy được 405B - mô hình mã nguồn mở tốt nhất hiện có - ở độ chính xác đầy đủ và với tốc độ 132 mã thông báo mỗi giây."

Andrew Ng, một chuyên gia tiên phong trong lĩnh vực máy học, người đồng sáng lập Google Brain, đã đánh giá cao SambaNova Cloud là một "thành tựu kỹ thuật ấn tượng". Ông cho rằng: "Quy trình làm việc theo kiểu tác nhân đang mang lại kết quả tuyệt vời cho nhiều ứng dụng. Bởi vì chúng cần xử lý một lượng lớn mã thông báo để tạo ra kết quả cuối cùng, nên việc tạo mã thông báo nhanh là rất quan trọng. Mô hình trọng số mã nguồn mở tốt nhất hiện nay là Llama 3.1 405B, và SambaNova là nhà cung cấp duy nhất chạy mô hình này ở độ chính xác 16 bit và trên 100 mã thông báo/giây. Thành tựu kỹ thuật ấn tượng này mở ra những khả năng thú vị cho các nhà phát triển xây dựng bằng các mô hình ngôn ngữ lớn."

Các nhà phát triển có thể sử dụng SambaNova Cloud để xây dựng các mô hình AI thế hệ mới miễn phí thông qua API của nền tảng. Ngoài ra, SambaNova cũng đã ra mắt phiên bản doanh nghiệp, cung cấp cho khách hàng doanh nghiệp giới hạn tốc độ cao hơn để hỗ trợ các khối lượng công việc AI ở quy mô sản xuất.

SambaNova, Được Hỗ Trợ Bởi BlackRock, Ra Mắt Dịch Vụ Suy Luận Trí Tuệ Nhân Tạo "Nhanh Nhất Thế Giới"