Cerebras Đạt Hiệu Suất Kỷ Lục với Mô Hình Llama 3.1 405B của Meta

Mục lục:

  1. Giới thiệu
  2. Hiệu suất vượt trội của Cerebras
  3. Ứng dụng thực tiễn và lợi ích
  4. Công nghệ đằng sau thành công
  5. Khả năng sẵn có và giá cả
  6. Về Cerebras Systems
  7. Thông tin liên hệ

1. Giới thiệu

Bài báo từ Business Wire công bố Cerebras Systems đã lập kỷ lục hiệu suất mới cho mô hình Llama 3.1 405B của Meta AI. Hệ thống Cerebras Inference đã đạt tốc độ xử lý 969 token/giây, nhanh hơn tới 75 lần so với các giải pháp GPU của các nhà cung cấp dịch vụ điện toán đám mây lớn. Thành tựu này đánh dấu bước tiến quan trọng trong khả năng xử lý suy luận AI, cho phép phản hồi tức thời từ các mô hình ngôn ngữ lớn.

2. Hiệu suất vượt trội của Cerebras

Theo dữ liệu từ công ty phân tích độc lập Artificial Analysis, Cerebras Inference không chỉ nhanh hơn đáng kể (gần gấp 100 lần) so với các giải pháp GPU hàng đầu mà còn có thời gian phản hồi token đầu tiên nhanh nhất thế giới (240 mili giây). Điều này giúp các mô hình ngôn ngữ lớn hoạt động gần như thời gian thực, mở ra nhiều ứng dụng mới. Cerebras đã giữ kỷ lục thế giới về hiệu suất Llama 3.1 8B và 70B trước đây.

3. Ứng dụng thực tiễn và lợi ích

Hiệu suất cao của Cerebras Inference cho phép các mô hình ngôn ngữ lớn phản hồi tức thời, hỗ trợ các ứng dụng phức tạp đòi hỏi tốc độ cao như lập luận, cộng tác đa tác nhân. Khả năng xử lý suy luận nhanh hơn nhiều lần so với các giải pháp GPU cũng cho phép mô hình "suy nghĩ" kỹ hơn trước khi trả lời, dẫn đến độ chính xác cao hơn trong các tác vụ khó như toán học, khoa học và tạo mã.

4. Công nghệ đằng sau thành công

Thành công này dựa trên hệ thống Cerebras CS-3 và bộ xử lý AI tiên tiến Wafer Scale Engine 3 (WSE-3). Không giống như GPU, WSE-3 cung cấp hiệu năng cao và độ trễ thấp cho mỗi người dùng, đồng thời vẫn đảm bảo hiệu suất cao. Dung lượng bộ nhớ khổng lồ của WSE-3 (cao hơn 7000 lần so với Nvidia H100) giải quyết thách thức về băng thông bộ nhớ trong AI thế hệ mới. API của Cerebras Inference tương thích với API OpenAI Chat Completions, giúp việc chuyển đổi dễ dàng.

5. Khả năng sẵn có và giá cả

Cerebras Inference Llama 3.1 405B với độ dài ngữ cảnh lên đến 128K hiện đang trong giai đoạn thử nghiệm với khách hàng và sẽ chính thức ra mắt vào quý 1 năm 2025. Giá cả được công bố là 6 đô la cho một triệu token đầu vào và 12 đô la cho một triệu token đầu ra. Các phiên bản Llama 3.1 8B và 70B cũng có sẵn miễn phí và trả phí trên trang web của Cerebras.

6. Về Cerebras Systems

Cerebras Systems là một công ty tiên phong trong lĩnh vực kiến trúc máy tính, khoa học máy tính, nghiên cứu học máy sâu và kỹ thuật. Họ tập trung vào việc tăng tốc AI thế hệ mới bằng cách xây dựng siêu máy tính AI mới. Sản phẩm chủ lực CS-3 sử dụng bộ xử lý AI lớn nhất và nhanh nhất thế giới, Wafer-Scale Engine-3.

7. Thông tin liên hệ

Liên hệ truyền thông: PR@zmcommunications.com

Logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top