Cerebras: Bước Ngoặt Mới Cho Xử Lý Tốc Độ Cao Trong Trí Tuệ Nhân Tạo

Công ty Cerebras Systems, đơn vị tiên phong trong lĩnh vực tính toán AI hiệu suất cao, vừa giới thiệu Cerebras Inference - giải pháp xử lý suy luận AI nhanh nhất thế giới. Với tốc độ xử lý 1,800 token mỗi giây cho mô hình Llama 3.1 8B và 450 token mỗi giây cho Llama 3.1 70B, Cerebras Inference nhanh hơn gấp 20 lần so với các giải pháp dựa trên GPU của NVIDIA trong các đám mây siêu quy mô.

Giá cả cạnh tranh: Hệ thống này có giá chỉ từ 10 xu cho mỗi triệu token, rẻ hơn nhiều lần so với các giải pháp dựa trên GPU, mang đến hiệu suất giá trị cao hơn 100 lần cho các khối lượng công việc AI.

Ưu điểm vượt trội: Cerebras Inference không đánh đổi độ chính xác để tăng tốc độ. Thay vào đó, hệ thống này duy trì độ chính xác cao nhất trong suốt quá trình suy luận bằng cách hoạt động ở phạm vi 16 bit.

Sự công nhận từ các chuyên gia:

Micah Hill-Smith, đồng sáng lập và Giám đốc điều hành của Artificial Analysis, chia sẻ: “Cerebras đã dẫn đầu trong các điểm chuẩn suy luận AI của Artificial Analysis. Hệ thống này đạt tốc độ nhanh hơn gấp nhiều lần so với các giải pháp dựa trên GPU cho các mô hình AI Llama 3.1 8B và 70B của Meta. Chúng tôi đang đo lường tốc độ trên 1,800 token đầu ra mỗi giây trên Llama 3.1 8B, và trên 446 token đầu ra mỗi giây trên Llama 3.1 70B - một kỷ lục mới trong các điểm chuẩn này.”

“Artificial Analysis đã xác nhận rằng Llama 3.1 8B và 70B trên Cerebras Inference đạt được kết quả đánh giá chất lượng phù hợp với độ chính xác 16 bit gốc theo các phiên bản chính thức của Meta. Với tốc độ đẩy giới hạn hiệu suất và giá cả cạnh tranh, Cerebras Inference đặc biệt hấp dẫn đối với các nhà phát triển ứng dụng AI có yêu cầu về thời gian thực hoặc khối lượng lớn," ông Hill-Smith kết luận.

Bước tiến mới cho AI: Suy luận là phân khúc phát triển nhanh nhất của ngành tính toán AI, chiếm khoảng 40% tổng thị trường phần cứng AI. Sự ra đời của suy luận AI tốc độ cao, vượt quá 1,000 token mỗi giây, tương đương với việc giới thiệu internet băng thông rộng, mở ra vô số cơ hội mới và báo hiệu một kỷ nguyên mới cho các ứng dụng AI.

Sự ủng hộ từ các công ty hàng đầu:

Dr. Andrew Ng, người sáng lập DeepLearning.AI, nhận định: "DeepLearning.AI có nhiều quy trình làm việc dựa trên tác nhân, đòi hỏi việc nhắc nhở liên tục LLM để có được kết quả. Cerebras đã xây dựng một khả năng suy luận nhanh đáng kinh ngạc, rất hữu ích cho những khối lượng công việc như vậy.”
Kim Branson, Phó chủ tịch cấp cao về AI/ML tại GlaxoSmithKline, một khách hàng sớm của Cerebras, cho biết: “Tốc độ và quy mô thay đổi mọi thứ.”
Russell D'sa, Giám đốc điều hành và đồng sáng lập LiveKit, chia sẻ: "LiveKit rất vui mừng được hợp tác với Cerebras để giúp các nhà phát triển xây dựng thế hệ ứng dụng AI đa phương thức tiếp theo. Kết hợp khả năng tính toán hàng đầu của Cerebras và các mô hình SoTA với mạng lưới edge toàn cầu của LiveKit, các nhà phát triển giờ đây có thể tạo ra trải nghiệm AI dựa trên giọng nói và video với độ trễ cực thấp và các đặc điểm giống con người hơn."

Cerebras Inference: Bước ngoặt cho tương lai:

Denis Yarats, Giám đốc công nghệ và đồng sáng lập Perplexity, nhận xét: “Đối với các công cụ tìm kiếm truyền thống, chúng tôi biết rằng độ trễ thấp hơn thúc đẩy sự tương tác của người dùng cao hơn và kết quả tức thời đã thay đổi cách mọi người tương tác với tìm kiếm và với internet. Tại Perplexity, chúng tôi tin rằng tốc độ suy luận cực nhanh như Cerebras đang thể hiện có thể có tác động tương tự đối với tương tác của người dùng với tương lai của tìm kiếm - các công cụ tìm kiếm thông minh."
Anil Varanasi, Giám đốc điều hành của Meter, chia sẻ: “Với cơ sở hạ tầng, tốc độ là tối quan trọng. Hiệu suất của Cerebras Inference tăng cường Meter Command để tạo ra phần mềm tùy chỉnh và thực hiện hành động, tất cả với tốc độ và sự dễ dàng của việc tìm kiếm trên web. Mức độ phản hồi này giúp khách hàng của chúng tôi nhận được thông tin cần thiết, chính xác khi họ cần để giữ cho đội ngũ của họ trực tuyến và hiệu quả."

Cerebras Inference: Ba cấp độ dịch vụ

Cấp độ miễn phí: Cung cấp quyền truy cập API miễn phí và giới hạn sử dụng hào phóng cho bất kỳ ai đăng nhập.
Cấp độ dành cho nhà phát triển: Được thiết kế cho triển khai linh hoạt, không máy chủ, cung cấp cho người dùng một điểm cuối API với giá chỉ một phần nhỏ so với các giải pháp thay thế trên thị trường.
Cấp độ doanh nghiệp: Cung cấp các mô hình được tinh chỉnh, thỏa thuận cấp dịch vụ tùy chỉnh và hỗ trợ chuyên dụng.

Hợp tác chiến lược để thúc đẩy phát triển AI:

Cerebras hợp tác với các công ty hàng đầu trong ngành như Docker, Nasdaq, LangChain, LlamaIndex, Weights & Biases, Weaviate, AgentOps và Log10 để thúc đẩy tương lai của AI.

Kết luận: Cerebras Inference là một bước tiến đột phá trong lĩnh vực xử lý suy luận AI, mang đến tốc độ chưa từng có với độ chính xác cao và giá cả cạnh tranh. Với những lợi ích vượt trội, hệ thống này hứa hẹn sẽ mở ra nhiều tiềm năng mới cho các ứng dụng AI, đặc biệt là những ứng dụng đòi hỏi thời gian thực và khối lượng lớn.

Cerebras: Bước Ngoặt Mới Cho Xử Lý Tốc Độ Cao Trong Trí Tuệ Nhân Tạo