FuriosaAI ra mắt chip AI suy luận mới

FuriosaAI, một công ty bán dẫn AI mới nổi, đã ra mắt bộ tăng tốc AI RNGD tại Hội nghị Hot Chips 2024. Chip RNGD được định vị là bộ tăng tốc trung tâm dữ liệu hiệu quả cho suy luận mô hình ngôn ngữ lớn (LLM) và đa phương thức hiệu suất cao.

Thành lập vào năm 2017 bởi ba kỹ sư có kinh nghiệm tại AMD, Qualcomm và Samsung, công ty đã theo đuổi một chiến lược tập trung vào đổi mới nhanh chóng và cung cấp sản phẩm, dẫn đến việc công bố và phát triển nhanh chóng của RNGD.

Furiosa đã hoàn thành việc đưa RNGD vào hoạt động đầy đủ sau khi nhận được các mẫu silicon đầu tiên từ đối tác của họ, TSMC. Với con chip thế hệ đầu tiên, được giới thiệu vào năm 2021, Furiosa đã có thể gửi kết quả điểm chuẩn MLPerf đầu tiên của họ trong vòng 3 tuần sau khi nhận được silicon và đạt được hiệu suất tăng 113% trong lần gửi tiếp theo thông qua các cải tiến của trình biên dịch.

Các thử nghiệm ban đầu của RNGD đã cho thấy kết quả đầy hứa hẹn với các mô hình ngôn ngữ lớn như GPT-J và Llama 3.1. Một thẻ PCIe RNGD duy nhất mang lại hiệu suất thông lượng từ 2.000 đến 3.000 token mỗi giây (tùy thuộc vào độ dài ngữ cảnh) cho các mô hình có khoảng 10 tỷ tham số.

“Việc ra mắt RNGD là kết quả của nhiều năm đổi mới, dẫn đến thành công về silicon một lần và quy trình đưa vào hoạt động cực kỳ nhanh chóng. RNGD là một giải pháp tính toán AI bền vững và có thể truy cập được, đáp ứng nhu cầu thực tế của ngành đối với suy luận,” June Paik, Đồng sáng lập và Giám đốc điều hành của FuriosaAI, cho biết. "Với phần cứng của chúng tôi giờ đây bắt đầu chạy LLM ở hiệu suất cao, chúng tôi đang bước vào một giai đoạn tiến bộ liên tục đầy thú vị. Tôi vô cùng tự hào và biết ơn đội ngũ vì sự chăm chỉ và cống hiến không ngừng của họ."

RNGD có các đổi mới chính bao gồm:

Kiến trúc dựa trên Bộ xử lý co rút Tensor (TCP) không phải matmul, cho phép sự cân bằng hoàn hảo giữa hiệu quả, khả năng lập trình và hiệu suất.
Khả năng lập trình thông qua trình biên dịch mạnh mẽ được đồng thiết kế để tối ưu hóa cho TCP, xử lý toàn bộ mô hình như các thao tác hợp nhất duy nhất.
Hiệu quả, với TDP là 150W so với 1000W+ cho các GPU hàng đầu.
Hiệu suất cao, với bộ nhớ HBM3 48GB cung cấp khả năng chạy các mô hình như Llama 3.1 8B hiệu quả trên một thẻ duy nhất.

Con chip hiện đang được cung cấp cho các khách hàng truy cập sớm, với khả năng cung cấp rộng rãi dự kiến vào đầu năm 2025.

FuriosaAI ra mắt chip AI suy luận mới