Groq - Kẻ Thách Thức Mới Trong Làng AI Có Thật Sự Đánh Bại Được "Gã Khổng Lồ" Nvidia?

Startup công nghệ tại Thung Lũng Silicon vừa huy động được khoản đầu tư khổng lồ 640 triệu USD, nâng mức định giá lên 2,8 tỷ USD. Liệu Groq đã nắm giữ "tia chớp" AI trong tay?

Gần đây, Groq đã công bố vòng gọi vốn Series D trị giá 640 triệu USD với mức định giá 2,8 tỷ USD, dẫn đầu bởi BlackRock Private Equity Partners. Được thành lập bởi Jonathan Ross, một trong những nhà phát triển TPU đầu tiên của Google, Groq tập trung vào xử lý suy luận quy mô lớn và tốc độ cực cao dựa trên Bộ Xử Lý Ngôn Ngữ (LPU) mà Ross đã tiên phong. Khoản đầu tư mới sẽ cho phép Groq đẩy nhanh quá trình phát triển hai thế hệ LPU tiếp theo.

"Bạn không thể vận hành AI nếu thiếu khả năng tính toán suy luận," Jonathan Ross, CEO và người sáng lập Groq, khẳng định. "Chúng tôi muốn cung cấp nguồn lực để bất kỳ ai cũng có thể tạo ra những sản phẩm AI tiên tiến, không chỉ riêng các công ty công nghệ lớn. Khoản tài trợ này sẽ cho phép chúng tôi triển khai thêm hơn 100.000 LPU vào GroqCloud."

Groq Mang Đến Điều Gì Mới?

Groq LPU là bộ xử lý đơn nhân được thiết kế dành riêng cho các mô hình ngôn ngữ lớn (LLM), kết nối với nhau bằng kiến trúc định tuyến không chuyển mạch tốc độ cao sử dụng 288 cáp quang QSFP28. Một rack Groq bao gồm 9 máy chủ GroqNode 1 (1 máy chủ đóng vai trò dự phòng) với mạng RealScale nội bộ kết nối đầy đủ, mang đến hiệu suất tính toán lên đến 48 Peta OPs (INT8) hoặc 12 PFLOPs (FP16). Groq theo đuổi phương pháp tiếp cận mã nguồn mở, hỗ trợ đầy đủ các mô hình như Llama 3.1 của Meta. Bằng cách cung cấp quyền truy cập vào LPU trên GroqCloud và chứng minh hiệu suất vượt trội, công ty đã xây dựng được một cộng đồng người dùng trung thành với hơn 70.000 nhà phát triển sử dụng GroqCloud để tạo ứng dụng.

Vậy đâu là điểm nổi bật của Groq? Đó chính là tốc độ suy luận cực nhanh. Bí mật nằm ở SRAM.

Khác với GPU AI của Nvidia và AMD, Groq sử dụng SRAM trên chip với 14GB bộ nhớ dùng chung băng thông cao cho trọng số trên toàn rack. SRAM nhanh hơn khoảng 100 lần so với bộ nhớ HBM được sử dụng bởi GPU. Mặc dù 14GB SRAM trong một rack Groq nhỏ hơn nhiều so với HBM trong một rack GPU, SRAM của Groq LPU đặc biệt hiệu quả trong các tác vụ suy luận, nơi tốc độ và hiệu quả là ưu tiên hàng đầu. Với các mô hình có kích thước phù hợp, SRAM nhanh hơn và kết cấu không chuyển mạch quang học có thể tạo ra khoảng 500-750 tokens mỗi giây - một tốc độ đáng kinh ngạc. Để dễ hình dung, ChatGPT với GPT-3.5 chỉ có thể tạo ra khoảng 40 tokens/giây. Giờ thì bạn đã hiểu tại sao họ gọi dịch vụ truy cập đám mây của mình là “Tokens as a service".

Tuy nhiên, không có gì là hoàn hảo. SRAM đắt hơn nhiều so với DRAM hay thậm chí là HBM, góp phần vào chi phí cao của card Groq LPU (20.000 USD/card). Quan trọng hơn, SRAM nhỏ hơn 3 bậc so với HBM3e của GPU. Vì vậy, nền tảng này không thể thực hiện huấn luyện và chỉ có thể chứa LLM nếu mô hình đó tương đối nhỏ.

Nhưng các mô hình nhỏ hơn đang là xu hướng hiện nay. Và nếu mô hình của bạn có, giả sử, 70 tỷ tham số hoặc ít hơn, bạn nên thử nghiệm nó trên Groq. Xử lý suy luận đang ngày càng trở nên kết nối, với đầu ra của truy vấn này được sử dụng làm đầu vào cho truy vấn tiếp theo. Trong bối cảnh đó, Groq mang đến nhiều lợi ích đáng kể.

Kết Luận

Nếu muốn cạnh tranh với Nvidia, bạn cần phải có một thứ gì đó khác biệt hơn là một GPU khác. Cerebras có cách tiếp cận hoàn toàn khác trong huấn luyện. Groq sở hữu độ trễ cực thấp trong suy luận, mặc dù chỉ dành cho các mô hình nhỏ hơn. Với nguồn vốn mới, Groq có thể chuyển sang quy trình sản xuất 4nm để hỗ trợ các mô hình lớn hơn, có thể là trong năm tới. Lưu ý rằng Groq cũng không gặp phải các vấn đề về nguồn cung như Nvidia; họ sử dụng Global Foundries, không phải TSMC.

Xử lý suy luận LLM đang bắt đầu phát triển mạnh mẽ. Gần đây nhất, Nvidia cho biết 40% doanh thu GPU trung tâm dữ liệu của họ trong quý trước đến từ xử lý suy luận. Liệu đây có phải là thời điểm "người khổng lồ" lo lắng? Chỉ có thời gian mới trả lời được.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top