Cuộc chiến tốc độ xử lý mã thông báo: SambaNova, Cerebras và Groq cạnh tranh trong bối cảnh OpenAI ra mắt o1

Cuộc đua để thống trị thị trường phần cứng cho suy luận AI đang ngày càng nóng lên khi SambaNova, Cerebras và Groq đẩy mạnh giới hạn hiệu năng suy luận. SambaNova đã thiết lập kỷ lục với mô hình Llama 3.1 405B, Cerebras mang đến tốc độ vượt trội với WSE-3, trong khi Groq và LPU của họ thách thức các nhà sản xuất GPU truyền thống.

Gần đây, OpenAI đã công bố loạt mô hình o1, được trang bị khả năng suy luận và khả năng "suy nghĩ", đánh dấu một bước chuyển dịch quan trọng trong ngành AI. OpenAI o1 minh chứng rằng suy luận không cần thiết phải dựa vào các mô hình khổng lồ. Thay vào đó, một "lõi suy luận" nhỏ hơn có thể tương tác với các công cụ bên ngoài, chẳng hạn như trình duyệt web hoặc trình xác minh mã, để xử lý các tác vụ phức tạp. Điều này dẫn đến sự chuyển dịch sang việc tối ưu hóa tốc độ suy luận trong sản xuất, với trọng tâm vào việc tăng cường khả năng suy luận thông qua tìm kiếm thay vì học hỏi thuần túy.

Jim Fan, kỹ sư NVIDIA, khẳng định rằng phương pháp này giảm nhu cầu về tính toán khổng lồ trong quá trình tiền xử lý, và phần lớn công suất xử lý hiện được phân bổ cho suy luận hơn là tiền xử lý hoặc hậu xử lý.

Điều này là tin vui cho các công ty như Groq, Cerebras và SambaNova, những đơn vị đang xây dựng phần cứng chuyên biệt cho suy luận AI.

Người dùng trên X (Twitter) nhận định rằng mô hình suy luận mới của OpenAI sẽ có lợi cho phần cứng suy luận theo phong cách Groq. Một người dùng khác cho rằng nếu Meta công khai mã nguồn cho o1, giá trị của các công ty như Groq có thể tăng vọt.

Cuộc chiến tốc độ mã thông báo

Cuộc chiến tốc độ suy luận LLM đang nóng lên. SambaNova gần đây đã ra mắt nền tảng suy luận đám mây của mình, cho phép các nhà phát triển truy cập vào các mô hình Llama 3.1, bao gồm các phiên bản 8B, 70B và 405B, trên chip AI tùy chỉnh của họ. Nền tảng này đã lập kỷ lục về suy luận với mô hình Meta Llama 3.1 405B, xử lý mô hình với độ chính xác 16 bit gốc và đạt 132 mã thông báo đầu ra mỗi giây.

Mô hình Llama 3.1 70B chạy với tốc độ 461 t/s. Dịch vụ này hiện mở cửa cho tất cả các nhà phát triển (không cần danh sách chờ).

Đáng chú ý, trong số ba công ty - Groq, Cerebras và SambaNova - chỉ SambaNova cung cấp Llama 3.1 405B. AI tại Meta đã đăng tải trên X rằng hệ sinh thái xung quanh Llama đang tiếp tục đẩy mạnh giới hạn, và SambaNova Cloud đang thiết lập một tiêu chuẩn mới cho suy luận với 405B, dịch vụ này hiện có sẵn cho các nhà phát triển.

Zoltan Csaki, kỹ sư học máy tại SambaNova, cho biết suy luận nhanh chóng không còn là một bản demo hấp dẫn, mà sẽ là động lực chính cho các mô hình tiên tiến trong tương lai. Đã đến lúc chuyển sang phần cứng AI tùy chỉnh và bỏ qua NVIDIA.

Nền tảng suy luận API này được cung cấp bởi chip AI tùy chỉnh SN40L của SambaNova, được trang bị kiến trúc Reconfigurable Dataflow Unit. Được sản xuất trên quy trình 5 nm của TSMC, SN40L kết hợp DRAM, HBM3 và SRAM trên mỗi chip.

Kiến trúc RDU được xây dựng dựa trên luồng dữ liệu trực tuyến, cho phép kết hợp nhiều thao tác thành một quy trình, loại bỏ nhu cầu lập trình thủ công. Điều này mang lại hiệu năng nhanh hơn bằng cách sử dụng sự kết hợp của các kỹ thuật song song khác nhau, chẳng hạn như song song đường ống, dữ liệu và tensor, tất cả đều được hỗ trợ bởi phần cứng.

Cerebras tham gia cuộc đua

Cerebras Inference gần đây đã tuyên bố rằng họ mang đến 1.800 mã thông báo mỗi giây cho mô hình Llama 3.1 8B450 mã thông báo mỗi giây cho mô hình Llama 3.1 70B, nhanh hơn 20 lần so với các đám mây siêu quy mô dựa trên GPU NVIDIA.

Theo Artificial Analysis, các mô hình Llama 3.1-8B chạy trên hệ thống NVIDIA H100 trên các đám mây siêu quy mô và các nhà cung cấp đám mây chuyên biệt đã đạt tốc độ từ 72 đến 257 mã thông báo mỗi giây, trong đó AWS báo cáo 93 mã thông báo mỗi giây cho cùng một khối lượng công việc.

Cerebras Inference được cung cấp bởi hệ thống Cerebras CS-3 và bộ xử lý AI tiên tiến, Wafer Scale Engine 3 (WSE-3). Không giống như các GPU truyền thống, đòi hỏi sự cân bằng giữa tốc độ và dung lượng, CS-3 cung cấp hiệu năng hàng đầu cho từng người dùng trong khi vẫn duy trì lưu lượng xử lý cao.

Kích thước khổng lồ của WSE-3 cho phép nó hỗ trợ nhiều người dùng đồng thời, mang lại tốc độ ấn tượng. Với băng thông bộ nhớ lớn hơn 7.000 lần so với H100 của NVIDIA, WSE-3 giải quyết thách thức kỹ thuật cốt lõi của AI thế hệ mới, băng thông bộ nhớ.

Cerebras giải quyết vấn đề giới hạn băng thông bộ nhớ cố hữu của GPU, đòi hỏi các mô hình phải được di chuyển từ bộ nhớ sang các lõi tính toán cho mỗi mã thông báo đầu ra. Quy trình này dẫn đến tốc độ suy luận chậm, đặc biệt đối với các mô hình ngôn ngữ lớn như Llama 3.1-70B, có 70 tỷ tham số và yêu cầu 140GB bộ nhớ.

Cerebras Inference hỗ trợ các mô hình từ hàng tỷ đến hàng nghìn tỷ tham số. Đối với các mô hình vượt quá dung lượng bộ nhớ của một wafer, Cerebras chia chúng tại các ranh giới lớp và ánh xạ chúng vào nhiều hệ thống CS-3. Các mô hình lớn hơn, chẳng hạn như Llama3-405B và Mistral Large, dự kiến ​​sẽ được hỗ trợ trong vài tuần tới.

Groq khác biệt

Groq gần đây đã đạt tốc độ 544 mã thông báo mỗi giây trên mô hình Llama 3.1 70B và 752 mã thông báo mỗi giây trên mô hình Llama 3.1 8B, theo Artificial Analysis.

Được thành lập vào năm 2016 bởi Ross, Groq tự phân biệt mình bằng cách từ bỏ GPU để chuyển sang phần cứng độc quyền, LPU. Công ty gần đây đã huy động được 640 triệu đô la trong vòng gọi vốn Series D, nâng mức định giá lên 2,8 tỷ đô la. Gần đây nhất, họ đã công bố hợp tác với Aramco Digital để thiết lập trung tâm dữ liệu suy luận lớn nhất thế giới tại Ả Rập Xê Út.

LPU của Groq thách thức các nhà sản xuất GPU truyền thống như NVIDIA, AMD và Intel, với bộ xử lý luồng tensor được xây dựng riêng để tính toán học sâu nhanh hơn. LPU được thiết kế để khắc phục hai điểm nghẽn của LLM: mật độ tính toán và băng thông bộ nhớ.

Về LLM, LPU có khả năng tính toán lớn hơn GPU và CPU. Điều này làm giảm lượng thời gian cho mỗi từ được tính toán, cho phép tạo ra chuỗi văn bản nhanh hơn nhiều.

Ngoài ra, việc loại bỏ các điểm nghẽn bộ nhớ bên ngoài cho phép động cơ suy luận LPU mang lại hiệu năng tốt hơn nhiều so với GPU đối với LLM.

LPU được thiết kế để ưu tiên xử lý tuần tự dữ liệu, vốn là yếu tố cố hữu trong các tác vụ ngôn ngữ. Điều này trái ngược với GPU, được tối ưu hóa cho các tác vụ xử lý song song như kết xuất đồ họa.

Kết luận

Cuộc đua về tốc độ suy luận AI đang diễn ra sôi nổi, với SambaNova, Cerebras và Groq đang dẫn đầu. Các công ty này đang đầu tư mạnh vào phần cứng tùy chỉnh để xử lý các mô hình ngôn ngữ lớn ngày càng phức tạp. OpenAI o1 đã thách thức quan niệm truyền thống về suy luận AI, cho thấy tiềm năng của các mô hình nhỏ hơn nhưng thông minh hơn, điều này sẽ làm thay đổi cách thức chúng ta suy luận và tương tác với AI trong tương lai.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top