Cerebras: Đột phá trong lĩnh vực xử lý suy luận AI, thách thức sự thống trị của GPU
Nvidia từ lâu đã là ông lớn trong lĩnh vực phần cứng tính toán cho AI với các đơn vị xử lý đồ họa (GPU). Tuy nhiên, sự ra mắt vào Mùa Xuân năm 2024 của Cerebras Systems, với con chip thế hệ thứ ba dựa trên công nghệ động cơ quy mô wafer (Wafer-Scale Engine - WSE) đã làm rung chuyển thị trường, mang đến cho các doanh nghiệp một lựa chọn thay thế sáng tạo và cạnh tranh.
Bài viết này sẽ phân tích lý do tại sao sản phẩm mới của Cerebras lại quan trọng, cách nó so sánh với cả các sản phẩm của Nvidia và Groq - một startup khác đang cung cấp phần cứng tính toán chuyên biệt cho AI - và làm nổi bật những điểm doanh nghiệp cần lưu ý khi điều hướng trong bối cảnh thị trường đang thay đổi này.
Sự chuyển đổi từ đào tạo sang suy luận: Cơ hội cho các giải pháp mới
Trước đây, hầu hết các hoạt động xử lý cho AI tập trung vào đào tạo các mô hình ngôn ngữ lớn (Large Language Models - LLMs), chứ không phải ứng dụng chúng vào mục đích thực tế. Nvidia đã thống trị thị trường trong giai đoạn này với các GPU của mình. Tuy nhiên, trong vòng 18 tháng tới, các chuyên gia dự đoán thị trường sẽ đạt đến một điểm bùng phát khi các dự án AI mà nhiều công ty đã đào tạo và phát triển cuối cùng sẽ được triển khai. Tại thời điểm đó, khối lượng công việc AI sẽ chuyển từ đào tạo sang suy luận - giai đoạn mà tốc độ và hiệu quả trở nên quan trọng hơn bao giờ hết. Liệu Nvidia có thể duy trì vị trí dẫn đầu với dòng GPU của mình?
Suy luận AI: Thị trường tiềm năng khổng lồ
Suy luận là quá trình mà một mô hình AI đã được đào tạo đánh giá dữ liệu mới và tạo ra kết quả – ví dụ, trong một cuộc trò chuyện với LLM hoặc khi một chiếc xe tự lái di chuyển trong giao thông – thay vì đào tạo, khi mô hình được định hình đằng sau hậu trường trước khi được phát hành. Suy luận rất quan trọng đối với mọi ứng dụng AI, từ các tương tác thời gian thực trong tích tắc đến phân tích dữ liệu thúc đẩy ra quyết định dài hạn. Thị trường suy luận AI đang trên đà phát triển bùng nổ, với ước tính sẽ đạt 90,6 tỷ USD vào năm 2030.
Giới hạn của GPU trong suy luận AI:
Truyền thống, suy luận AI được thực hiện trên chip GPU. Điều này là do khả năng vượt trội của GPU so với CPU trong việc tính toán song song cần thiết để đào tạo hiệu quả trên các tập dữ liệu khổng lồ. Tuy nhiên, khi nhu cầu về khối lượng công việc suy luận lớn gia tăng, GPU tiêu tốn năng lượng đáng kể, tạo ra nhiệt lượng cao và tốn kém để bảo trì.
Cerebras: Đổi mới với công nghệ WSE
Cerebras, được thành lập vào năm 2016 bởi một đội ngũ chuyên gia về AI và thiết kế chip, là người tiên phong trong lĩnh vực phần cứng suy luận AI. Sản phẩm chủ lực của công ty, Động cơ Quy mô Wafer (Wafer-Scale Engine - WSE), là một bộ xử lý AI mang tính cách mạng, đặt ra một tiêu chuẩn mới về hiệu năng và hiệu quả suy luận. Con chip thế hệ thứ ba CS-3 mới ra mắt tự hào sở hữu 4 nghìn tỷ transistor, biến nó thành chip mạng nơ-ron lớn nhất về mặt vật lý từng được sản xuất – với kích thước lớn hơn 56 lần so với GPU lớn nhất, nó gần với kích thước của một chiếc đĩa ăn hơn là một con tem. Nó có dung lượng bộ nhớ tích hợp trên chip lớn hơn 3000 lần. Điều này có nghĩa là các chip riêng lẻ có thể xử lý khối lượng công việc khổng lồ mà không cần phải kết nối mạng, một cải tiến về kiến trúc cho phép tốc độ xử lý nhanh hơn, khả năng mở rộng cao hơn và giảm tiêu thụ năng lượng.
CS-3 đặc biệt hiệu quả với LLM; các báo cáo cho thấy chip của Cerebras có thể xử lý 1.800 token mỗi giây đối với mô hình Llama 3.1 8B, vượt xa các giải pháp dựa trên GPU hiện tại. Hơn nữa, với giá khởi điểm chỉ 10 cent cho một triệu token, Cerebras đang định vị mình như một giải pháp cạnh tranh.
Nhu cầu về tốc độ:
Trước nhu cầu về suy luận AI, không có gì ngạc nhiên khi các thông số ấn tượng của Cerebras thu hút sự chú ý của ngành công nghiệp. Thực tế, công ty đã có đủ sự quan tâm ban đầu đến mức bộ tài liệu báo chí của họ trích dẫn một số nhà lãnh đạo trong ngành ca ngợi công nghệ của mình.
Kim Branson, Phó chủ tịch cấp cao phụ trách AI/ML tại GlaxoSmithKline, cho biết: “Tốc độ và quy mô thay đổi mọi thứ”, nơi sự tăng cường do CS-3 của Cerebras cung cấp đã cải thiện đáng kể khả năng của công ty trong việc xử lý các tập dữ liệu khổng lồ để khám phá và phân tích thuốc.
Denis Yarats, Giám đốc Công nghệ của Perplexity, coi suy luận cực nhanh là chìa khóa để định hình lại công cụ tìm kiếm và trải nghiệm người dùng. “Độ trễ thấp hơn thúc đẩy sự tương tác của người dùng cao hơn”, Yarats nói. “Với lợi thế tốc độ 20 lần của Cerebras so với GPU truyền thống, chúng tôi tin rằng sự tương tác của người dùng với các công cụ tìm kiếm và trả lời thông minh sẽ được thay đổi cơ bản.”
Russell d’Sa, Giám đốc điều hành của LiveKit, nhấn mạnh cách suy luận cực nhanh của Cerebras đã cho phép công ty của ông phát triển các ứng dụng AI đa phương thức thế hệ tiếp theo với các tương tác dựa trên giọng nói và video. “Kết hợp sức mạnh tính toán tốt nhất của Cerebras với mạng lưới edge toàn cầu của LiveKit đã cho phép chúng tôi tạo ra những trải nghiệm AI mang tính nhân văn hơn, nhờ vào độ trễ cực thấp của hệ thống.”
Cảnh quan cạnh tranh: Nvidia so với Groq so với Cerebras
Mặc dù có sức mạnh công nghệ, Cerebras vẫn phải đối mặt với một thị trường cạnh tranh. Sự thống trị của Nvidia trong thị trường phần cứng AI là điều được công nhận rộng rãi, với các GPU Hopper là trụ cột trong việc đào tạo và chạy các mô hình AI. Việc tính toán trên GPU của Nvidia có sẵn thông qua các nhà cung cấp dịch vụ đám mây như Amazon Web Services, Google Cloud Platform hoặc Microsoft Azure và sự hiện diện lâu đời trên thị trường của Nvidia mang lại cho họ một lợi thế đáng kể về hỗ trợ hệ sinh thái và lòng tin của khách hàng.
Tuy nhiên, thị trường phần cứng AI đang phát triển và cạnh tranh đang ngày càng khốc liệt. Groq, một startup chip AI khác, cũng đã tạo được tiếng vang với đơn vị xử lý ngôn ngữ chuyên biệt cho suy luận (Language Processing Unit - LPU) của mình. Dựa trên công nghệ Bộ xử lý truyền tải Tensor (Tensor Streaming Processor - TSP) độc quyền, Groq cũng tự hào có các điểm chuẩn hiệu năng ấn tượng, hiệu quả năng lượng và giá cả cạnh tranh.
Mặc dù Cerebras và Groq có hiệu năng ấn tượng, nhưng nhiều nhà hoạch định chiến lược cấp doanh nghiệp có thể chưa nghe nhiều về chúng, chủ yếu là vì chúng là những người mới tham gia vào lĩnh vực này và vẫn đang mở rộng các kênh phân phối, trong khi GPU của Nvidia có sẵn từ tất cả các nhà cung cấp dịch vụ đám mây lớn. Tuy nhiên, cả Cerebras và Groq hiện đều cung cấp các giải pháp điện toán đám mây mạnh mẽ và bán phần cứng của họ. Cerebras Cloud cung cấp các mô hình giá cả linh hoạt, bao gồm cả tùy chọn theo mô hình và theo token, cho phép người dùng mở rộng khối lượng công việc của họ mà không cần đầu tư ban đầu lớn. Tương tự, Groq Cloud cung cấp cho người dùng quyền truy cập vào phần cứng suy luận tiên tiến thông qua đám mây, tự hào rằng người dùng có thể “chuyển đổi từ các nhà cung cấp khác như OpenAI bằng cách thay đổi ba dòng mã”. Các dịch vụ đám mây của cả hai công ty cho phép các nhà hoạch định chiến lược thử nghiệm các công nghệ suy luận AI tiên tiến với chi phí thấp hơn và linh hoạt hơn, giúp việc bắt đầu tương đối dễ dàng mặc dù sự hiện diện trên thị trường của họ nhỏ hơn so với Nvidia.
So sánh các lựa chọn:
Nvidia:
- Hiệu năng: Các GPU như H100 xuất sắc trong các tác vụ xử lý song song, nhưng không thể sánh được với tốc độ của CS-3 và LPU chuyên biệt cho suy luận AI.
- Hiệu quả năng lượng: Mặc dù Nvidia đã đạt được những bước tiến trong việc cải thiện hiệu quả năng lượng của GPU, chúng vẫn tiêu tốn nhiều năng lượng so với các sản phẩm của Cerebras và Groq.
- Khả năng mở rộng: GPU có khả năng mở rộng cao, với các phương pháp được thiết lập tốt để kết nối nhiều GPU để làm việc trên các mô hình AI lớn.
- Tính linh hoạt: Nvidia cung cấp khả năng tùy biến rộng thông qua mô hình lập trình CUDA và hệ sinh thái phần mềm rộng lớn. Tính linh hoạt này cho phép các nhà phát triển điều chỉnh thiết lập GPU của họ cho nhiều loại tác vụ tính toán ngoài suy luận và đào tạo AI.
- Truy cập tính toán đám mây: Tính toán GPU của Nvidia dưới dạng dịch vụ có sẵn ở quy mô lớn thông qua nhiều nhà cung cấp đám mây, chẳng hạn như GCP, AWS và Azure.
Cerebras:
- Sức mạnh: CS-3 là một “nhà máy điện” phá vỡ kỷ lục với 900.000 lõi được tối ưu hóa cho AI và 4 nghìn tỷ transistor, có khả năng xử lý các mô hình AI với tối đa 24 nghìn tỷ tham số. Nó cung cấp hiệu năng AI đỉnh cao 125 petaflops, giúp nó cực kỳ hiệu quả đối với các mô hình AI quy mô lớn.
- Hiệu quả năng lượng: Thiết kế chip đơn khổng lồ của CS-3 giảm thiểu nhu cầu giao tiếp giữa các thành phần, dẫn đến việc giảm đáng kể mức tiêu thụ năng lượng so với các giải pháp GPU được kết nối mạng rộng rãi.
- Khả năng mở rộng: WSE-3 của Cerebras có khả năng mở rộng cao, có thể hỗ trợ các cụm gồm tối đa 2048 hệ thống, cung cấp lên đến 256 exaflops sức mạnh tính toán AI.
- Quan hệ đối tác chiến lược: Cerebras đang tích hợp với các công cụ AI chính như LangChain, Docker và Weights and Biases, cung cấp một hệ sinh thái mạnh mẽ hỗ trợ phát triển ứng dụng AI nhanh chóng.
- Truy cập tính toán đám mây: Hiện chỉ có sẵn thông qua Cerebras Cloud, cung cấp các mô hình giá cả linh hoạt theo mô hình hoặc theo token.
Groq:
- Sức mạnh: Bộ xử lý truyền tải Tensor (TSP) của Groq được thiết kế để suy luận AI hiệu năng cao với trọng tâm là độ trễ thấp. Mặc dù được ghi nhận là đạt được các điểm chuẩn cao, nhưng nó không sánh được với Cerebras về tốc độ xử lý token.
- Hiệu quả năng lượng: TSP của Groq được tối ưu hóa cho hiệu quả năng lượng, tuyên bố hiệu quả tính toán cao hơn GPU đến 10 lần.
- Khả năng mở rộng: Kiến trúc của Groq được thiết kế để mở rộng, cho phép thêm bộ xử lý để tăng sức mạnh xử lý.
- Truy cập tính toán đám mây: Hiện chỉ có sẵn thông qua Groq Cloud.
Các bước tiếp theo dành cho nhà hoạch định chiến lược doanh nghiệp
Trước bối cảnh phần cứng AI đang phát triển nhanh chóng, các nhà hoạch định chiến lược doanh nghiệp nên chủ động đánh giá các lựa chọn của mình. Mặc dù Nvidia vẫn là nhà lãnh đạo thị trường, nhưng sự xuất hiện của Cerebras và Groq mang đến những lựa chọn thay thế hấp dẫn để theo dõi. Từ lâu là tiêu chuẩn vàng của sức mạnh tính toán AI, GPU Nvidia giờ đây dường như trở thành một công cụ chung được tạo ra để hoàn thành công việc, thay vì một công cụ chuyên biệt được tối ưu hóa cho mục đích của nó. Các chip AI được thiết kế dành riêng như Cerebras CS-3 và Groq LPU có thể đại diện cho tương lai.
Dưới đây là một số bước mà các nhà lãnh đạo doanh nghiệp có thể thực hiện để điều hướng trong bối cảnh thay đổi này:
- Đánh giá khối lượng công việc AI của bạn: Xác định xem khối lượng công việc AI hiện tại và đã lên kế hoạch của bạn có thể hưởng lợi từ những lợi thế về hiệu năng mà Cerebras hoặc Groq mang lại hay không. Nếu tổ chức của bạn dựa nhiều vào LLM hoặc suy luận AI thời gian thực, những công nghệ mới này có thể mang lại những lợi ích đáng kể.
- Đánh giá các dịch vụ đám mây và phần cứng: Sau khi đã xác định rõ khối lượng công việc, hãy đánh giá các giải pháp đám mây và phần cứng do mỗi nhà cung cấp cung cấp. Xem xét xem việc sử dụng các dịch vụ điện toán dựa trên đám mây, đầu tư vào phần cứng tại chỗ hoặc áp dụng phương pháp kết hợp sẽ phù hợp nhất với nhu cầu của bạn.
- Đánh giá hệ sinh thái của nhà cung cấp: Tính toán GPU của Nvidia có sẵn rộng rãi từ các nhà cung cấp dịch vụ đám mây và hệ sinh thái nhà phát triển phần cứng và phần mềm của họ rất mạnh mẽ, trong khi Cerebras và Groq là những người chơi mới trong lĩnh vực này.
- Luôn linh hoạt và cập nhật thông tin: Duy trì sự linh hoạt trong quá trình ra quyết định và đảm bảo rằng nhóm của bạn luôn được cập nhật về những tiến bộ mới nhất trong phần cứng AI và dịch vụ đám mây.
Kết luận:
Sự ra đời của các startup sản xuất chip Cerebras và Groq trong lĩnh vực suy luận AI đã làm thay đổi đáng kể cuộc chơi. Các chip chuyên biệt của họ như CS-3 và LPU vượt trội so với bộ xử lý GPU Nvidia vốn là tiêu chuẩn ngành. Khi thị trường công nghệ suy luận AI tiếp tục phát triển, các nhà hoạch định chiến lược doanh nghiệp cần liên tục đánh giá nhu cầu và chiến lược của mình.

0 comments Blogger 0 Facebook
Đăng nhận xét