Cuộc Chiến Chip AI: Những Đối Thủ Đáng Gờm Của Nvidia
Nvidia đã ghi tên mình vào câu lạc bộ những công ty có giá trị thị trường 3 nghìn tỷ USD vào tháng 6 năm nay, vượt qua cả Apple và Microsoft. Sự tăng trưởng ngoạn mục này đến từ vị thế thống trị của Nvidia trong lĩnh vực GPU và phần cứng AI. Tuy nhiên, Nvidia không phải là công ty duy nhất sản xuất chip cho khối lượng công việc AI ngày càng tăng. Nhiều ông lớn như Intel, Google, Amazon và các công ty khác đang nỗ lực phát triển chip tùy chỉnh cho việc huấn luyện và suy luận mô hình AI. Hãy cùng điểm qua những đối thủ tiềm năng của Nvidia trong cuộc chiến phần cứng AI.
AMD - Kẻ Thách Thức Mạnh Mẽ
Trong lĩnh vực bộ tăng tốc AI hiệu năng cao, AMD đang cạnh tranh trực tiếp với Nvidia, cả về huấn luyện và suy luận. Mặc dù các nhà phân tích cho rằng Nvidia chiếm 70% đến 90% thị phần phần cứng AI, AMD đã bắt đầu củng cố vị thế của mình.
Vào tháng 12 năm 2023, AMD đã giới thiệu bộ tăng tốc Instinct MI300X dành cho khối lượng công việc AI và HPC (Điện toán hiệu năng cao). AMD tuyên bố rằng MI300X mang lại hiệu suất suy luận tốt hơn 1,6 lần so với Nvidia H100 và hiệu suất huấn luyện gần tương đương.
Không chỉ vậy, MI300X còn cung cấp dung lượng bộ nhớ HBM3 (Bộ nhớ băng thông cao) lên đến 192GB, cao hơn nhiều so với 80GB của Nvidia H100. Băng thông bộ nhớ của MI300X lên đến 5,3 TBps, cũng vượt trội hơn 3,4 TBps của H100.
AMD đang thực sự tạo ra một cuộc cạnh tranh gay gắt với Nvidia. Tuy nhiên, AMD vẫn còn một chặng đường dài để khẳng định mình là đối thủ lớn của Nvidia. Chìa khóa nằm ở phần mềm. Lợi thế cạnh tranh của Nvidia là CUDA, nền tảng điện toán cho phép các nhà phát triển tương tác trực tiếp với GPU Nvidia để xử lý song song tăng tốc.
Nền tảng CUDA sở hữu một lượng lớn thư viện, SDK, bộ công cụ, trình biên dịch và công cụ gỡ lỗi, đồng thời được hỗ trợ bởi các framework học sâu phổ biến như PyTorch và TensorFlow. Hơn nữa, CUDA đã tồn tại gần hai thập kỷ, các nhà phát triển quen thuộc hơn với GPU Nvidia và cách thức hoạt động của chúng, đặc biệt trong lĩnh vực học máy. Nvidia đã tạo ra một cộng đồng lớn xung quanh CUDA với tài liệu và tài nguyên đào tạo tốt hơn.
Mặc dù vậy, AMD đang đầu tư mạnh vào nền tảng phần mềm ROCm (Radeon Open Compute), hỗ trợ PyTorch, TensorFlow và các framework mở khác. Công ty cũng đã quyết định mở mã nguồn một phần của ROCm. Tuy nhiên, các nhà phát triển đã chỉ trích ROCm vì cung cấp trải nghiệm rời rạc và thiếu tài liệu toàn diện.
AMD cần phải thống nhất nền tảng phần mềm của mình và thu hút các nhà nghiên cứu và phát triển ML bằng cách cải thiện tài liệu và hỗ trợ ROCm. Việc các ông lớn như Microsoft, Meta, OpenAI và Databricks đang triển khai bộ tăng tốc MI300X trên ROCm là một tín hiệu đáng mừng.
Intel - Nỗ Lực Vươn Lên
Nhiều nhà phân tích đang loại Intel khỏi cuộc đua chip AI, nhưng Intel đã từng là một trong những công ty dẫn đầu về suy luận với các máy chủ Xeon dựa trên CPU. Gần đây, Intel đã ra mắt bộ tăng tốc AI Gaudi 3, một chip ASIC (Mạch tích hợp dành riêng cho ứng dụng) không dựa trên thiết kế CPU hoặc GPU truyền thống. Nó cung cấp cả khả năng huấn luyện và suy luận cho khối lượng công việc AI tạo sinh.
Intel tuyên bố rằng Gaudi 3 nhanh hơn 1,5 lần so với Nvidia H100 về cả huấn luyện và suy luận. Tensor Processor Cores (TPC) và MME Engines của nó được chuyên biệt hóa cho các phép toán ma trận, cần thiết cho khối lượng công việc học sâu.
Về phần mềm, Intel đang đi theo hướng mã nguồn mở với OpenVINO và bộ phần mềm riêng của mình. Bộ phần mềm Gaudi tích hợp các framework, công cụ, trình điều khiển và thư viện, hỗ trợ các framework mở như PyTorch và TensorFlow. Về CUDA của Nvidia, Giám đốc điều hành Intel, Pat Gelsinger, gần đây đã tuyên bố:
"Bạn biết đấy, toàn bộ ngành công nghiệp đều muốn loại bỏ thị trường CUDA. Chúng tôi cho rằng con hào CUDA nông và nhỏ."
Intel cùng với Google, Arm, Qualcomm, Samsung và các công ty khác đã thành lập một nhóm có tên là Unified Acceleration Foundation (UXL). Nhóm này đặt mục tiêu tạo ra một nền tảng mã nguồn mở thay thế cho nền tảng phần mềm CUDA độc quyền của Nvidia. Nhiệm vụ là tạo ra một nền tảng độc lập với silicon để huấn luyện và chạy mô hình trên bất kỳ chip nào. Điều này sẽ ngăn các nhà phát triển bị khóa vào nền tảng CUDA của Nvidia.
Tương lai sẽ ra sao, chỉ có thời gian mới trả lời được. Nhưng nỗ lực của Intel nhằm lật đổ CUDA đã bắt đầu.
Google - Gã Khổng Lồ Tự Cung Tự Cấp
Nếu có một gã khổng lồ AI không phụ thuộc vào Nvidia, đó chính là Google. Google đã phát triển TPU (Tensor Processing Unit) nội bộ của riêng mình từ năm 2015 dựa trên thiết kế ASIC. TPU v5p mạnh mẽ của Google nhanh hơn 2,8 lần so với Nvidia H100 trong việc huấn luyện mô hình AI và có hiệu suất suy luận cao. Và Trillium TPU thế hệ thứ sáu thậm chí còn mạnh mẽ hơn. Google sử dụng TPU cho huấn luyện, tinh chỉnh và suy luận.
Tại sự kiện Google Cloud Next 2024, Patrick Moorhead, Người sáng lập và Giám đốc điều hành của Moor Insights & Strategy, đã nhận được xác nhận từ Google rằng mô hình Gemini của họ đã được huấn luyện hoàn toàn trên TPU. Google cung cấp TPU thông qua Google Cloud cho nhiều loại khối lượng công việc AI. Trên thực tế, các mô hình AI của Apple đã được huấn luyện trên TPU của Google. Theo nghĩa đó, Google là một đối thủ thực sự của Nvidia, và với chip tùy chỉnh của mình, Google đánh bại các nhà sản xuất chip khác cả về huấn luyện và suy luận.
Không giống như Microsoft, Google không quá phụ thuộc vào Nvidia. Gần đây, Google đã giới thiệu bộ xử lý Axion dựa trên Arm. Nó mang lại hiệu quả vượt trội cho trung tâm dữ liệu và có thể xử lý huấn luyện và suy luận AI dựa trên CPU.
Cuối cùng, về hỗ trợ phần mềm, Google cũng chiếm ưu thế. Google hỗ trợ các framework như JAX, Keras, PyTorch và TensorFlow ngay lập tức.
Amazon - Tham Vọng Trên Mây
Amazon điều hành AWS (Amazon Web Services), cung cấp nền tảng điện toán đám mây cho các doanh nghiệp. Để phục vụ các công ty cho khối lượng công việc AI, Amazon đã phát triển hai chip ASIC tùy chỉnh cho huấn luyện và suy luận. AWS Trainium có thể xử lý huấn luyện học sâu cho các mô hình lên đến 100 tỷ tham số. Và AWS Inferentia được sử dụng cho suy luận AI.
Mục tiêu của chip tùy chỉnh AWS là cung cấp chi phí thấp và hiệu suất cao. Amazon đang nỗ lực mở rộng quy mô nội bộ để khẳng định vị thế trong lĩnh vực phần cứng AI. Công ty cũng có AWS Neuron SDK riêng của mình, tích hợp các framework phổ biến như PyTorch và TensorFlow.
Microsoft - Nỗ Lực Giảm Sự Phụ Thuộc
Tương tự như Google, Microsoft cũng đang đẩy mạnh nỗ lực phát triển chip tùy chỉnh trong nội bộ công ty. Vào tháng 11 năm 2023, Microsoft đã giới thiệu chip MAIA 100 dành cho khối lượng công việc AI và Cobalt 100 (CPU dựa trên Arm) cho cơ sở hạ tầng đám mây Azure của mình. Gã khổng lồ Redmond đang cố gắng tránh sự phụ thuộc quá mức vào Nvidia cho nhu cầu điện toán AI của mình.
Chip MAIA 100 được phát triển trên thiết kế ASIC, được sử dụng riêng cho suy luận và huấn luyện AI. Theo báo cáo, chip MAIA 100 hiện đang được thử nghiệm cho suy luận GPT-3.5 Turbo. Microsoft có quan hệ đối tác sâu rộng với Nvidia và AMD cho nhu cầu cơ sở hạ tầng đám mây của mình.
Chúng ta chưa biết mối quan hệ này sẽ diễn biến như thế nào khi Microsoft và các công ty khác bắt đầu triển khai chip tùy chỉnh của họ một cách rộng rãi.
Qualcomm - Tập Trung Vào Hiệu Quả Năng Lượng
Qualcomm đã phát hành bộ tăng tốc Cloud AI 100 vào năm 2020 cho suy luận AI, nhưng nó đã không thành công như mong đợi. Công ty đã làm mới nó với Cloud AI 100 Ultra vào tháng 11 năm 2023. Qualcomm tuyên bố rằng Cloud AI 100 Ultra được chế tạo tùy chỉnh (ASIC) cho các ứng dụng AI tạo sinh. Nó có thể xử lý mô hình 100 tỷ tham số trên một card duy nhất với TDP chỉ 150W.
Qualcomm đã phát triển bộ AI stack và SDK AI đám mây của riêng mình. Công ty chủ yếu quan tâm đến suy luận hơn là huấn luyện. Lời hứa của Qualcomm Cloud AI 100 Ultra là hiệu quả năng lượng vượt trội. Nó cung cấp lên đến 870 TOPS trong khi thực hiện các phép toán INT8.
Hewlett Packard Enterprise (HPE) đang sử dụng Qualcomm Cloud AI 100 Ultra để cung cấp năng lượng cho khối lượng công việc AI tạo sinh trên các máy chủ của mình. Qualcomm cũng đã hợp tác với Cerebras để cung cấp huấn luyện và suy luận mô hình đầu cuối trên một nền tảng duy nhất.
Cerebras - Khởi Nghiệp Tham Vọng
Ngoài các ông lớn, Cerebras là một công ty khởi nghiệp đang nghiên cứu huấn luyện các hệ thống AI quy mô lớn. Wafer-Scale Engine 3 (WSE-3) của họ thực sự là một bộ xử lý quy mô wafer lớn có thể xử lý các mô hình lên đến 24 nghìn tỷ tham số, gấp 10 lần kích thước của GPT-4.
Nó có 4 nghìn tỷ bóng bán dẫn đáng kinh ngạc vì nó là một con chip khổng lồ sử dụng gần như toàn bộ wafer. Không cần kết nối nhiều chip và bộ nhớ. Nó cũng giúp giảm điện năng vì dữ liệu di chuyển ít hơn giữa các thành phần khác nhau. Nó đánh bại GPU Blackwell tiên tiến nhất của Nvidia về petaflop trên mỗi watt.
Chip Cerebras WSE-3 nhắm mục tiêu vào các tập đoàn lớn muốn xây dựng các hệ thống AI lớn và mạnh mẽ bằng cách loại bỏ điện toán phân tán. Cerebras đã có được các khách hàng như AstraZeneca, GSK, The Mayo Clinic và các tổ chức tài chính lớn của Hoa Kỳ.
Hơn nữa, công ty gần đây đã ra mắt API cho Cerebras Inference, cung cấp hiệu suất vượt trội trên các mô hình Llama 3.1 8B và 70B.
Groq - Hiệu Năng Suy Luận Ấn Tượng
Groq đã gây bão trong ngành AI vào đầu năm nay với bộ tăng tốc LPU (Language Processing Unit) của mình. Nó tạo ra 300 đến 400 token mỗi giây khi chạy mô hình Llama 3 70B. Sau Cerebras, đây là giải pháp suy luận AI nhanh thứ hai mà các nhà phát triển có thể sử dụng trong các ứng dụng và dịch vụ sản xuất của họ.
Groq là một chip ASIC, được chế tạo riêng cho các ứng dụng AI tạo sinh bởi các kỹ sư TPU cũ của Google. Nó mở khóa tính song song ở quy mô lớn. Và về chi phí, chạy mô hình AI trên LPU của Groq rẻ hơn so với GPU Nvidia. Đối với các mô hình tương đối nhỏ hơn, LPU của Groq hoạt động tốt. Chúng ta cần xem nó hoạt động như thế nào khi chạy các mô hình 500B+ hoặc quy mô nghìn tỷ.
Kết Luận
Trên đây là những nhà sản xuất chip cạnh tranh với Nvidia trong lĩnh vực phần cứng AI. SambaNova cũng đang cung cấp dịch vụ huấn luyện, nhưng chúng ta chưa thấy bất kỳ điểm chuẩn định lượng nào của bộ tăng tốc AI để đưa ra đánh giá. Ngoài ra, Tenstorrent hiện đang chuyển sang cấp phép IP dựa trên RISC-V cho các thiết kế chip của mình.
Nhìn chung, ngành công nghiệp AI đang hướng tới chip tùy chỉnh và phát triển bộ tăng tốc AI nội bộ được chế tạo riêng. Mặc dù đối với huấn luyện, Nvidia vẫn là lựa chọn ưa thích do CUDA được áp dụng rộng rãi, nhưng trong những năm tới, xu hướng này có thể thay đổi khi các bộ tăng tốc chuyên dụng hơn trưởng thành. Đối với suy luận, đã có nhiều giải pháp vượt trội hơn Nvidia vào lúc này.
Cảnh quan AI về mặt phần mềm đang thay đổi nhanh chóng. Giờ là lúc để bộ tăng tốc AI đánh dấu một bước chuyển đổi mô hình.

0 comments Blogger 0 Facebook
Đăng nhận xét