Hội nghị thượng đỉnh phần cứng AI 2024: Những điểm nổi bật thu hút sự chú ý

Hội nghị thượng đỉnh phần cứng AI (AI HW Summit) thường niên tại khu vực Vịnh San Francisco, do Kisaco (Anh) tổ chức, đã thu hút hơn 1000 người tham dự trong năm nay. Sự kiện này đã chứng kiến hàng loạt bài thuyết trình và sự góp mặt của hàng trăm chuyên gia hàng đầu về AI đến từ các tập đoàn lớn và các startup.

Kể từ năm 2019, AI HW Summit đã trở thành tâm điểm của các công nghệ mới trong lĩnh vực AI. Ban đầu tập trung vào lĩnh vực bán dẫn, sự kiện này đã không ngừng mở rộng phạm vi bao gồm phần mềm, mô hình, mạng lưới và tối ưu hóa toàn bộ trung tâm dữ liệu. Năm tới, nó sẽ được đổi tên thành Hội nghị thượng đỉnh cơ sở hạ tầng AI (AI Infra Summit), phản ánh thực tế rằng AI đã trở thành một nỗ lực toàn diện, tiêu thụ toàn bộ các trung tâm dữ liệu.

Điểm đáng chú ý là NVIDIA, "ông trùm" trong lĩnh vực chip AI, đã không tham gia trình bày tại sự kiện này. Có vẻ như họ cho rằng mình đã quá nổi tiếng và không cần phải chứng minh thêm sức mạnh của GPU.

Dưới đây là một số điểm nổi bật được rút ra từ hội nghị:

Cuộc chiến giành ngôi "Hệ thống suy luận nhanh nhất hành tinh"

Cerebras, Groq và Samba Nova, 3 "ông lớn" trong lĩnh vực cung cấp dịch vụ suy luận, đang cạnh tranh gay gắt để giành lấy danh hiệu này. Mỗi công ty đều khẳng định mình đang sở hữu tốc độ suy luận nhanh nhất thông qua các dịch vụ token-as-a-service. Theo các kết quả thử nghiệm được thực hiện bởi Artificial Analysis (AA), Cerebras đang dẫn đầu với hiệu năng cao nhất trên mô hình Llama 3.1 70B, đồng thời sở hữu chi phí thấp nhất cho mỗi triệu token.

Tuy nhiên, cần lưu ý rằng mỗi công ty đều chọn lọc kích thước của mô hình Llama 3.1 để đưa ra những con số ấn tượng nhất. Hơn nữa, AA sử dụng các bài kiểm tra không được tinh chỉnh và không tiết lộ số lượng bộ tăng tốc hay phần mềm cấp thấp được sử dụng trong các thử nghiệm.

Kết luận: Mặc dù các bài kiểm tra của AA cung cấp một cái nhìn tổng quan hữu ích, nhưng kết quả không thay thế cho các chuẩn mực ngành được đánh giá ngang hàng như MLPerf, được các nhà cung cấp phần cứng tự thực hiện và công bố.

Dù vậy, cả 3 công ty trên đều đã chứng minh được sự tiến bộ vượt bậc trong việc giảm chi phí sử dụng AI cho các ứng dụng thực tế. Việc công bố thêm kết quả thử nghiệm theo chuẩn MLPerf sẽ giúp cộng đồng AI có cái nhìn khách quan và toàn diện hơn.

Kết nối quang học: Công nghệ tương lai của AI

Kết nối quang học đã được sử dụng rộng rãi để kết nối giữa các tủ rack trong các trung tâm dữ liệu hiện đại nhằm khắc phục các hạn chế về khoảng cách của cáp đồng. Tuy nhiên, nó vẫn chưa được áp dụng phổ biến trong nội bộ rack do chi phí thấp hơn của các giải pháp đồng.

Celestial AI đang phát triển một thiết kế kết nối quang học hiệu quả và thanh lịch, hứa hẹn sẽ giải quyết "vấn đề bức tường bộ nhớ" mà GPU đang gặp phải hiện nay. Hệ thống này cho phép truy cập vào hơn 33 TB dung lượng bộ nhớ HBM chia sẻ, đồng thời giảm chi phí, năng lượng tiêu thụ và độ trễ RDMA đáng kể. Đây là một công nghệ đáng được quan tâm và theo dõi sát sao trong tương lai.

Tính toán tương tự: Sự hồi sinh?

IBM, Intel và nhiều đơn vị nghiên cứu khác đang đầu tư phát triển các giải pháp tính toán tương tự trong bộ nhớ. Mặc dù tiềm năng của nó rất lớn, nhưng các bộ chuyển đổi kỹ thuật số sang tương tự (D-to-A) lại tạo ra độ trễ, và dung lượng bộ nhớ hiện tại không phù hợp để chạy các mô hình ngôn ngữ lớn (LLM).

Mentium, một startup đến từ Đại học California Santa Barbara, đang xây dựng một nền tảng kết hợp bộ xử lý kỹ thuật số với bộ xử lý tương tự trong bộ nhớ. Họ tin rằng đây là phương pháp tối ưu, kết hợp những ưu điểm của cả hai loại bộ xử lý. Điều đáng chú ý là Mentium đã chuyển sang sử dụng nền tảng EDA dựa trên đám mây của Synopsys trên Azure, giúp tiết kiệm thời gian và chi phí phát triển.

Mega-NIC của Enfabrica: Tiềm năng to lớn

NVLink của NVIDIA, với khả năng kết nối tối đa 512 GPU ở tốc độ 100 GB/s mỗi liên kết, là một trong những lợi thế lớn nhất của họ. Tuy nhiên, để kết nối các node GPU, cần phải sử dụng nhiều switch.

Enfabrica, một startup được hỗ trợ bởi NVIDIA và các nhà đầu tư mạo hiểm hàng đầu, đã chính thức ra mắt sản phẩm Mega-NIC của mình tại AI HW Summit năm ngoái. Năm nay, công ty này đang tiến gần hơn đến việc thương mại hóa sản phẩm và mở rộng các tính năng, bao gồm cả tính năng chuyển đổi dự phòng quan trọng đối với quá trình huấn luyện AI.

Mega-NIC của Enfabrica có tiềm năng loại bỏ các switch, NIC và PCIe, dẫn đến sự đơn giản hóa đáng kể về cấu trúc mạng. Khi được áp dụng rộng rãi vào năm 2025, dự kiến công nghệ này sẽ thu hút sự quan tâm lớn từ ngành công nghiệp.

Những câu chuyện đáng chú ý khác

Microsoft, AWS và Meta đều đã chia sẻ những kiến thức chuyên sâu về cấp độ trung tâm dữ liệu. Các bài trình bày của họ và nhiều bài thuyết trình khác đã khẳng định AI đã đạt đến quy mô trung tâm dữ liệu, với hàng chục nghìn GPU. Meta dự đoán quy mô cụm GPU sẽ tăng gấp 10 lần vào năm 2030, có thể lên tới hàng triệu GPU.

Bên cạnh đó, còn có nhiều câu chuyện thú vị khác đến từ các doanh nghiệp khởi nghiệp:

  • Positron: Startup tập trung vào việc cải thiện mật độ và băng thông bộ nhớ.
  • Furiosa AI: Startup Hàn Quốc, đề xuất cách tiếp cận hiệu quả hơn bằng cách sử dụng phép co Tensor thay vì phép nhân ma trận (matmul) làm hoạt động cơ bản. Điều này có thể giúp tối ưu hóa năng lượng tiêu thụ trong các trung tâm dữ liệu.
  • Broadcom và Liên minh Ethernet siêu tốc (UEC): Với sự tham gia của NVIDIA, UEC hứa hẹn sẽ trở thành chuẩn kết nối mạng phổ biến trong tương lai (dự kiến vào năm 2026).

Kết luận:

Hội nghị AI HW Summit đã chứng kiến sự nỗ lực không ngừng của các công ty trong việc hướng tới hiệu quả AI. Lĩnh vực này đã mở rộng vượt xa phạm vi chip xử lý, bao gồm cả việc tối ưu hóa trung tâm dữ liệu và giải quyết vấn đề lỗi hệ thống.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top