NVIDIA Blackwell: Thiết lập tiêu chuẩn mới cho AI thế hệ mới trong MLPerf Inference
Giới thiệu:
Trong bối cảnh các doanh nghiệp đang chạy đua để áp dụng AI thế hệ mới và đưa các dịch vụ mới ra thị trường, nhu cầu về cơ sở hạ tầng trung tâm dữ liệu chưa bao giờ lớn hơn thế. Việc huấn luyện các mô hình ngôn ngữ lớn (LLM) là một thách thức, nhưng việc cung cấp các dịch vụ thời gian thực dựa trên LLM lại là một thách thức khác.
NVIDIA Blackwell dẫn đầu hiệu năng:
Trong vòng đánh giá mới nhất của MLPerf Inference v4.1, các nền tảng NVIDIA đã mang đến hiệu năng hàng đầu trong tất cả các bài kiểm tra trung tâm dữ liệu. Lần đầu tiên được gửi tham gia, nền tảng NVIDIA Blackwell sắp ra mắt đã cho thấy hiệu năng gấp 4 lần so với NVIDIA H100 Tensor Core GPU trên khối lượng công việc LLM lớn nhất của MLPerf, Llama 2 70B, nhờ việc sử dụng Transformer Engine thế hệ thứ hai và FP4 Tensor Cores.
NVIDIA H200 Tensor Core GPU đã đạt được kết quả xuất sắc trên mọi điểm chuẩn trong danh mục trung tâm dữ liệu — bao gồm cả điểm chuẩn mới nhất, Mixtral 8x7B Mixture of Experts (MoE) LLM, với tổng số 46,7 tỷ tham số, với 12,9 tỷ tham số hoạt động trên mỗi token.
Các mô hình MoE ngày càng phổ biến như một cách để mang lại sự linh hoạt hơn cho việc triển khai LLM, vì chúng có khả năng trả lời nhiều loại câu hỏi và thực hiện các nhiệm vụ đa dạng hơn trong một lần triển khai duy nhất. Chúng cũng hiệu quả hơn vì chúng chỉ kích hoạt một số chuyên gia cho mỗi lần suy luận — nghĩa là chúng cung cấp kết quả nhanh hơn nhiều so với các mô hình dày đặc có kích thước tương tự.
Nhu cầu về khả năng tính toán mạnh mẽ:
Sự phát triển không ngừng của LLM đang thúc đẩy nhu cầu về khả năng tính toán nhiều hơn để xử lý các yêu cầu suy luận. Để đáp ứng các yêu cầu về độ trễ thời gian thực để phục vụ các LLM ngày nay và để làm như vậy cho càng nhiều người dùng càng tốt, khả năng tính toán đa GPU là điều bắt buộc. NVIDIA NVLink và NVSwitch cung cấp giao tiếp băng thông cao giữa các GPU dựa trên kiến trúc NVIDIA Hopper và mang lại lợi ích đáng kể cho suy luận mô hình lớn hiệu quả về chi phí, thời gian thực. Nền tảng Blackwell sẽ tiếp tục mở rộng khả năng của NVLink Switch với các miền NVLink lớn hơn với 72 GPU.
Đổi mới phần mềm không ngừng:
Các nền tảng NVIDIA trải qua quá trình phát triển phần mềm liên tục, tích lũy các cải tiến về hiệu năng và tính năng hàng tháng.
Trong vòng suy luận mới nhất, các dịch vụ của NVIDIA, bao gồm kiến trúc NVIDIA Hopper, nền tảng NVIDIA Jetson và NVIDIA Triton Inference Server, đã chứng kiến những bước nhảy vọt về hiệu năng.
GPU NVIDIA H200 mang lại hiệu năng suy luận AI thế hệ mới cao hơn tới 27% so với vòng trước, nhấn mạnh giá trị gia tăng mà khách hàng nhận được theo thời gian từ khoản đầu tư của họ vào nền tảng NVIDIA.
Triton Inference Server, một phần của nền tảng NVIDIA AI và có sẵn với phần mềm NVIDIA AI Enterprise, là một máy chủ suy luận mã nguồn mở đầy đủ tính năng giúp các tổ chức hợp nhất các máy chủ suy luận dành riêng cho khung vào một nền tảng duy nhất, thống nhất. Điều này giúp giảm tổng chi phí sở hữu để phục vụ các mô hình AI trong sản xuất và giảm thời gian triển khai mô hình từ nhiều tháng xuống còn vài phút.
Trong vòng MLPerf này, Triton Inference Server đã mang lại hiệu năng gần ngang bằng với các bài nộp bare-metal của NVIDIA, cho thấy rằng các tổ chức không còn phải lựa chọn giữa việc sử dụng máy chủ suy luận AI cấp sản xuất giàu tính năng và đạt được hiệu năng thông lượng đỉnh cao.
Hướng tới Edge:
Được triển khai ở edge, các mô hình AI thế hệ mới có thể chuyển đổi dữ liệu cảm biến, chẳng hạn như hình ảnh và video, thành thông tin chi tiết có thể hành động trong thời gian thực với nhận thức ngữ cảnh mạnh mẽ. Nền tảng NVIDIA Jetson dành cho AI edge và robot có khả năng độc đáo trong việc chạy bất kỳ loại mô hình nào cục bộ, bao gồm LLM, bộ biến đổi tầm nhìn và Stable Diffusion.
Trong vòng đánh giá MLPerf này, các mô-đun hệ thống NVIDIA Jetson AGX Orin đã đạt được hiệu năng thông lượng cải thiện hơn 6,2 lần và độ trễ cải thiện 2,4 lần so với vòng trước trên khối lượng công việc LLM GPT-J. Thay vì phát triển cho một trường hợp sử dụng cụ thể, các nhà phát triển giờ đây có thể sử dụng mô hình 6 tỷ tham số đa năng này để giao tiếp liền mạch với ngôn ngữ của con người, biến đổi AI thế hệ mới ở edge.
Kết luận:
Vòng MLPerf Inference này đã cho thấy tính linh hoạt và hiệu năng hàng đầu của các nền tảng NVIDIA — mở rộng từ trung tâm dữ liệu đến edge — trên tất cả các khối lượng công việc của điểm chuẩn, tăng cường sức mạnh cho các ứng dụng và dịch vụ dựa trên AI sáng tạo nhất.
Các hệ thống chạy bằng GPU H200 hiện có sẵn từ CoreWeave — nhà cung cấp dịch vụ đám mây đầu tiên công bố tính khả dụng chung — và các nhà sản xuất máy chủ ASUS, Dell Technologies, HPE, QTC và Supermicro.

0 comments Blogger 0 Facebook
Đăng nhận xét