NVIDIA Nâng Cao Hiệu Suất Llama 3.1 Lên 1,9 Lần Nhờ Thuật Toán Giải Mã "Medusa"
NVIDIA đã đạt được bước tiến đáng kể trong việc tối ưu hóa hiệu năng của các mô hình ngôn ngữ lớn (LLM) với thuật toán giải mã độc quyền "Medusa" trên bộ tăng tốc AI HGX H200. Nhờ Medusa, hiệu năng của Llama 3.1 trong việc suy luận đã được cải thiện lên đến 1,9 lần so với trước đây.
Nhu cầu xử lý đa GPU cho AI thế hệ mới:
Trong bối cảnh các mô hình ngôn ngữ lớn ngày càng phức tạp và quy mô khổng lồ, việc sử dụng nhiều GPU để tính toán trở nên cần thiết để đáp ứng các yêu cầu về độ trễ thấp và thông lượng cao của các ứng dụng AI thế hệ mới.
Để đạt được hiệu năng tối ưu, các GPU cần phải hoạt động đồng bộ như một "GPU mạnh mẽ", với khả năng giao tiếp GPU-GPU siêu nhanh và phần mềm tiên tiến tận dụng tối đa tiềm năng của nhiều GPU.
NVIDIA đã đạt được điều này bằng cách phân chia các phép tính của từng lớp mô hình trên các GPU sẵn có thông qua kỹ thuật song song tensor (tensor parallelism) kết hợp với các thuật toán tiên tiến như giải mã dự đoán (speculative decoding). Nhờ đó, độ trễ trong việc tạo ra các mã thông báo (token generation latency) được giảm đáng kể, mang đến trải nghiệm người dùng tương tác mượt mà.
HGX H200 và vai trò quan trọng của TensorRT-LLM:
Để phục vụ Llama 3.1 với độ trễ cực thấp, các dịch vụ đám mây có thể tận dụng tối đa sức mạnh của máy chủ NVIDIA HGX H200. Mỗi máy chủ HGX H200 tích hợp 8 GPU H200 Tensor Core và 4 chip NVLink Switch, cho phép mỗi GPU giao tiếp với tốc độ băng thông 900 GB/s đến bất kỳ GPU nào khác trong hệ thống. Băng thông kết nối GPU-GPU cao là yếu tố then chốt để tránh trở thành điểm nghẽn trong các trường hợp sử dụng tương tác.
NVIDIA TensorRT-LLM, một thư viện TensorRT mã nguồn mở, được sử dụng để triển khai hiệu quả các thuật toán tối ưu hóa trên hệ thống NVIDIA H200 HGX. TensorRT-LLM cung cấp hiệu năng suy luận hàng đầu trên các LLM mới nhất thông qua nhiều kỹ thuật khác nhau, bao gồm song song tensor và giải mã dự đoán.
Medusa: Giải pháp đột phá cho việc tăng tốc tạo mã thông báo:
Các LLM dựa trên Transformer hoạt động theo cách tự hồi quy (auto-regressive), nghĩa là các mã thông báo phải được tạo ra theo trình tự, làm hạn chế thông lượng mỗi bước tạo ra chỉ một mã thông báo. Thông thường, tốc độ tạo ra một mã thông báo phụ thuộc vào tốc độ tải trọng lượng mô hình vào bộ nhớ, dẫn đến việc các khả năng xử lý Tensor Core mạnh mẽ của GPU H200 không được tận dụng hết.
Giải mã dự đoán là một kỹ thuật tăng thông lượng tạo mã thông báo bằng cách sử dụng "mô hình nháp" (draft model) để dự đoán nhiều mã thông báo tiếp theo, vượt ra ngoài mã thông báo tiếp theo. LLM mục tiêu sau đó sẽ "gói" các ứng viên dự đoán và xác thực chúng song song với mã thông báo tiếp theo, sử dụng hiệu quả hơn các tài nguyên tính toán GPU song song. Nếu LLM gốc chấp nhận bất kỳ chuỗi ứng viên nào, nhiều mã thông báo sẽ được tạo ra trong cùng một bước, do đó tăng tốc quá trình tạo mã thông báo.
Medusa, được mô tả trong một bài báo nghiên cứu, là một thuật toán giải mã dự đoán sử dụng chính mô hình gốc làm "mô hình nháp", tránh sự phức tạp của hệ thống và sự khác biệt về phân phối khi sử dụng một "mô hình nháp" riêng biệt. Kỹ thuật này sử dụng thêm các "đầu" giải mã, gọi là đầu Medusa, để dự đoán các mã thông báo ứng viên vượt ra ngoài mã thông báo tiếp theo. Mỗi đầu Medusa tạo ra một phân phối mã thông báo vượt ra ngoài mã thông báo trước đó.
Kết quả ấn tượng của Medusa:
Với Medusa, một HGX H200 có thể tạo ra 268 mã thông báo mỗi giây cho mỗi người dùng đối với Llama 3.1 70B và 108 mã thông báo mỗi giây cho Llama 3.1 405B. Tốc độ này nhanh hơn 1,5 lần đối với Llama 3.1 70B và nhanh hơn 1,9 lần đối với Llama 3.1 405B so với không sử dụng Medusa. Mặc dù tỷ lệ chấp nhận của Medusa có thể thay đổi giữa các tác vụ, nhưng hiệu năng tổng thể của nó được tổng quát hóa trên một loạt các tác vụ.
Các đầu Medusa cho cả Llama 3.1 70B và Llama 3.1 405B được đào tạo bằng cách tích hợp Trình tối ưu hóa mô hình NVIDIA TensorRT với khung công tác NVIDIA NeMo. Việc đào tạo đầu Medusa sử dụng phần thân (backbone) cố định, đảm bảo rằng việc sử dụng Medusa mang lại độ chính xác giống hệt với mô hình cơ sở.
Tương lai của đổi mới toàn diện của NVIDIA:
NVIDIA HGX H200 với NVLink Switch và TensorRT-LLM đã mang lại hiệu năng suy luận thời gian thực tuyệt vời trên các mô hình phổ biến và đòi hỏi khắt khe trong cộng đồng. Để tiếp tục cải thiện trải nghiệm người dùng và giảm chi phí suy luận, NVIDIA liên tục đổi mới trên mọi tầng của ngăn xếp công nghệ – chip, hệ thống, thư viện phần mềm, thuật toán và hơn thế nữa.
NVIDIA hứa hẹn sẽ chia sẻ thêm những cập nhật về hiệu năng suy luận độ trễ thấp trong tương lai khi cả nền tảng của họ và hệ sinh thái LLM tiếp tục phát triển.
Tóm lại, sự ra đời của Medusa thể hiện cam kết của NVIDIA trong việc thúc đẩy đổi mới AI và tối ưu hóa hiệu năng của LLM. Thuật toán này hứa hẹn sẽ mở ra một kỷ nguyên mới cho các ứng dụng AI thế hệ mới, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên và tạo nội dung.

0 comments Blogger 0 Facebook
Đăng nhận xét