NVIDIA Ra Mắt Llama 3.1-Nemotron-51B: Bước Đột Phá Về Độ Chính Xác và Hiệu Năng
NVIDIA vừa công bố ra mắt một mô hình ngôn ngữ đột phá, Llama 3.1-Nemotron-51B, hứa hẹn mang đến độ chính xác và hiệu năng chưa từng có trong lĩnh vực trí tuệ nhân tạo (AI). Dựa trên Llama-3.1-70B của Meta, mô hình mới này sử dụng một phương pháp Tìm Kiếm Kiến trúc Thần kinh (NAS) mới, cải thiện đáng kể cả độ chính xác và hiệu năng. Theo Blog Kỹ thuật của NVIDIA, mô hình này có thể hoạt động trên một GPU NVIDIA H100 duy nhất ngay cả khi xử lý khối lượng công việc lớn, giúp tăng tính khả dụng và giảm chi phí.
Hiệu năng vượt trội và hiệu quả xử lý khối lượng công việc
Mô hình Llama 3.1-Nemotron-51B vượt trội so với các phiên bản tiền nhiệm với tốc độ suy luận nhanh hơn 2,2 lần mà vẫn giữ được gần như cùng một mức độ chính xác. Hiệu năng này cho phép xử lý khối lượng công việc lớn hơn 4 lần trên một GPU duy nhất trong quá trình suy luận, nhờ vào dung lượng bộ nhớ được giảm và kiến trúc được tối ưu hóa.
Tối ưu hóa độ chính xác trên mỗi đô la
Một trong những thách thức đáng kể khi áp dụng các mô hình ngôn ngữ lớn (LLM) là chi phí suy luận của chúng. Mô hình Llama 3.1-Nemotron-51B giải quyết vấn đề này bằng cách tạo ra sự cân bằng giữa độ chính xác và hiệu năng, biến nó thành một giải pháp hiệu quả về chi phí cho nhiều ứng dụng khác nhau, từ các hệ thống edge đến các trung tâm dữ liệu đám mây. Khả năng này đặc biệt hữu ích cho việc triển khai nhiều mô hình thông qua Kubernetes và bản thiết kế NIM.
Giản hóa suy luận với NVIDIA NIM
Mô hình Nemotron được tối ưu hóa với các công cụ TensorRT-LLM để đạt hiệu năng suy luận cao hơn và được đóng gói thành một microservice suy luận NVIDIA NIM. Thiết lập này đơn giản hóa và tăng tốc độ triển khai các mô hình AI thế hệ mới trên cơ sở hạ tầng được tăng tốc của NVIDIA, bao gồm đám mây, trung tâm dữ liệu và máy trạm.
Cấu trúc bên trong – Xây dựng mô hình với NAS
Mô hình Llama 3.1-Nemotron-51B-Instruct được phát triển bằng cách sử dụng công nghệ NAS và các phương pháp huấn luyện hiệu quả, cho phép tạo ra các mô hình Transformer không chuẩn được tối ưu hóa cho các GPU cụ thể. Phương pháp này bao gồm một khuôn khổ chưng cất khối để huấn luyện song song các biến thể khối khác nhau, đảm bảo suy luận hiệu quả và chính xác.
Điều chỉnh LLM cho các nhu cầu đa dạng
Phương pháp NAS của NVIDIA cho phép người dùng lựa chọn sự cân bằng tối ưu giữa độ chính xác và hiệu năng. Ví dụ, biến thể Llama-3.1-Nemotron-40B-Instruct được tạo ra để ưu tiên tốc độ và chi phí, đạt được tốc độ tăng 3,2 lần so với mô hình gốc với mức giảm độ chính xác vừa phải.
Kết quả chi tiết
Mô hình Llama 3.1-Nemotron-51B-Instruct đã được đánh giá chuẩn so với một số tiêu chuẩn ngành, chứng minh hiệu năng vượt trội của nó trong nhiều trường hợp. Nó tăng gấp đôi thông lượng của mô hình tham chiếu, giúp nó trở nên hiệu quả về chi phí trong nhiều trường hợp sử dụng.
Mô hình Llama 3.1-Nemotron-51B-Instruct mang đến một tập hợp các cơ hội mới cho người dùng và các công ty muốn sử dụng các mô hình cơ sở chính xác cao một cách hiệu quả về chi phí. Sự cân bằng giữa độ chính xác và hiệu năng khiến nó trở thành một lựa chọn hấp dẫn cho các nhà phát triển và thể hiện hiệu quả của phương pháp NAS, mà NVIDIA có kế hoạch mở rộng cho các mô hình khác.

0 comments Blogger 0 Facebook
Đăng nhận xét