Nvidia Llama-3.1-Minitron 4B: Mô hình ngôn ngữ nhỏ bé nhưng mạnh mẽ

Trong cuộc đua phát triển trí tuệ nhân tạo (AI) trên thiết bị, các công ty công nghệ đang tập trung vào việc tạo ra các mô hình ngôn ngữ nhỏ (SLM) có thể hoạt động hiệu quả trên các thiết bị có tài nguyên hạn chế.

Nvidia, một trong những gã khổng lồ trong lĩnh vực này, vừa giới thiệu Llama-3.1-Minitron 4B, một phiên bản rút gọn của mô hình Llama 3, được tối ưu hóa thông qua các kỹ thuật cắt tỉa (pruning) và chưng cất (distillation) tiên tiến. Mô hình này đạt hiệu suất cạnh tranh với các mô hình lớn hơn và SLM cùng kích cỡ, đồng thời hiệu quả hơn đáng kể trong việc huấn luyện và triển khai.

Sức mạnh của cắt tỉa và chưng cất

Cắt tỉa và chưng cất là hai kỹ thuật chính để tạo ra các mô hình ngôn ngữ nhỏ gọn và hiệu quả hơn. Cắt tỉa loại bỏ các thành phần không quan trọng trong mô hình. "Cắt tỉa chiều sâu" loại bỏ các lớp hoàn chỉnh, trong khi "cắt tỉa chiều rộng" loại bỏ các thành phần cụ thể như nơ-ron và đầu chú ý.

Chưng cất là kỹ thuật chuyển giao kiến thức và khả năng từ một mô hình lớn - thường được gọi là "mô hình giáo viên" - sang một mô hình nhỏ hơn và đơn giản hơn - "mô hình học sinh". Có hai phương pháp chính để chưng cất: Đầu tiên là "Huấn luyện SGD", nơi mô hình học sinh được huấn luyện trên đầu vào và phản hồi của giáo viên. Phương pháp thứ hai là "Chưng cất kiến thức cổ điển", trong đó mô hình học sinh được huấn luyện trên các hoạt động bên trong của mô hình giáo viên ngoài kết quả.

Trong một nghiên cứu trước đây, các nhà nghiên cứu của Nvidia đã chứng minh hiệu quả của việc kết hợp cắt tỉa với chưng cất kiến thức cổ điển. Họ bắt đầu với mô hình Nemotron 15B và tiến hành cắt tỉa và chưng cất nó xuống thành một mô hình có 8 tỷ tham số. Sau đó, họ thực hiện quy trình tái huấn luyện nhẹ bằng cách sử dụng chưng cất kiến thức với mô hình gốc là giáo viên và mô hình đã được cắt tỉa là học sinh. Cuối cùng, họ lặp lại quy trình với mô hình 8B làm điểm xuất phát để tạo ra một mô hình 4B nhỏ hơn.

Phương pháp này đã mang lại sự cải thiện 16% về hiệu suất trên điểm chuẩn MMLU phổ biến so với việc huấn luyện một mô hình có 4 tỷ tham số từ đầu. Ấn tượng hơn, toàn bộ quy trình yêu cầu ít hơn 40 lần lượng token so với việc huấn luyện mô hình từ đầu. Hiệu suất của mô hình tương đương với Mistral 7B, Gemma 7B và Llama-3 8B, những mô hình được huấn luyện trên hàng nghìn tỷ token.

Chưng cất Llama 3.1

Xây dựng dựa trên công trình trước đó, nhóm Nvidia đã quyết định áp dụng các kỹ thuật tương tự cho mô hình Llama 3.1 8B. Mục tiêu của họ là tạo ra một phiên bản có 4 tỷ tham số của mô hình có thể đạt được hiệu suất tương đương với các mô hình lớn hơn nhưng hiệu quả hơn trong việc huấn luyện.

Bước đầu tiên là tinh chỉnh mô hình 8B chưa được cắt tỉa trên một bộ dữ liệu có 94 tỷ token để khắc phục sự thay đổi phân phối giữa dữ liệu huấn luyện của mô hình gốc và bộ dữ liệu chưng cất của họ.

"Các thử nghiệm cho thấy, nếu không khắc phục sự thay đổi phân phối, giáo viên sẽ cung cấp hướng dẫn không tối ưu trên bộ dữ liệu khi được chưng cất," các nhà nghiên cứu viết trong một bài đăng trên blog.

Tiếp theo, các nhà nghiên cứu áp dụng hai loại cắt tỉa: cắt tỉa chiều sâu, nơi họ loại bỏ 50% các lớp, và cắt tỉa chiều rộng, nơi họ loại bỏ 50% nơ-ron từ một số lớp dày đặc trong các khối bộ chuyển đổi. Điều này dẫn đến hai phiên bản khác nhau của mô hình Llama-3.1-Minitron 4B.

Cuối cùng, các nhà nghiên cứu tinh chỉnh các mô hình đã được cắt tỉa bằng cách sử dụng NeMo-Aligner, một bộ công cụ hỗ trợ nhiều thuật toán sắp xếp như học tăng cường từ phản hồi của con người (RLHF), tối ưu hóa ưu tiên trực tiếp (DPO) và SteerLM của Nvidia.

Các nhà nghiên cứu đã đánh giá các mô hình Llama-3.1-Minitron 4B về khả năng tuân theo hướng dẫn, nhập vai, tạo ra thế hệ được hỗ trợ bởi việc truy xuất (RAG) và gọi chức năng.

Kết quả cho thấy, mặc dù bộ dữ liệu huấn luyện nhỏ, Llama-3.1-Minitron 4B hoạt động gần với các SLM khác, bao gồm Phi-2 2.7B, Gemma2 2.6B, Qwen2-1.5B. Mặc dù Llama-3.1-Minitron 4B lớn hơn ít nhất 50% so với những mô hình đó, nhưng nó đã được huấn luyện trên một phần nhỏ dữ liệu huấn luyện. Điều này mang lại một động lực mới thú vị để cân bằng giữa chi phí huấn luyện và suy luận.

Nhóm nghiên cứu đã phát hành phiên bản được cắt tỉa chiều rộng của mô hình trên Hugging Face theo Giấy phép Mô hình Mở của Nvidia, cho phép sử dụng thương mại. Điều này giúp nó có thể tiếp cận với nhiều người dùng và nhà phát triển hơn có thể tận dụng hiệu quả và hiệu suất của nó.

"Cắt tỉa và chưng cất kiến thức cổ điển là một phương pháp rất hiệu quả về chi phí để có được các LLM [mô hình ngôn ngữ lớn] có kích thước nhỏ hơn, đạt được độ chính xác vượt trội so với việc huấn luyện từ đầu trên tất cả các lĩnh vực," các nhà nghiên cứu viết. "Nó là một cách tiếp cận hiệu quả hơn và tiết kiệm dữ liệu hơn so với việc tinh chỉnh theo phong cách dữ liệu tổng hợp hoặc huấn luyện từ đầu."

Công trình này là lời nhắc nhở về giá trị và tầm quan trọng của cộng đồng mã nguồn mở đối với tiến bộ của AI. Cắt tỉa và chưng cất là một phần của một nghiên cứu rộng lớn hơn đang cho phép các công ty tối ưu hóa và tùy chỉnh LLM với chi phí thấp hơn nhiều so với bình thường. Các công trình đáng chú ý khác trong lĩnh vực này bao gồm thuật toán hợp nhất mô hình tiến hóa của Sakana AI, cho phép kết hợp các phần của các mô hình khác nhau để kết hợp điểm mạnh của chúng mà không cần nguồn lực huấn luyện tốn kém.

Nvidia Llama-3.1-Minitron 4B: Mô hình ngôn ngữ nhỏ bé nhưng mạnh mẽ