Thu hẹp AI khổng lồ, mở ra cánh cửa cho máy tính cá nhân và điện thoại thông minh
Mục lục:
- Bước tiến mới trong nén mô hình ngôn ngữ lớn (LLM)
- Hai kỹ thuật đột phá: AQLM và PV-Tuning
- Kết hợp sức mạnh: Tạo ra LLM siêu nhỏ gọn
- Thách thức và tiềm năng của LLM thu nhỏ
- Ứng dụng tiềm năng cho thiết bị cá nhân
- Kết luận: Tương lai của AI trên thiết bị cá nhân
1. Bước tiến mới trong nén mô hình ngôn ngữ lớn (LLM)
Các nhà nghiên cứu trí tuệ nhân tạo đến từ Yandex LLC và NeuralMagic Inc. đã đạt được tiến bộ đáng kể trong việc nén các mô hình ngôn ngữ lớn (LLM) mạnh mẽ như Llama 2 của Meta Platforms Inc., giúp chúng có thể được triển khai trên các thiết bị thông thường như điện thoại thông minh và loa thông minh.
2. Hai kỹ thuật đột phá: AQLM và PV-Tuning
Hợp tác với các học giả từ Viện Khoa học và Công nghệ Áo và Đại học Khoa học và Công nghệ Vua Abdullah, nhóm nghiên cứu đã tạo ra hai phương pháp nén riêng biệt cho LLM. Khi được sử dụng kết hợp, chúng cho phép giảm kích thước của LLM xuống 8 lần, đồng thời duy trì chất lượng phản hồi ở mức trung bình 95%.
Hai kỹ thuật này là:
- Additive Quantization for Language Models (AQLM): Sử dụng kỹ thuật lượng tử hóa cộng thêm để giảm số lượng bit cho mỗi tham số mô hình xuống còn 2-3 bit, đồng thời duy trì độ chính xác.
- PV-Tuning: Là một khung công tác độc lập với biểu diễn, có thể tổng quát hóa và cải thiện các chiến lược tinh chỉnh hiện có cho mô hình AI. Nó cũng khắc phục các lỗi có thể phát sinh trong quá trình nén mô hình.
3. Kết hợp sức mạnh: Tạo ra LLM siêu nhỏ gọn
Mặc dù mỗi kỹ thuật đều mạnh mẽ riêng lẻ, nhưng điểm độc đáo là chúng được thiết kế để kết hợp với nhau. Nhóm nghiên cứu đã phát hiện ra rằng việc kết hợp AQLM và PV-Tuning có thể tạo ra các LLM siêu nhỏ gọn gần như ngang bằng với các phiên bản đầy đủ kích thước.
4. Thách thức và tiềm năng của LLM thu nhỏ
Nỗ lực của các nhà nghiên cứu được thúc đẩy bởi mong muốn tìm kiếm một cách hiệu quả hơn để triển khai LLM trên phần cứng của người tiêu dùng. Cho đến nay, đây là một thách thức lớn do sự đánh đổi cố hữu giữa kích thước mô hình và hiệu quả tính toán.
Andy Thurai, Phó chủ tịch và nhà phân tích chính của Constellation Research Inc., nhận định rằng mặc dù các LLM lớn nhất là những kỳ tích kỹ thuật ấn tượng, nhưng chúng thường không thực tế do kích thước khổng lồ. Kích thước của chúng khiến chúng tốn kém về mặt tính toán và phản hồi chậm, cản trở các ứng dụng thời gian thực. Đây là lý do tại sao khái niệm về các mô hình có kích thước phù hợp đang trở nên phổ biến.
Một số công ty AI đã cố gắng tự thu nhỏ các mô hình AI của họ, nhưng thách thức là đạt được sự cân bằng phù hợp giữa hiệu suất và kích thước. Ví dụ, dòng LLM Gemini của Google LLC bao gồm một phiên bản nhẹ được gọi là Gemini Nano để triển khai trên điện thoại thông minh, nhưng nó gặp khó khăn trong việc đạt được hiệu suất của LLM Gemini Ultra đầy đủ, các nhà nghiên cứu Yandex cho biết.
5. Ứng dụng tiềm năng cho thiết bị cá nhân
Bằng cách áp dụng kỹ thuật AQLM và PV-Tuning, các nhà nghiên cứu tuyên bố rằng việc đánh đổi này không còn cần thiết. Trong bài báo của họ, họ chứng minh hiệu quả của các kỹ thuật trong đánh giá nghiêm ngặt về các LLM nguồn mở phổ biến, bao gồm Llama 2, Mistral và Mixtral. Ba mô hình này đã được nén trước khi được đánh giá trên các điểm chuẩn tạo văn bản tiếng Anh WikiText2 và C4, và chúng duy trì chất lượng câu trả lời ấn tượng là 95%, mặc dù đã bị nén 8 lần so với kích thước ban đầu.
Ngoài ra, các nhà nghiên cứu cho biết, các phiên bản nén của các LLM nguồn mở đó có thể hoạt động nhanh hơn tới 4 lần, vì chúng yêu cầu ít phép tính hơn. Do đó, chúng có thể đưa ra phản hồi nhanh hơn nhiều so với các mô hình đầy đủ kích thước, với độ chính xác gần như tương đương.
Theo các nhà nghiên cứu, các công ty muốn phát triển và triển khai LLM độc quyền và nguồn mở có thể sử dụng các kỹ thuật của họ để hưởng lợi từ việc tiết kiệm tài nguyên đáng kể. Ví dụ, họ cho biết mô hình Llama 2 với 13 tỷ tham số có thể được nén để chạy trên chỉ một đơn vị xử lý đồ họa (GPU), thay vì 4 GPU cho phiên bản đầy đủ kích thước, chưa nén.
Điều đó dẫn đến việc giảm chi phí phần cứng từ 2 đến 6 lần, các nhà nghiên cứu cho biết. Quan trọng hơn, nó mở đường cho các LLM lớn nhất và mạnh nhất được triển khai trên các thiết bị tiêu dùng như máy tính cá nhân và điện thoại thông minh.
6. Kết luận: Tương lai của AI trên thiết bị cá nhân
Thurai cho biết các nhà nghiên cứu đưa ra một số tuyên bố ấn tượng, nhưng nhấn mạnh sự cần thiết phải triển khai các kỹ thuật của họ trong các mô hình lớn hơn nhiều, chẳng hạn như mô hình GPT-3.5 Turbo 175 tỷ tham số của OpenAI. Họ cần chứng minh cách các mô hình lượng tử hóa của họ có thể hoạt động chống lại các mô hình lớn hơn nhiều này nếu họ muốn thành công thực sự, nhà phân tích cho biết. Nếu chúng tương đương trong chỉ số chất lượng mô hình đầu ra, đây sẽ là một thành tựu tuyệt vời.
Khả năng triển khai các LLM đầy đủ kích thước trên các thiết bị nhỏ hơn sẽ mở ra cánh cửa cho các ứng dụng mới. Ví dụ, một điện thoại thông minh chạy Llama 2 đã nén với 13 tỷ tham số sẽ có thể thực hiện tạo văn bản và hình ảnh, trợ lý giọng nói, khuyến nghị cá nhân hóa và dịch thuật thời gian thực mà không cần kết nối internet.
Cuối cùng, nếu tất cả điều này thành công, các LLM lớn nhất có thể cuối cùng chạy trên CPU thay vì GPU rất đắt tiền và nguồn cung hạn chế, Thurai cho biết.
Các nhà nghiên cứu cho biết bài báo của họ sẽ được giới thiệu tại Hội nghị Quốc tế lần thứ 41 về Học máy tại Vienna, Áo, diễn ra từ ngày 21 đến 27 tháng 7.
AQLM và PV-Tuning đều có sẵn để tải xuống trên GitHub, trong khi một số phiên bản nén sẵn của các mô hình nguồn mở phổ biến có thể được truy cập từ HuggingFace.

0 comments Blogger 0 Facebook
Đăng nhận xét