Mô hình ngôn ngữ nhỏ gọn: Hugging Face's SmolLM2 mang AI mạnh mẽ đến lòng bàn tay của bạn
Mục lục
- Giới thiệu SmolLM2
- Hiệu suất ấn tượng của các mô hình nhỏ gọn
- Tăng cường tính toán biên khi AI di chuyển đến thiết bị di động
- Cuộc đua về AI hiệu quả: Các mô hình nhỏ hơn thách thức các gã khổng lồ trong ngành
Giới thiệu SmolLM2
Hugging Face vừa phát hành SmolLM2, một gia đình các mô hình ngôn ngữ nhỏ gọn đạt hiệu suất ấn tượng trong khi yêu cầu ít tài nguyên tính toán hơn nhiều so với các đối tác lớn hơn của chúng. Được phát hành theo giấy phép Apache 2.0, các mô hình này có ba kích cỡ - 135M, 360M và 1.7B tham số - phù hợp để triển khai trên điện thoại thông minh và các thiết bị biên khác, nơi sức mạnh xử lý và bộ nhớ bị hạn chế. Đáng chú ý nhất, phiên bản 1.7B tham số vượt trội hơn mô hình Llama 1B của Meta trên một số điểm chuẩn quan trọng.
Hiệu suất ấn tượng của các mô hình nhỏ gọn
Theo tài liệu mô hình của Hugging Face, "SmolLM2 thể hiện những tiến bộ đáng kể so với người tiền nhiệm của nó, đặc biệt là trong việc làm theo hướng dẫn, kiến thức, lập luận và toán học." Biến thể lớn nhất được đào tạo trên 11 nghìn tỷ mã thông báo bằng cách sử dụng kết hợp bộ dữ liệu đa dạng bao gồm FineWeb-Edu và các bộ dữ liệu mã hóa và toán học chuyên biệt.
Tăng cường tính toán biên khi AI di chuyển đến thiết bị di động
Hiệu suất của SmolLM2 đặc biệt đáng chú ý vì kích thước của nó. Trên đánh giá MT-Bench, đo lường khả năng trò chuyện, mô hình 1.7B đạt điểm số 6.13, cạnh tranh với các mô hình lớn hơn nhiều. Nó cũng thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ lập luận toán học, đạt điểm số 48.2 trên điểm chuẩn GSM8K. Những kết quả này thách thức quan niệm thông thường rằng các mô hình lớn hơn luôn tốt hơn, cho thấy thiết kế kiến trúc cẩn thận và quản lý dữ liệu đào tạo có thể quan trọng hơn số lượng tham số thô.
Cuộc đua về AI hiệu quả: Các mô hình nhỏ hơn thách thức các gã khổng lồ trong ngành
Tuy nhiên, những mô hình nhỏ hơn này vẫn còn những hạn chế. Theo tài liệu của Hugging Face, chúng "chủ yếu hiểu và tạo ra nội dung bằng tiếng Anh" và có thể không phải lúc nào cũng tạo ra đầu ra chính xác về mặt sự thật hoặc nhất quán về mặt logic.
Việc phát hành SmolLM2 cho thấy tương lai của AI có thể không chỉ thuộc về các mô hình ngày càng lớn, mà còn là các kiến trúc hiệu quả hơn có thể mang lại hiệu suất mạnh mẽ với ít tài nguyên hơn. Điều này có thể có ý nghĩa to lớn đối với việc dân chủ hóa quyền truy cập vào AI và giảm tác động môi trường của việc triển khai AI.
Các mô hình hiện có sẵn ngay lập tức thông qua trung tâm mô hình của Hugging Face, với cả phiên bản cơ bản và phiên bản được điều chỉnh theo hướng dẫn được cung cấp cho mỗi biến thể kích thước.
0 comments Blogger 0 Facebook
Đăng nhận xét