Bảng xếp hạng mới của Hugging Face
Hugging Face đã công bố bảng xếp hạng thứ hai của mình để đánh giá các mô hình ngôn ngữ lớn (LLM) tốt nhất mà họ đã thử nghiệm. Bảng xếp hạng mới này nhằm mục đích tạo ra một tiêu chuẩn chung thử thách hơn để đánh giá hiệu suất của các mô hình LLM mở trên nhiều nhiệm vụ khác nhau.
Các mô hình Qwen của Alibaba dường như thống trị bảng xếp hạng đầu tiên, chiếm giữ ba vị trí trong top mười.
Các thử thách mới
Bảng xếp hạng thứ hai của Hugging Face kiểm tra các mô hình ngôn ngữ trên bốn nhiệm vụ: Kiểm tra kiến thức, suy luận dựa trên ngữ cảnh cực dài, khả năng toán học phức tạp và tuân theo hướng dẫn. Sáu điểm chuẩn được sử dụng để thử nghiệm những phẩm chất này, với các bài kiểm tra bao gồm việc giải quyết các bí ẩn giết người dài 1.000 từ, giải thích các câu hỏi ở cấp độ tiến sĩ theo cách dễ hiểu cho người không chuyên và thử thách khó khăn nhất: các phương trình toán học cấp trung học. Bạn có thể tìm thấy phân tích đầy đủ về các điểm chuẩn được sử dụng trên blog của Hugging Face.
Qwen - người dẫn đầu cuộc đua
Người dẫn đầu bảng xếp hạng mới là Qwen, LLM của Alibaba, giữ vị trí thứ 1, 3 và 10 với một số biến thể của nó. Ngoài ra, Llama3-70B, LLM của Meta, và một số dự án mã nguồn mở nhỏ hơn đã vượt trội so với phần còn lại. Điều đáng chú ý là ChatGPT không xuất hiện; Bảng xếp hạng của Hugging Face không kiểm tra các mô hình mã nguồn đóng để đảm bảo tính khả thi lại của kết quả.
Kết quả đáng chú ý
Các bài kiểm tra để đủ điều kiện trên bảng xếp hạng được thực hiện độc quyền trên các máy tính của riêng Hugging Face, được cung cấp bởi 300 GPU Nvidia H100, theo thông tin từ Twitter của Giám đốc điều hành Clem Delangue. Do bản chất mã nguồn mở và cộng tác của Hugging Face, bất kỳ ai cũng có thể tự do gửi các mô hình mới để kiểm tra và được đưa vào bảng xếp hạng, với hệ thống bỏ phiếu mới ưu tiên các mục mới phổ biến để kiểm tra. Bảng xếp hạng có thể được lọc để chỉ hiển thị một mảng các mô hình đáng chú ý được làm nổi bật để tránh sự nhầm lẫn về số lượng lớn các LLM nhỏ.
Vấn đề hiệu suất và tương lai của AI
Là một trụ cột trong không gian LLM, Hugging Face đã trở thành một nguồn đáng tin cậy cho việc học hỏi LLM và cộng tác của cộng đồng. Sau khi bảng xếp hạng đầu tiên được phát hành vào năm ngoái như một phương tiện để so sánh và tái tạo kết quả kiểm tra từ một số LLM đã được thiết lập, bảng xếp hạng nhanh chóng trở nên phổ biến. Việc đạt thứ hạng cao trên bảng xếp hạng đã trở thành mục tiêu của nhiều nhà phát triển, lớn và nhỏ, và khi các mô hình trở nên mạnh mẽ hơn, 'thông minh' hơn và được tối ưu hóa cho các bài kiểm tra cụ thể của bảng xếp hạng đầu tiên, kết quả của nó đã trở nên ít ý nghĩa hơn, do đó tạo ra một biến thể thứ hai.
Một số LLM, bao gồm các biến thể mới hơn của Llama của Meta, đã hoạt động kém hiệu quả trong bảng xếp hạng mới so với điểm số cao của chúng trong bảng xếp hạng đầu tiên. Điều này đến từ xu hướng huấn luyện quá mức các LLM chỉ trên các điểm chuẩn của bảng xếp hạng đầu tiên, dẫn đến sự suy thoái trong hiệu suất thực tế. Sự suy giảm hiệu suất này, nhờ vào dữ liệu siêu đặc hiệu và tự tham chiếu, theo xu hướng hiệu suất AI ngày càng trở nên tồi tệ hơn theo thời gian, chứng minh một lần nữa như những câu trả lời AI của Google đã chỉ ra rằng hiệu suất LLM chỉ tốt như dữ liệu huấn luyện của nó và trí tuệ nhân tạo thực sự vẫn còn nhiều, nhiều năm nữa mới xuất hiện.

0 comments Blogger 0 Facebook
Đăng nhận xét