Galileo Ra Mắt Chỉ Số Ảo Giác Mới, Hé Lộ Cuộc Chạy đua Khốc Liệt Trong Lĩnh Vực Mô Hình Ngôn Ngữ Lớn (LLM)
Mục lục
- Giới thiệu
- Chỉ số Ảo giác Galileo 2024
- Những Mô hình LLM Hàng đầu
- Phát hiện Chính và Xu hướng
- Về Galileo và Mô hình Đánh giá Bám sát Ngữ cảnh
Giới thiệu
Galileo, công ty hàng đầu trong lĩnh vực phát triển trí tuệ nhân tạo tạo sinh (GenAI) cho doanh nghiệp, vừa công bố ra mắt Chỉ số Ảo giác mới nhất của mình. Đây là một khuôn khổ đánh giá tập trung vào Retrieval Augmented Generation (RAG) - một kỹ thuật kết hợp truy xuất thông tin với mô hình ngôn ngữ để tạo ra văn bản chính xác và phù hợp hơn.
Chỉ số này đánh giá hiệu suất của 22 mô hình ngôn ngữ lớn (LLM) hàng đầu từ các ông lớn như OpenAI, Anthropic, Google và Meta. Phiên bản năm nay đã bổ sung thêm 11 mô hình, cho thấy sự phát triển nhanh chóng của cả LLM nguồn mở và nguồn đóng chỉ trong 8 tháng qua.
Mặc dù các thương hiệu đang chạy đua để tạo ra các mô hình lớn hơn, nhanh hơn và chính xác hơn, ảo giác (hallucination) - hiện tượng mô hình tạo ra thông tin sai lệch hoặc không có thật - vẫn là rào cản chính đối với việc triển khai các sản phẩm GenAI sẵn sàng cho sản xuất.
Chỉ số Ảo giác Galileo 2024
Chỉ số này kiểm tra các mô hình nguồn mở và nguồn đóng bằng cách sử dụng thước đo đánh giá độc quyền của Galileo, được gọi là bám sát ngữ cảnh (context adherence), được thiết kế để kiểm tra tính chính xác của kết quả đầu ra và giúp các doanh nghiệp đưa ra quyết định sáng suốt về việc cân bằng giữa giá cả và hiệu suất. Các mô hình được thử nghiệm với dữ liệu đầu vào từ 1.000 đến 100.000 token, để hiểu hiệu suất trong các ngữ cảnh ngắn (dưới 5 nghìn token), trung bình (5 nghìn đến 25 nghìn token) và dài (40 nghìn đến 100 nghìn token).
Những Mô hình LLM Hàng đầu
- Mô hình hoạt động tốt nhất: Claude 3.5 Sonnet của Anthropic. Mô hình nguồn đóng này đã vượt qua các mô hình cạnh tranh trong các tình huống ngữ cảnh ngắn, trung bình và dài. Claude 3.5 Sonnet và Claude 3 Opus của Anthropic liên tục đạt điểm gần như hoàn hảo trên các hạng mục, vượt qua cả những người chiến thắng năm ngoái là GPT-4o và GPT-3.5, đặc biệt là trong các tình huống ngữ cảnh ngắn hơn.
- Mô hình hiệu quả nhất về chi phí: Gemini 1.5 Flash của Google. Mô hình của Google được xếp hạng là hoạt động tốt nhất về chi phí do hiệu suất tuyệt vời của nó trên tất cả các nhiệm vụ.
- Mô hình nguồn mở tốt nhất: Qwen2-72B-Instruct của Alibaba. Mô hình nguồn mở này hoạt động tốt nhất với điểm số hàng đầu trong ngữ cảnh ngắn và trung bình.
Phát hiện Chính và Xu hướng
- Nguồn mở đang thu hẹp khoảng cách: Các mô hình nguồn đóng như Claude-3.5 Sonnet và Gemini 1.5 Flash vẫn là những mô hình hoạt động tốt nhất nhờ dữ liệu đào tạo độc quyền, nhưng các mô hình nguồn mở, chẳng hạn như Qwen1.5-32B-Chat và Llama-3-70b-chat, đang nhanh chóng thu hẹp khoảng cách với những cải tiến về hiệu suất ảo giác và rào cản chi phí thấp hơn so với các đối tác nguồn đóng của chúng.
- Cải thiện chung với độ dài ngữ cảnh dài: Các mô hình LLM RAG hiện tại, như Claude 3.5 Sonnet, Claude-3-opus và Gemini 1.5 pro 001 hoạt động đặc biệt tốt với độ dài ngữ cảnh mở rộng - mà không làm giảm chất lượng hoặc độ chính xác - phản ánh tiến bộ đang đạt được với cả việc đào tạo và kiến trúc mô hình.
- Mô hình lớn không phải lúc nào cũng tốt hơn: Trong một số trường hợp nhất định, các mô hình nhỏ hơn lại hoạt động tốt hơn các mô hình lớn hơn. Ví dụ, Gemini-1.5-flash-001 đã hoạt động tốt hơn các mô hình lớn hơn, điều này cho thấy hiệu quả trong thiết kế mô hình đôi khi có thể vượt trội hơn quy mô.
- Từ trọng tâm quốc gia đến toàn cầu: Các mô hình LLM từ bên ngoài Hoa Kỳ, chẳng hạn như Mistral-large của Mistral và qwen2-72b-instruct của Alibaba, đang nổi lên trong lĩnh vực này và tiếp tục phát triển về mức độ phổ biến, đại diện cho nỗ lực toàn cầu nhằm tạo ra các mô hình ngôn ngữ hiệu quả.
- Vẫn còn chỗ cho cải thiện: Mặc dù Gemma-7b nguồn mở của Google hoạt động kém nhất, nhưng mô hình Gemini 1.5 Flash nguồn đóng của họ lại luôn nằm trong top đầu.
Để biết phân tích đầy đủ về kết quả Chỉ số Ảo giác của Galileo, vui lòng truy cập đây.
Về Galileo và Mô hình Đánh giá Bám sát Ngữ cảnh
Galileo, có trụ sở tại San Francisco, là nền tảng hàng đầu về đánh giá và quan sát GenAI cho doanh nghiệp. Nền tảng Galileo, được hỗ trợ bởi Luna Evaluation Foundation Models (EFMs), hỗ trợ các nhóm AI trong suốt vòng đời phát triển, từ xây dựng và lặp lại đến giám sát và bảo vệ. Galileo được sử dụng bởi các nhóm AI từ các công ty khởi nghiệp đến các công ty nằm trong danh sách Fortune 100. Truy cập rungalileo.io để tìm hiểu thêm về bộ sản phẩm của Galileo.
Bám sát ngữ cảnh (Context Adherence) sử dụng phương pháp độc quyền được tạo bởi Galileo Labs có tên là ChainPoll để đo lường mức độ bám sát thông tin được cung cấp của mô hình AI, giúp phát hiện khi AI tạo ra thông tin không có trong văn bản gốc.

0 comments Blogger 0 Facebook
Đăng nhận xét