Gemma 2 vs Llama 3: Ai là nhà vô địch AI mã nguồn mở?

Mục lục

Sáng tạo văn bản: Gemma 2 vs Llama 3
Khả năng đa ngôn ngữ: Gemma 2 vs Llama 3
Khả năng suy luận: Gemma 2 vs Llama 3
Tuân theo hướng dẫn: Gemma 2 vs Llama 3
Nhớ dài: Gemma 2 vs Llama 3
Kiểm tra ảo giác: Gemma 2 vs Llama 3
Kết luận:

Google vừa công bố dòng sản phẩm Gemma 2, và phiên bản mã nguồn mở 27B được cho là rất hứa hẹn, vượt trội hơn cả Llama 3 70B và Qwen 1.5 32B. Vậy thực tế Gemma 2 có thực sự tốt hơn Llama 3? Hãy cùng khám phá qua bài so sánh dưới đây.

1. Sáng tạo văn bản: Gemma 2 vs Llama 3

Cả hai mô hình đều được yêu cầu viết một câu chuyện ngắn về mối quan hệ giữa mặt trăng và mặt trời. Gemma 2 đã tạo ra một câu chuyện hấp dẫn với văn phong tuyệt vời, trong khi Llama 3 lại có vẻ hơi nhàm chán và máy móc. Google luôn nổi tiếng với khả năng tạo văn bản, và Gemma 2 27B tiếp tục chứng minh điều đó.

Người chiến thắng: Gemma 2

2. Khả năng đa ngôn ngữ: Gemma 2 vs Llama 3

Để kiểm tra khả năng xử lý các ngôn ngữ khác tiếng Anh, cả hai mô hình được yêu cầu dịch một đoạn văn tiếng Hindi. Kết quả là cả Gemma 2 và Llama 3 đều thể hiện tốt. Tiếp tục với tiếng Bengali, cả hai mô hình cũng đạt hiệu quả tương đương. Có vẻ như cả hai mô hình đều được huấn luyện tốt với dữ liệu ngôn ngữ khu vực Ấn Độ. Gemma 2 27B nhỏ hơn Llama 3 70B gần 2,5 lần, điều này khiến thành tích của nó càng ấn tượng hơn.

Người chiến thắng: Gemma 2 và Llama 3

3. Khả năng suy luận: Gemma 2 vs Llama 3

Trong thử nghiệm này, cả Gemma 2 và Llama 3 được thử thách với các câu hỏi suy luận thông thường. Llama 3 đã chiến thắng áp đảo với 2 câu trả lời đúng trong 3 câu hỏi, trong khi Gemma 2 chỉ đạt được 1 câu trả lời đúng. Có vẻ như Gemma 2 chưa được huấn luyện để giải quyết các câu hỏi suy luận phức tạp.

Người chiến thắng: Llama 3

4. Tuân theo hướng dẫn: Gemma 2 vs Llama 3

Cả hai mô hình được yêu cầu tạo ra 10 từ kết thúc bằng NPU. Llama 3 hoàn thành xuất sắc với 10/10 câu trả lời đúng, trong khi Gemma 2 chỉ đạt được 7/10. Từ lâu, các mô hình của Google, bao gồm cả Gemini, đã không thể tuân theo hướng dẫn của người dùng một cách chính xác. Và Gemma 2 cũng không ngoại lệ.

Người chiến thắng: Llama 3

5. Nhớ dài: Gemma 2 vs Llama 3

Cả Gemma 2 và Llama 3 đều có độ dài ngữ cảnh là 8K token, vì vậy thử nghiệm này là hoàn toàn công bằng. Một đoạn văn bản lớn từ cuốn Kiêu hãnh và định kiến được thêm vào, chứa hơn 17,000 ký tự và 3,8K token. Một câu nói ngẫu nhiên được đặt vào giữa đoạn văn, và cả hai mô hình được yêu cầu tìm kiếm nó.

Gemma 2 nhanh chóng tìm thấy câu nói và chỉ ra rằng nó được chèn vào ngẫu nhiên. Llama 3 cũng tìm thấy câu nói và cho rằng nó có vẻ không phù hợp. Xét về khả năng nhớ dài, cả hai mô hình đều thể hiện tốt, mặc dù giới hạn ở 8K token.

Người chiến thắng: Gemma 2 và Llama 3

6. Kiểm tra ảo giác: Gemma 2 vs Llama 3

Các mô hình nhỏ thường bị ảo giác do dữ liệu huấn luyện hạn chế, thường bịa đặt thông tin khi gặp phải chủ đề không quen thuộc. Một quốc gia tưởng tượng được đưa ra để kiểm tra Gemma 2 và Llama 3. May mắn thay, cả hai mô hình đều không bị ảo giác, điều này cho thấy Google và Meta đã cố gắng đào tạo các mô hình của họ tốt hơn.

Người chiến thắng: Gemma 2 và Llama 3

7. Kết luận:

Gemma 2 27B của Google không thể hiện tốt trong các thử nghiệm suy luận, nhưng vẫn có khả năng trong nhiều nhiệm vụ khác. Nó rất giỏi sáng tạo văn bản, hỗ trợ nhiều ngôn ngữ, có khả năng nhớ dài tốt, và quan trọng nhất là không bị ảo giác như các mô hình trước đây.

Llama 3 tốt hơn, nhưng nó cũng là một mô hình lớn hơn nhiều, được huấn luyện với 70 tỷ tham số. Gemma 2 27B sẽ hữu ích cho nhiều trường hợp sử dụng, và phiên bản 9B cũng có sẵn để sử dụng trực tiếp trên thiết bị.

Ngoài ra, người dùng có thể tham khảo Gemini 1.5 Flash, một mô hình nhỏ hơn hỗ trợ đầu vào đa phương thức, nhanh chóng và hiệu quả.

Gemma 2 vs Llama 3: Ai là nhà vô địch AI mã nguồn mở?