Grok-2 của Elon Musk ra mắt bản beta, vượt mặt ChatGPT, Claude và Gemini

Công ty trí tuệ nhân tạo (AI) xAI của Elon Musk vừa cho ra mắt bản xem trước của mô hình Grok-2 và thật bất ngờ khi nó đã vượt mặt các đối thủ nặng ký như Claude, Gemini và thậm chí cả ChatGPT. Phiên bản Grok-1.5 trước đó đã không được đón nhận nồng nhiệt, nhưng Grok-2 đã cho thấy hiệu suất vượt trội trên bảng xếp hạng LMSYS. xAI đã phát hành hai mô hình mới: Grok-2 và mô hình Grok-2 mini nhỏ gọn hơn.

xAI cho biết Grok-2 đã được cải thiện đáng kể về khả năng lập luận, tuân theo hướng dẫn và cung cấp thông tin chính xác, thực tế. Trong các bài kiểm tra AI truyền thống, Grok-2 đã đạt điểm số ấn tượng là 87,5% trong MMLU và 88,4% trong HumanEval. Điều này đặc biệt thú vị vì điểm MMLU được lấy từ bài kiểm tra CoT 0-shot.

Grok-2 đã được thử nghiệm trên LMSYS với tên gọi "sus-column-r". Với khoảng 12.000 lượt bình chọn, nó đứng ở vị trí thứ ba, chỉ sau ChatGPT-4o-latest, Gemini-1.5-Pro-Experimental và GPT-40-2024-05-13. Tuy nhiên, nó hoạt động tốt hơn GPT-4o-mini, Claude 3.5 Sonnet, Gemini 1.5 Pro và Llama 3.1 405B.

Trong các tác vụ liên quan đến lập trình và toán học, Grok-2 chiếm vị trí thứ 2 và ở các câu hỏi yêu cầu tư duy phức tạp, nó đứng thứ 4. xAI cho biết mô hình Grok-2 đa phương thức sẽ sớm được phát hành. Công ty chưa tiết lộ kích thước tham số cho cả hai mô hình.

Bạn có thể bắt đầu sử dụng mô hình Grok-2 mới trên x.com và các nhà phát triển cũng có thể bắt đầu với API. Tuy nhiên, việc sử dụng Grok-2 yêu cầu người dùng phải đăng ký gói X Premium.

Điểm nổi bật:

Grok-2 đạt 87,5% điểm MMLU và 88,4% điểm HumanEval
Vượt mặt ChatGPT, Claude và Gemini trên bảng xếp hạng LMSYS
Có sẵn bản Grok-2 mini nhỏ gọn hơn
Người dùng có thể dùng thử trên x.com (cần X Premium)
API dành cho nhà phát triển đã sẵn sàng
Mô hình Grok-2 đa phương thức sẽ ra mắt sớm

Grok-2 của Elon Musk ra mắt bản beta, vượt mặt ChatGPT, Claude và Gemini