Ai2 ra mắt Molmo: Mô hình AI mã nguồn mở vượt trội GPT-4o và Claude

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (Ai2) vừa công bố Molmo, một nhóm các mô hình AI đa phương thức mã nguồn mở, đạt hiệu năng vượt trội so với các đối thủ thương mại hàng đầu như GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic và Gemini 1.5 của Google trên nhiều điểm chuẩn đánh giá độc lập.

Khả năng đa phương thức cho phép Molmo xử lý và phân tích hình ảnh và tập tin, tương tự như các mô hình nền tảng thương mại hàng đầu. Điều đáng chú ý là Ai2 tuyên bố Molmo sử dụng "ít dữ liệu hơn 1000 lần" so với các đối thủ cạnh tranh nhờ vào các kỹ thuật huấn luyện thông minh được mô tả chi tiết trong báo cáo kỹ thuật và bài viết công bố gần đây.

Ai2 đã đăng tải video trên YouTube và các nền tảng mạng xã hội khác minh họa khả năng của Molmo. Chỉ với một bức ảnh chụp nhanh bằng điện thoại thông minh, Molmo có thể nhanh chóng đếm số người trong một cảnh, xác định xem món ăn có phải là chay hay không, phân tích tờ rơi dán trên cột đèn để xác định thể loại nhạc của ban nhạc, thậm chí chuyển đổi ghi chú viết tay trên bảng trắng thành bảng biểu – tất cả chỉ trong chưa đầy một giây.

Việc phát hành Molmo khẳng định cam kết của Ai2 đối với nghiên cứu mở, cung cấp các mô hình hiệu năng cao, kèm theo trọng số và dữ liệu mở cho cộng đồng – và tất nhiên, cả cho các công ty đang tìm kiếm các giải pháp mà họ có thể sở hữu, kiểm soát và tùy chỉnh hoàn toàn. Đây là bước tiếp nối sự ra mắt cách đây hai tuần của OLMoE, một mô hình mở khác của Ai2, được thiết kế để tối ưu chi phí.

Molmo: Bốn mô hình, nhiều khả năng

Molmo bao gồm bốn mô hình chính với kích thước tham số và khả năng khác nhau:

Molmo-72B: Mô hình chủ lực với 72 tỷ tham số, dựa trên mô hình mã nguồn mở Qwen2-72B của Alibaba Cloud.
Molmo-7B-D: Mô hình trình diễn dựa trên mô hình Qwen2-7B của Alibaba.
Molmo-7B-O: Dựa trên mô hình OLMo-7B của Ai2.
MolmoE-1B: Dựa trên mô hình LLM "hỗn hợp chuyên gia" OLMoE-1B-7B, mà Ai2 cho biết "gần đạt được hiệu năng của GPT-4V trên cả điểm chuẩn học thuật và sở thích người dùng."

Tất cả các mô hình đều được cấp phép theo giấy phép Apache 2.0, cho phép sử dụng rộng rãi cho mục đích nghiên cứu và thương mại. Đặc biệt, Molmo-72B dẫn đầu trong các đánh giá học thuật, đạt điểm số cao nhất trên 11 điểm chuẩn chính và xếp thứ hai về sở thích người dùng, chỉ sau GPT-4o.

Vượt trội trên các điểm chuẩn chính

Molmo đạt kết quả ấn tượng trên nhiều điểm chuẩn, đặc biệt là so với các mô hình thương mại. Ví dụ, Molmo-72B đạt 96.3 điểm trên DocVQA và 85.5 điểm trên TextVQA, vượt trội cả Gemini 1.5 Pro và Claude 3.5 Sonnet. Nó cũng vượt trội GPT-4o trên AI2D (điểm chuẩn của Ai2, viết tắt của "A Diagram Is Worth A Dozen Images"), đạt điểm số cao nhất trong tất cả các nhóm mô hình. Các mô hình cũng xuất sắc trong các tác vụ định vị hình ảnh, với Molmo-72B đạt hiệu năng hàng đầu trên RealWorldQA, rất hứa hẹn cho ứng dụng trong lĩnh vực robot học và lập luận đa phương thức phức tạp.

Truy cập mở và các bản phát hành trong tương lai

Ai2 đã cung cấp các mô hình và tập dữ liệu này trên không gian Hugging Face của mình, tương thích hoàn toàn với các framework AI phổ biến như Transformers. Việc truy cập mở này là một phần trong tầm nhìn rộng lớn hơn của Ai2 nhằm thúc đẩy sự đổi mới và hợp tác trong cộng đồng AI. Trong vài tháng tới, Ai2 dự kiến sẽ phát hành thêm các mô hình, mã huấn luyện và phiên bản mở rộng của báo cáo kỹ thuật của họ. Hiện tại, bản demo công khai và một số điểm kiểm tra mô hình đã có sẵn trên trang web chính thức của Molmo. Sự ra mắt của Molmo đánh dấu một bước tiến quan trọng trong việc thu hẹp khoảng cách giữa AI mã nguồn mở và AI thương mại, mở ra nhiều tiềm năng cho nghiên cứu và ứng dụng AI trong tương lai.

Ai2 ra mắt Molmo: Mô hình AI mã nguồn mở vượt trội GPT-4o và Claude