Alibaba tung ra Qwen2-VL, vượt GPT-4o & Claude 3.5 Sonnet

Alibaba gần đây đã giới thiệu Qwen2-VL, phiên bản mới nhất trong dòng sản phẩm mô hình ngôn ngữ kết hợp hình ảnh (vision-language). Qwen2-VL có khả năng trò chuyện qua camera, chơi bài, và điều khiển điện thoại di động, robot bằng cách hoạt động như một đại lý (agent).

Mô hình này hiện có ba phiên bản: mã nguồn mở 2 tỷ và 7 tỷ tham số, và phiên bản nâng cao 72 tỷ tham số, có thể truy cập thông qua API. Phiên bản 72 tỷ tham số của Qwen2-VL đã đạt hiệu suất cao nhất (SOTA) trong việc hiểu hình ảnh trên 20 điểm chuẩn.

"Nói chung, mô hình 72B của chúng tôi thể hiện hiệu suất hàng đầu trên hầu hết các chỉ số, thường vượt cả các mô hình mã nguồn đóng như GPT-4o và Claude 3.5-Sonnet," bài đăng trên blog chia sẻ.

Qwen2-VL thể hiện hiệu quả vượt trội trong các điểm chuẩn như MathVista (lý luận toán học), DocVQA (hiểu tài liệu), và RealWorldQA (trả lời câu hỏi thực tế bằng cách sử dụng thông tin trực quan).

Mô hình có thể phân tích video dài hơn 20 phút, cung cấp tóm tắt chi tiết, và trả lời câu hỏi về nội dung. Qwen2-VL cũng có thể hoạt động như một đại lý điều khiển, vận hành các thiết bị như điện thoại di động và robot bằng cách sử dụng tín hiệu trực quan và lệnh văn bản.

Điều đáng chú ý là mô hình này có thể nhận diện và hiểu văn bản trong hình ảnh trên nhiều ngôn ngữ, bao gồm các ngôn ngữ châu Âu, tiếng Nhật, tiếng Hàn và tiếng Ả Rập, giúp nó tiếp cận được với một lượng người dùng toàn cầu.

Một số điểm chính:

  • Qwen2-VL được cải tiến về mặt kiến trúc, bao gồm hỗ trợ Độ phân giải động ngây thơ (Naive Dynamic Resolution). Mô hình có thể thích nghi và xử lý hình ảnh có kích thước và độ rõ nét khác nhau.

"Không giống như người tiền nhiệm, Qwen2-VL có thể xử lý độ phân giải hình ảnh tùy ý, ánh xạ chúng thành một số lượng token trực quan động, qua đó đảm bảo tính nhất quán giữa đầu vào mô hình và thông tin vốn có trong hình ảnh," Binyuan Hui, người tạo ra OpenDevin và là người duy trì chính tại Qwen, chia sẻ.

  • Cải tiến kiến trúc khác là sự đổi mới của Nhúng vị trí xoay đa phương thức (Multimodal Rotary Position Embedding) (M-ROPE). "Bằng cách phân tách nhúng xoay ban đầu thành ba phần thể hiện thông tin thời gian và không gian (chiều cao và chiều rộng), M-ROPE cho phép LLM đồng thời nắm bắt và tích hợp thông tin vị trí văn bản 1D, trực quan 2D và video 3D," ông nói thêm.

Nói cách khác, kỹ thuật này cho phép mô hình hiểu và tích hợp dữ liệu văn bản, hình ảnh và video.

Ứng dụng của Qwen2-VL rất đa dạng. William J.B. Mattingly, một du mục kỹ thuật số trên X, gần đây đã ca ngợi sự phát triển này và gọi nó là mô hình Nhận dạng văn bản viết tay (HTR) yêu thích của mình khi cố gắng chuyển đổi văn bản viết tay thành định dạng kỹ thuật số.

Ashutosh Shrivastava, một người dùng trên X, đã sử dụng mô hình này để giải một bài toán vi tích phân và báo cáo kết quả thành công, chứng minh tính hiệu quả của nó trong việc giải quyết vấn đề.

Tuy nhiên, GitHub đã gắn cờ tổ chức vì lý do không rõ ràng, nhưng bản cập nhật có sẵn trên Hugging Face.

Kết luận

Qwen2-VL là một bước tiến đáng kể trong lĩnh vực mô hình ngôn ngữ kết hợp hình ảnh, mở ra những khả năng mới cho tương lai của AI. Sự phát triển này hứa hẹn mang lại những ứng dụng thực tiễn to lớn trong nhiều lĩnh vực như giáo dục, giải trí, và công nghiệp.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top