Meta ra mắt Llama 3.2: Mô hình đa phương thức thách thức OpenAI và Anthropic

Meta vừa trình làng Llama 3.2, một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo với khả năng xử lý cả văn bản và hình ảnh, đánh dấu tham vọng cạnh tranh trực tiếp với các ông lớn như OpenAI và Anthropic. Được công bố tại sự kiện Meta Connect, Llama 3.2 không chỉ là một bản nâng cấp đơn thuần mà còn là một minh chứng rõ nét cho chiến lược mở nguồn của Meta trong cuộc đua AI.

Khả năng đa phương thức và hiệu suất vượt trội:

Llama 3.2 bao gồm các mô hình có quy mô khác nhau, từ các mô hình nhỏ gọn (11B và 90B tham số) phù hợp với thiết bị di động và các thiết bị edge, đến các mô hình văn bản thuần túy nhẹ hơn (1B và 3B tham số). Điểm đột phá chính là khả năng xử lý đa phương thức: mô hình có thể hiểu và xử lý cả hình ảnh và văn bản. Điều này mở ra vô số ứng dụng mới, cho phép máy tính "hiểu" nội dung trực quan như biểu đồ, hình ảnh, và trả lời câu hỏi liên quan đến chúng. Ví dụ, người dùng có thể yêu cầu mô hình xác định tháng có doanh thu cao nhất dựa trên một biểu đồ doanh số.

Mô hình lớn hơn (11B và 90B tham số) còn có khả năng tạo chú thích hình ảnh chi tiết và xác định các vật thể dựa trên mô tả bằng ngôn ngữ tự nhiên. Với độ dài ngữ cảnh lên tới 128.000 token, Llama 3.2 có thể xử lý lượng văn bản khổng lồ, tương đương hàng trăm trang sách giáo khoa. Meta tuyên bố Llama 3.2 đạt hiệu suất cạnh tranh với Claude 3 Haiku của Anthropic và GPT4o-mini của OpenAI trong các tác vụ nhận dạng hình ảnh và hiểu biết thị giác. Thậm chí, nó còn vượt trội hơn Gemma và Phi 3.5-mini về khả năng làm theo hướng dẫn, tóm tắt, sử dụng công cụ và viết lại lời nhắc.

Chiến lược mở nguồn và khả năng ứng dụng rộng rãi:

Sự ra mắt Llama 3.2 cũng đánh dấu một bước tiến quan trọng trong chiến lược mở nguồn của Meta. Công ty lần đầu tiên chia sẻ các bản phân phối Llama Stack, cho phép các nhà phát triển làm việc với mô hình trong nhiều môi trường khác nhau, bao gồm on-prem, on-device, cloud và single-node. Mark Zuckerberg, CEO của Meta, đã ví chiến lược này như "Linux của AI", nhấn mạnh tính kinh tế, khả năng tùy biến, độ tin cậy và hiệu năng vượt trội của mã nguồn mở. Các mô hình Llama 3.2 hiện đã có sẵn để tải xuống trên llama.com và Hugging Face.

Ứng dụng trong kinh doanh và trải nghiệm người dùng:

Meta cũng mở rộng khả năng AI cho doanh nghiệp, cho phép sử dụng quảng cáo click-to-message trên WhatsApp và Messenger, cũng như xây dựng các agent trả lời câu hỏi thường gặp, thảo luận chi tiết sản phẩm và hoàn tất giao dịch mua bán. Công ty cho biết hơn 1 triệu nhà quảng cáo đã sử dụng công cụ AI thế hệ mới của Meta và 15 triệu quảng cáo đã được tạo ra trong tháng trước.

Đối với người dùng, Meta AI giờ đây được tích hợp giọng nói của các nhân vật nổi tiếng như Dame Judi Dench, John Cena, Keegan Michael Key, Kristen Bell và Awkwafina. Khả năng này được tích hợp trên WhatsApp, Messenger, Facebook và Instagram, cho phép tương tác tự nhiên hơn bằng giọng nói. Meta AI cũng có thể trả lời câu hỏi về hình ảnh được chia sẻ trong tin nhắn, thêm, xóa hoặc thay đổi hình ảnh và bổ sung nền mới. Công ty cũng đang thử nghiệm các công cụ dịch thuật, lồng tiếng video và đồng bộ chuyển động môi mới. Zuckerberg tự tin khẳng định Meta AI đang trên đường trở thành trợ lý ảo được sử dụng nhiều nhất thế giới.

Tóm lại, Llama 3.2 của Meta không chỉ là một bước tiến đáng kể về công nghệ AI đa phương thức, mà còn thể hiện rõ ràng tham vọng của Meta trong việc trở thành một thế lực chủ chốt trong cuộc cách mạng AI, bằng cách kết hợp sức mạnh công nghệ với chiến lược mở nguồn hướng đến cộng đồng nhà phát triển toàn cầu.

Meta ra mắt Llama 3.2: Mô hình đa phương thức thách thức OpenAI và Anthropic