Meta ra mắt Llama 3.2: Mô hình đa phương thức thách thức OpenAI và Anthropic

Meta vừa trình làng Llama 3.2, một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo với khả năng xử lý cả văn bản và hình ảnh. Đây là mô hình đa phương thức nguồn mở đầu tiên của Meta, đánh dấu một bước ngoặt quan trọng trong cuộc đua công nghệ AI đang ngày càng nóng lên. Sự kiện ra mắt diễn ra tại Meta Connect, nơi Mark Zuckerberg, CEO của Meta, đã nhấn mạnh tầm quan trọng của Llama 3.2 và tiềm năng ứng dụng rộng lớn của nó.

Llama 3.2 bao gồm các mô hình có kích thước khác nhau, từ các mô hình nhỏ (11 tỷ tham số) và trung bình (90 tỷ tham số) có khả năng xử lý hình ảnh, đến các mô hình văn bản nhẹ hơn (1 tỷ và 3 tỷ tham số) phù hợp với các thiết bị di động và thiết bị ngoại vi. Điểm nổi bật là khả năng xử lý ngữ cảnh lên đến 128.000 token, cho phép mô hình hiểu và xử lý lượng văn bản khổng lồ, tương đương hàng trăm trang sách giáo khoa. Số lượng tham số lớn hơn cũng đồng nghĩa với độ chính xác và khả năng xử lý các nhiệm vụ phức tạp cao hơn.

Một điểm khác biệt quan trọng của Llama 3.2 là việc Meta lần đầu tiên chia sẻ các bản phân phối Llama Stack, cho phép các nhà phát triển làm việc với mô hình trong nhiều môi trường khác nhau, bao gồm cả máy chủ riêng, thiết bị, đám mây và hệ thống đơn nút. Zuckerberg đã ví mô hình này như "Linux của AI", nhấn mạnh tầm quan trọng của nguồn mở trong việc tạo ra các giải pháp AI hiệu quả, tùy chỉnh cao, đáng tin cậy và có hiệu suất tốt.

Khả năng cạnh tranh hàng đầu:

Meta khẳng định Llama 3.2 có khả năng cạnh tranh mạnh mẽ với các mô hình hàng đầu hiện nay như Claude 3 Haiku của Anthropic và GPT4o-mini của OpenAI trong các nhiệm vụ nhận dạng hình ảnh và hiểu biết thị giác. Thậm chí, Llama 3.2 còn vượt trội hơn Gemma và Phi 3.5-mini trong một số lĩnh vực như làm theo hướng dẫn, tóm tắt, sử dụng công cụ và viết lại lời nhắc. Các mô hình này có thể hiểu và trích xuất thông tin từ biểu đồ, chú thích hình ảnh và xác định các vật thể dựa trên mô tả bằng ngôn ngữ tự nhiên. Ví dụ, người dùng có thể hỏi mô hình về tháng có doanh số bán hàng tốt nhất của công ty, và mô hình sẽ tự động tìm câu trả lời dựa trên biểu đồ có sẵn.

Ứng dụng đa dạng:

Các mô hình Llama 3.2 có trọng lượng nhẹ hơn hỗ trợ các nhà phát triển xây dựng các ứng dụng cá nhân hóa trong môi trường riêng tư, chẳng hạn như tóm tắt tin nhắn gần đây hoặc gửi lời mời tham dự cuộc họp. Meta cũng đang mở rộng AI kinh doanh của mình, cho phép các doanh nghiệp sử dụng quảng cáo nhấp để nhắn tin trên WhatsApp và Messenger, và xây dựng các chatbot trả lời các câu hỏi thường gặp, thảo luận chi tiết sản phẩm và hoàn tất giao dịch mua bán. Meta báo cáo rằng hơn 1 triệu nhà quảng cáo đã sử dụng các công cụ AI thế hệ mới của mình và 15 triệu quảng cáo đã được tạo ra trong tháng trước.

Trải nghiệm người dùng đột phá:

Meta AI giờ đây có "giọng nói" của các ngôi sao nổi tiếng như Dame Judi Dench, John Cena, Keegan Michael Key, Kristen Bell và Awkwafina. Llama 3.2 hỗ trợ các tính năng đa phương thức mới trong Meta AI, cho phép người dùng tương tác bằng giọng nói hoặc văn bản, nhận phản hồi bằng giọng nói của người nổi tiếng trên WhatsApp, Messenger, Facebook và Instagram. Meta AI cũng có thể trả lời các câu hỏi về ảnh được chia sẻ trong trò chuyện, thêm, xóa hoặc thay đổi hình ảnh và thêm nền mới. Công ty cũng đang thử nghiệm các công cụ dịch thuật, lồng tiếng video và đồng bộ chuyển động môi mới.

Zuckerberg tự tin tuyên bố Meta AI đang trên đà trở thành trợ lý ảo được sử dụng nhiều nhất thế giới. Với những tính năng vượt trội và khả năng tiếp cận rộng rãi nhờ nguồn mở, Llama 3.2 hứa hẹn sẽ tạo nên một bước tiến đáng kể trong lĩnh vực AI và mang lại nhiều trải nghiệm thú vị cho người dùng. Mô hình này hiện đã có sẵn để tải xuống trên llama.com và Hugging Face.

Meta ra mắt Llama 3.2: Mô hình đa phương thức thách thức OpenAI và Anthropic