Mô hình AI mã nguồn mở mạnh mẽ nhất từ trước đến nay có thể thúc đẩy sự phát triển của các Agent AI

Một mô hình AI thị giác mã nguồn mở nhỏ gọn và hoàn toàn miễn phí vừa được phát hành, hứa hẹn sẽ giúp AI dễ dàng hơn trong việc kiểm soát máy tính của bạn - hy vọng là theo hướng tích cực.

Mô hình Ngôn ngữ Mở Đa phương thức (Multimodal Open Language Model - Molmo), được phát hành bởi Viện Nghiên cứu Trí tuệ Nhân tạo Allen (Ai2), có khả năng giải thích hình ảnh cũng như tương tác thông qua giao diện trò chuyện. Điều này có nghĩa là nó có thể hiểu nội dung trên màn hình máy tính, giúp các Agent AI thực hiện các tác vụ như duyệt web, điều hướng thư mục tệp và soạn thảo tài liệu.

Ali Farhadi, Giám đốc điều hành của Ai2, cho biết: "Với việc phát hành Molmo, nhiều người hơn có thể triển khai mô hình đa phương thức. Nó sẽ là động lực cho các ứng dụng thế hệ tiếp theo."

Các Agent AI đang được kỳ vọng sẽ là bước đột phá tiếp theo trong lĩnh vực AI, với các công ty như OpenAI, Google và nhiều công ty khác đang chạy đua để phát triển chúng. Mặc dù thuật ngữ "Agent AI" đang rất phổ biến hiện nay, nhưng tầm nhìn lớn hơn là AI có thể vượt xa việc chỉ trò chuyện, thực hiện các hành động phức tạp và tinh vi trên máy tính khi nhận được lệnh. Tuy nhiên, khả năng này vẫn chưa đạt được quy mô thực tế.

Một số mô hình AI mạnh mẽ đã có khả năng xử lý hình ảnh, bao gồm GPT-4 của OpenAI, Claude của Anthropic và Gemini của Google DeepMind. Các mô hình này có thể được sử dụng để tạo ra một số Agent AI thử nghiệm, nhưng chúng bị ẩn khỏi tầm nhìn và chỉ có thể truy cập thông qua giao diện lập trình ứng dụng (API) có phí.

Meta đã phát hành một loạt các mô hình AI có tên gọi Llama theo giấy phép hạn chế sử dụng thương mại, nhưng chưa cung cấp phiên bản đa phương thức. Dự kiến, Meta sẽ công bố một số sản phẩm mới, có thể bao gồm các mô hình AI Llama mới, tại sự kiện Connect diễn ra trong ngày.

Ofir Press, một nghiên cứu sinh sau tiến sĩ tại Đại học Princeton, cho biết: "Việc có một mô hình đa phương thức mã nguồn mở có nghĩa là bất kỳ startup hoặc nhà nghiên cứu nào có ý tưởng đều có thể thử nghiệm nó."

Press cho biết tính mã nguồn mở của Molmo cho phép các nhà phát triển dễ dàng tinh chỉnh các Agent AI của họ cho các tác vụ cụ thể, chẳng hạn như làm việc với bảng tính, bằng cách cung cấp thêm dữ liệu đào tạo. Các mô hình như GPT-4 chỉ có thể được tinh chỉnh ở mức độ hạn chế thông qua API của chúng, trong khi một mô hình mở hoàn toàn có thể được sửa đổi rộng rãi. "Khi bạn có một mô hình mã nguồn mở như thế này, bạn sẽ có nhiều lựa chọn hơn," Press nói.

Ai2 đang phát hành một số phiên bản Molmo với kích thước khác nhau, bao gồm một mô hình 70 tỷ tham số và một mô hình 1 tỷ tham số đủ nhỏ để chạy trên thiết bị di động. Số lượng tham số của một mô hình liên quan đến số lượng đơn vị nó chứa để lưu trữ và xử lý dữ liệu, và tương ứng với khả năng của nó.

Ai2 cho biết Molmo có khả năng tương đương với các mô hình thương mại lớn hơn đáng kể mặc dù có kích thước tương đối nhỏ, vì nó được đào tạo cẩn thận trên dữ liệu chất lượng cao. Mô hình mới cũng hoàn toàn mã nguồn mở, không có bất kỳ hạn chế nào về việc sử dụng, trái ngược với Llama của Meta. Ai2 cũng đang phát hành dữ liệu đào tạo được sử dụng để tạo ra mô hình, cung cấp cho các nhà nghiên cứu thêm thông tin chi tiết về cách thức hoạt động của nó.

Việc phát hành các mô hình mạnh mẽ không phải không có rủi ro. Các mô hình này có thể dễ dàng bị điều chỉnh cho các mục đích xấu; ví dụ, chúng ta có thể thấy sự xuất hiện của các Agent AI độc hại được thiết kế để tự động hóa việc tấn công các hệ thống máy tính.

Farhadi của Ai2 lập luận rằng hiệu quả và tính di động của Molmo sẽ cho phép các nhà phát triển xây dựng các Agent phần mềm mạnh mẽ hơn chạy trực tiếp trên điện thoại thông minh và các thiết bị di động khác. "Mô hình 1 tỷ tham số hiện đang hoạt động ở mức độ hoặc ngang hàng với các mô hình lớn hơn ít nhất 10 lần," ông nói.

Tuy nhiên, việc xây dựng các Agent AI hữu ích có thể phụ thuộc vào nhiều hơn chỉ các mô hình đa phương thức hiệu quả hơn. Một thách thức quan trọng là làm cho các mô hình hoạt động đáng tin cậy hơn. Điều này có thể đòi hỏi những bước đột phá hơn nữa trong khả năng lập luận của AI - điều mà OpenAI đã tìm cách giải quyết với mô hình o1 mới nhất của mình, thể hiện các kỹ năng lập luận từng bước. Bước tiếp theo có thể là cung cấp cho các mô hình đa phương thức những khả năng lập luận đó.

Hiện tại, việc phát hành Molmo cho thấy rằng các Agent AI đang gần hơn bao giờ hết và có thể sớm trở nên hữu ích ngay cả bên ngoài các gã khổng lồ đang thống trị thế giới AI.

Mô hình AI mã nguồn mở mạnh mẽ nhất từ trước đến nay có thể thúc đẩy sự phát triển của các Agent AI