Mục lục
- Giới thiệu Gemini 2.0
- Gemini 2.0 Flash: Phiên Bản Nhanh Nhẹn Và Linh Hoạt
- Các Agent AI cho Gemini 2.0
- Dự án Astra: Trợ Lý AI Toàn Diện
- Dự án Mariner: Tương Tác Người-Máy Trên Trình Duyệt
- Cam Kết Về An Toàn Và Trách Nhiệm
1. Giới thiệu Gemini 2.0
Google khép lại năm 2024 bằng sự ra mắt được mong chờ nhất: Mô hình trí tuệ nhân tạo Gemini 2.0. Đây là thế hệ AI tiếp theo, hứa hẹn một bước tiến vượt bậc về trí thông minh và khả năng. Nếu phiên bản trước tập trung vào đa phương thức, thì 2.0 dựa trên các agent AI, hoạt động tự chủ hơn và giải quyết vấn đề phức tạp với sự can thiệp của con người ít hơn. Với Gemini 2.0, Google đang dẫn đầu cuộc đua phát triển các mô hình AI tiên tiến nhất trên thị trường.
CEO của Google và Alphabet, Sundar Pichai, chia sẻ trong buổi ra mắt: “Thông tin là cốt lõi của tiến bộ nhân loại. Đó là lý do tại sao trong hơn 26 năm qua, chúng tôi tập trung vào sứ mệnh tổ chức thông tin toàn cầu, làm cho nó dễ tiếp cận và hữu ích. Và đó cũng là lý do chúng tôi tiếp tục đẩy mạnh giới hạn của AI để tổ chức thông tin ở mọi đầu vào và làm cho nó có thể truy cập thông qua mọi đầu ra, để nó thực sự hữu ích cho bạn. (…) Ngày nay, hàng triệu nhà phát triển đang phát triển với Gemini, điều này giúp chúng tôi tái tạo lại tất cả các sản phẩm của mình (bao gồm cả 7 sản phẩm có 2 tỷ người dùng) và tạo ra những sản phẩm mới. Trong năm qua, chúng tôi đã đầu tư vào việc phát triển các mô hình nhanh nhẹn hơn, tức là có khả năng hiểu rõ hơn thế giới xung quanh bạn, dự đoán và hành động thay mặt bạn, dưới sự giám sát của bạn. Hôm nay, chúng tôi rất vui mừng được ra mắt kỷ nguyên tiếp theo của các mô hình được thiết kế cho kỷ nguyên mới của các agent: chúng tôi đang giới thiệu Gemini 2.0, mô hình mạnh mẽ nhất của chúng tôi cho đến nay. Với những tiến bộ mới về đa phương thức (như đầu ra âm thanh và hình ảnh gốc) và việc sử dụng các công cụ gốc, nó sẽ cho phép chúng tôi tạo ra các agent AI mới đưa chúng ta đến gần hơn với tầm nhìn về một trợ lý toàn diện (…)”.
Video tóm tắt các khả năng mới của mô hình: (Chèn video ở đây nếu có)
2. Gemini 2.0 Flash: Phiên Bản Nhanh Nhẹn Và Linh Hoạt
Mô hình đầu tiên được Google phát hành là Gemini 2.0 Flash, phiên bản nhỏ hơn và ít mạnh mẽ hơn, nhưng vẫn tốt hơn mô hình Pro hiện tại. Theo Demis Hassabis, CEO của Google DeepMind, mô hình này linh hoạt và mạnh mẽ hơn các mô hình trước đây và có thể tạo ra hình ảnh và âm thanh đa ngôn ngữ một cách tự nhiên: “Flash thậm chí còn vượt trội hơn 1.5 Pro trong các điểm chuẩn chính, với tốc độ nhanh gấp đôi và cũng đi kèm với các khả năng mới. Ngoài việc hỗ trợ đầu vào đa phương thức như hình ảnh, video và âm thanh, Flash 2.0 giờ đây hỗ trợ đầu ra đa phương thức, chẳng hạn như hình ảnh được tạo ra tự nhiên kết hợp với văn bản và âm thanh đa ngôn ngữ được tổng hợp từ văn bản (TTS). Nó cũng được tích hợp sẵn với các công cụ như Tìm kiếm Google hoặc thực thi mã, cũng như các hàm do người dùng xác định của bên thứ ba.”
Mô hình này hiện đã có sẵn dưới dạng mô hình thử nghiệm thông qua Gemini API, với đầu vào đa phương thức và đầu ra văn bản, chuyển đổi văn bản thành giọng nói gốc và tạo hình ảnh. Nó sẽ được phát hành rộng rãi vào tháng Giêng, cùng với nhiều kích thước mô hình hơn.
3. Các Agent AI cho Gemini 2.0
Tính năng mới lớn nhất của Gemini 2.0 nằm ở các agent AI. Nó hiện bao gồm khả năng hoạt động giao diện người dùng (UI) gốc, cùng với các cải tiến khác như lập luận đa phương thức, hiểu ngữ cảnh dài, theo dõi và lập kế hoạch các hướng dẫn phức tạp, gọi các hàm tổng hợp, sử dụng các công cụ gốc và cải thiện độ trễ.
Những agent AI này sẽ có ảnh hưởng lớn trong vài năm tới, và Google đang khám phá lĩnh vực này với một số nguyên mẫu có thể giúp mọi người thực hiện các tác vụ chưa từng có trước đây.
4. Dự án Astra: Trợ Lý AI Toàn Diện
Vài tháng trước, Google đã ra mắt dự án này, được giới thiệu như một bước tiến hóa của các trợ lý ảo, có thể phân tích môi trường của chúng ta cho nhiều hành động, chẳng hạn như tìm đồ vật bị mất hoặc mô tả các tình huống.
Với sự ra đời của Gemini 2.0, Dự án Astra cũng đã được cải thiện:
- Hỗ trợ hội thoại đa ngôn ngữ, hiểu được giọng địa phương và từ ngữ ít phổ biến hơn.
- Sử dụng các công cụ như công cụ tìm kiếm, Google Lens hoặc Maps.
- Cải thiện bộ nhớ: lên đến 10 phút trong một phiên và nhớ các cuộc trò chuyện trước đó nhờ khả năng cá nhân hóa.
- Giảm độ trễ: nhờ các tính năng phát trực tuyến mới và khả năng hiểu âm thanh gốc, agent AI có thể hiểu ngôn ngữ với độ trễ tương tự như cuộc trò chuyện của con người.
5. Dự án Mariner: Tương Tác Người-Máy Trên Trình Duyệt
Dự án Mariner là một nguyên mẫu nghiên cứu được xây dựng bằng Gemini 2.0, khám phá tương lai của sự tương tác giữa người và agent.
Nó có khả năng hiểu và lập luận, thông qua thông tin trên màn hình trình duyệt, về pixel, văn bản, mã, hình ảnh hoặc biểu mẫu, và sau đó sử dụng thông tin này thông qua tiện ích mở rộng Chrome để hoàn thành các tác vụ cho bạn.
Dự án vẫn đang trong giai đoạn đầu, nhưng kết quả rất khả quan. Google đang đặt trọng tâm vào việc xây dựng Mariner một cách an toàn và có trách nhiệm, chỉ cho phép nhập văn bản, cuộn hoặc nhấp vào tab trình duyệt đang hoạt động và yêu cầu người dùng xác nhận cuối cùng trước khi thực hiện các hành động nhạy cảm.
6. Cam Kết Về An Toàn Và Trách Nhiệm
Google và DeepMind nhấn mạnh cam kết về an toàn và trách nhiệm khi phát triển agent AI. Họ đang áp dụng phương pháp tiếp cận khám phá và từng bước trong phát triển sản phẩm, thử nghiệm nhiều nguyên mẫu, chú trọng tích hợp và đào tạo an ninh, làm việc với các nhà thử nghiệm đáng tin cậy và chuyên gia bên ngoài, và tiến hành đánh giá rủi ro và an ninh toàn diện.
Gemini 2.0 và các nguyên mẫu mới mở ra cánh cửa cho một thế hệ mô hình AI thông minh và tự động hơn. Chúng ta hãy cùng chờ đón những khám phá thú vị tiếp theo.
0 comments Blogger 0 Facebook
Đăng nhận xét