Mục lục

  1. Giới thiệu Google Gemini 2.0
  2. Gemini 2.0 Flash: Hiệu năng vượt trội, sẵn sàng cho nhà phát triển và người dùng
  3. Nguyên mẫu nghiên cứu: Khả năng AI chủ động
  4. Gemini 2.0 tích hợp vào các sản phẩm của Google
  5. Kết luận

  1. Giới thiệu Google Gemini 2.0

Google vừa công bố Gemini 2.0, mô hình ngôn ngữ lớn (LLM) mới nhất trong dòng sản phẩm nhằm mục tiêu tổ chức thông tin toàn cầu. Giám đốc điều hành Google và công ty mẹ Alphabet, Sundar Pichai, cho biết Gemini 2.0 "sẽ cho phép chúng ta xây dựng các tác nhân AI mới, đưa chúng ta đến gần hơn với tầm nhìn về một trợ lý toàn diện". Ông cũng nhấn mạnh mô hình này tích hợp "những tiến bộ mới trong đa phương thức - như đầu ra hình ảnh và âm thanh tự nhiên - và khả năng sử dụng công cụ gốc".

  1. Gemini 2.0 Flash: Hiệu năng vượt trội, sẵn sàng cho nhà phát triển và người dùng

Cùng với Gemini 2.0, Google cũng phát hành Gemini 2.0 Flash, phiên bản thử nghiệm với "thời gian phản hồi thấp và hiệu năng được nâng cao ở mức công nghệ hàng đầu, quy mô lớn". Theo Demis Hassabis, Giám đốc điều hành của bộ phận nghiên cứu AI DeepMind của Google và Koray Kavukcuoglu, Giám đốc công nghệ của Google DeepMind, Gemini 2.0 Flash được xây dựng dựa trên thành công của Gemini 1.5 Flash, mô hình phổ biến nhất dành cho các nhà phát triển, với hiệu năng được cải thiện đáng kể và tốc độ phản hồi nhanh tương tự. Đáng chú ý, Gemini 2.0 Flash thậm chí còn vượt trội hơn Gemini 1.5 Pro về các tiêu chuẩn chính với tốc độ gấp đôi.

Mô hình này hiện đã có sẵn cho các nhà phát triển thông qua API AI của Google và người dùng chatbot AI Gemini. Người dùng Gemini trên toàn cầu cũng có thể truy cập phiên bản được tối ưu hóa cho trò chuyện bằng cách chọn nó trong menu thả xuống mô hình trên phiên bản web dành cho máy tính để bàn và thiết bị di động. Phiên bản này sẽ sớm có mặt trên ứng dụng di động Gemini.

Gemini 2.0 Flash hỗ trợ đầu vào đa phương thức như hình ảnh, video và âm thanh, và giờ đây còn hỗ trợ đầu ra đa phương thức, bao gồm hình ảnh được tạo tự động kết hợp với văn bản và âm thanh đa ngôn ngữ (TTS) có thể điều chỉnh. Mô hình cũng có thể tự động gọi các công cụ như Tìm kiếm Google, thực thi mã và các hàm do người dùng tự định nghĩa của bên thứ ba. Để hỗ trợ các nhà phát triển xây dựng ứng dụng với mô hình mới, Google cũng phát hành Multimodal Live API hỗ trợ đầu vào luồng âm thanh và video thời gian thực, cũng như khả năng sử dụng nhiều công cụ kết hợp.

  1. Nguyên mẫu nghiên cứu: Khả năng AI chủ động

Google cũng giới thiệu một số nguyên mẫu nghiên cứu được xây dựng với Gemini 2.0 nhằm thể hiện khả năng "chủ động" của mô hình, thực hiện các hành động và hoàn thành nhiệm vụ thay mặt người dùng.

Project Astra, lần đầu tiên được giới thiệu tại hội nghị dành cho nhà phát triển I/O của Google, là nguyên mẫu trợ lý AI toàn diện mà Google đã thử nghiệm với một nhóm nhỏ người dùng. Phiên bản mới nhất được xây dựng với Gemini 2.0 có "đối thoại tốt hơn" với khả năng trò chuyện đa ngôn ngữ, khả năng sử dụng công cụ mới, bộ nhớ được cải thiện và độ trễ thấp hơn. Google đang nỗ lực đưa các khả năng này vào các sản phẩm của Google như ứng dụng Gemini, trợ lý AI của Google, và các yếu tố hình thức khác như kính thông minh. Chương trình thử nghiệm đang được mở rộng cho nhiều người dùng hơn, bao gồm cả một nhóm nhỏ sẽ sớm bắt đầu thử nghiệm Project Astra trên kính thông minh nguyên mẫu.

Project Mariner là một nguyên mẫu nghiên cứu ban đầu được xây dựng với Gemini 2.0, khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu từ trình duyệt của bạn. Project Mariner đạt được kết quả hàng đầu trong tiêu chuẩn đánh giá WebVoyager, thử nghiệm hiệu suất của tác nhân trên các nhiệm vụ web thực tế.

  1. Gemini 2.0 tích hợp vào các sản phẩm của Google

Youtube Video Placeholder

Gemini 2.0 hiện đang được thử nghiệm hạn chế trong tính năng Tổng quan AI của Google trên Tìm kiếm, với các khả năng lập luận nâng cao của mô hình được sử dụng để "xử lý các chủ đề phức tạp hơn và các câu hỏi nhiều bước, bao gồm các phương trình toán học nâng cao, truy vấn đa phương thức và mã hóa". Google sẽ mở rộng Gemini 2.0 sang nhiều sản phẩm khác vào đầu năm sau. Tính năng Tổng quan AI hiện đã tiếp cận 1 tỷ người dùng, cho phép họ đặt ra các loại câu hỏi hoàn toàn mới, nhanh chóng trở thành một trong những tính năng Tìm kiếm phổ biến nhất từ trước đến nay.

  1. Kết luận

Google Gemini 2.0 và phiên bản Gemini 2.0 Flash hứa hẹn mang đến những bước tiến đáng kể trong công nghệ AI, mở ra hướng phát triển các trợ lý AI toàn diện và hiệu quả hơn cho cả nhà phát triển và người dùng. Việc tích hợp Gemini 2.0 vào các sản phẩm của Google sẽ mang lại trải nghiệm người dùng tốt hơn và mở ra nhiều tiềm năng ứng dụng trong tương lai.

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top