Mục lục
- Lời nhắn từ CEO Google
- Giới thiệu Gemini 2.0
- Gemini 2.0 Flash
- Trải nghiệm tác động với Gemini 2.0: Project Astra, Project Mariner và Jules
- Xây dựng có trách nhiệm
1. Lời nhắn từ CEO Google
Sundar Pichai, CEO của Google và Alphabet, chia sẻ:
Thông tin là nền tảng của tiến bộ nhân loại. Đó là lý do trong hơn 26 năm qua, chúng tôi luôn tập trung vào sứ mệnh sắp xếp thông tin toàn cầu, làm cho nó dễ truy cập và hữu ích. Và đó cũng là lý do chúng tôi liên tục thúc đẩy ranh giới của AI để sắp xếp thông tin trên mọi đầu vào và làm cho nó có thể truy cập thông qua bất kỳ đầu ra nào, để nó thực sự hữu ích cho bạn.
Đó là tầm nhìn của chúng tôi khi chúng tôi giới thiệu Gemini 1.0 vào tháng 12 năm ngoái. Là mô hình đầu tiên được xây dựng để đa phương thức, Gemini 1.0 và 1.5 đã thúc đẩy những tiến bộ lớn về khả năng đa phương thức và ngữ cảnh dài để hiểu thông tin trên văn bản, video, hình ảnh, âm thanh và mã, cũng như xử lý nhiều thông tin hơn.
Hiện tại, hàng triệu nhà phát triển đang xây dựng với Gemini. Và nó đang giúp chúng tôi tái thiết kế lại tất cả các sản phẩm của mình — bao gồm cả 7 sản phẩm với 2 tỷ người dùng — và tạo ra những sản phẩm mới. NotebookLM là một ví dụ tuyệt vời về những gì đa phương thức và ngữ cảnh dài có thể mang lại cho mọi người, và lý do tại sao nó được rất nhiều người yêu thích.
Trong năm qua, chúng tôi đã đầu tư vào việc phát triển các mô hình tác động nhiều hơn, có nghĩa là chúng có thể hiểu rõ hơn về thế giới xung quanh bạn, suy nghĩ trước nhiều bước và hành động thay mặt bạn, dưới sự giám sát của bạn.
Hôm nay, chúng tôi rất vui mừng ra mắt kỷ nguyên tiếp theo của các mô hình được xây dựng cho kỷ nguyên tác động mới này: giới thiệu Gemini 2.0, mô hình mạnh mẽ nhất của chúng tôi cho đến nay. Với những tiến bộ mới về đa phương thức — như đầu ra hình ảnh và âm thanh gốc — và việc sử dụng công cụ gốc, nó sẽ cho phép chúng tôi xây dựng các tác nhân AI mới đưa chúng ta đến gần hơn với tầm nhìn về một trợ lý toàn diện.
Chúng tôi đang cung cấp Gemini 2.0 cho các nhà phát triển và những người thử nghiệm đáng tin cậy ngay hôm nay. Và chúng tôi đang làm việc nhanh chóng để đưa nó vào các sản phẩm của mình, bắt đầu với Gemini và Tìm kiếm. Bắt đầu từ hôm nay, mô hình thử nghiệm Gemini 2.0 Flash sẽ có sẵn cho tất cả người dùng Gemini. Chúng tôi cũng đang ra mắt một tính năng mới có tên là Deep Research, sử dụng khả năng lập luận nâng cao và ngữ cảnh dài để hoạt động như một trợ lý nghiên cứu, khám phá các chủ đề phức tạp và biên soạn báo cáo thay cho bạn. Nó hiện có sẵn trong Gemini Advanced ngay hôm nay.
Chưa có sản phẩm nào được chuyển đổi nhiều hơn bởi AI hơn Tìm kiếm. Tổng quan AI của chúng tôi hiện tiếp cận 1 tỷ người, cho phép họ đặt ra các loại câu hỏi hoàn toàn mới — nhanh chóng trở thành một trong những tính năng Tìm kiếm phổ biến nhất của chúng tôi từ trước đến nay. Là bước tiếp theo, chúng tôi đang đưa khả năng lập luận nâng cao của Gemini 2.0 vào Tổng quan AI để giải quyết các chủ đề phức tạp hơn và các câu hỏi nhiều bước, bao gồm cả các phương trình toán học nâng cao, truy vấn đa phương thức và mã hóa. Chúng tôi đã bắt đầu thử nghiệm giới hạn vào tuần này và sẽ triển khai rộng rãi hơn vào đầu năm tới. Và chúng tôi sẽ tiếp tục đưa Tổng quan AI đến nhiều quốc gia và ngôn ngữ hơn trong năm tới.
Những tiến bộ của Gemini 2.0 dựa trên những khoản đầu tư kéo dài hàng thập kỷ vào cách tiếp cận toàn diện khác biệt của chúng tôi đối với đổi mới AI. Nó được xây dựng trên phần cứng tùy chỉnh như Trillium, TPU thế hệ thứ sáu của chúng tôi. TPU đã cung cấp sức mạnh cho 100% quá trình huấn luyện và suy luận của Gemini 2.0, và hôm nay Trillium đã được cung cấp rộng rãi cho khách hàng để họ cũng có thể xây dựng với nó.
Nếu Gemini 1.0 là về việc sắp xếp và hiểu thông tin, thì Gemini 2.0 là về việc làm cho nó hữu ích hơn nhiều. Tôi không thể chờ đợi để xem kỷ nguyên tiếp theo này mang lại điều gì.
-Sundar
2. Giới thiệu Gemini 2.0
Demis Hassabis, CEO của Google DeepMind và Koray Kavukcuoglu, CTO của Google DeepMind thay mặt cho nhóm Gemini:
Trong năm qua, chúng tôi đã tiếp tục đạt được những tiến bộ đáng kinh ngạc trong lĩnh vực trí tuệ nhân tạo. Hôm nay, chúng tôi đang phát hành mô hình đầu tiên trong nhóm mô hình Gemini 2.0: một phiên bản thử nghiệm của Gemini 2.0 Flash. Đây là mô hình làm việc chính của chúng tôi với độ trễ thấp và hiệu năng được nâng cao ở vị trí hàng đầu của công nghệ của chúng tôi, ở quy mô lớn.
Chúng tôi cũng đang chia sẻ những tiến bộ của nghiên cứu tác động của mình bằng cách trưng bày các nguyên mẫu được hỗ trợ bởi khả năng đa phương thức gốc của Gemini 2.0.
3. Gemini 2.0 Flash
Gemini 2.0 Flash được xây dựng dựa trên thành công của 1.5 Flash, mô hình phổ biến nhất của chúng tôi cho các nhà phát triển cho đến nay, với hiệu năng được nâng cao ở thời gian phản hồi nhanh tương tự. Đáng chú ý, 2.0 Flash thậm chí còn vượt trội hơn 1.5 Pro trên các điểm chuẩn chính, với tốc độ gấp đôi. 2.0 Flash cũng đi kèm với các khả năng mới. Ngoài hỗ trợ đầu vào đa phương thức như hình ảnh, video và âm thanh, 2.0 Flash hiện hỗ trợ đầu ra đa phương thức như hình ảnh được tạo gốc kết hợp với văn bản và giọng nói được điều khiển (TTS) âm thanh đa ngôn ngữ. Nó cũng có thể gọi các công cụ như Tìm kiếm Google, thực thi mã cũng như các hàm do người dùng xác định của bên thứ ba.
Mục tiêu của chúng tôi là đưa các mô hình của mình vào tay mọi người một cách an toàn và nhanh chóng. Trong tháng qua, chúng tôi đã chia sẻ các phiên bản thử nghiệm ban đầu của Gemini 2.0, nhận được phản hồi tuyệt vời từ các nhà phát triển.
Gemini 2.0 Flash hiện có sẵn dưới dạng mô hình thử nghiệm cho các nhà phát triển thông qua API Gemini trong Google AI Studio và Vertex AI với đầu vào đa phương thức và đầu ra văn bản có sẵn cho tất cả các nhà phát triển, và tạo hình ảnh gốc và văn bản-thành-giọng nói có sẵn cho các đối tác truy cập sớm. Khả năng sử dụng chung sẽ tiếp theo vào tháng Giêng, cùng với nhiều kích thước mô hình hơn. Để giúp các nhà phát triển xây dựng các ứng dụng năng động và tương tác, chúng tôi cũng đang phát hành một API Trực tiếp Đa phương thức mới có đầu vào âm thanh, video phát trực tuyến thời gian thực và khả năng sử dụng nhiều công cụ kết hợp. Thông tin thêm về 2.0 Flash và API Trực tiếp Đa phương thức có thể được tìm thấy trong blog dành cho nhà phát triển của chúng tôi.
Gemini 2.0 có sẵn trong ứng dụng Gemini, trợ lý AI của chúng tôi:
Bắt đầu từ hôm nay, người dùng Gemini trên toàn cầu có thể truy cập phiên bản thử nghiệm 2.0 Flash được tối ưu hóa cho trò chuyện bằng cách chọn nó trong trình đơn thả xuống mô hình trên máy tính để bàn và web di động và nó sẽ sớm có sẵn trong ứng dụng di động Gemini. Với mô hình mới này, người dùng có thể trải nghiệm trợ lý Gemini hữu ích hơn nữa.
Vào đầu năm tới, chúng tôi sẽ mở rộng Gemini 2.0 sang nhiều sản phẩm Google hơn.
4. Trải nghiệm tác động với Gemini 2.0: Project Astra, Project Mariner và Jules
Khả năng hành động giao diện người dùng gốc của Gemini 2.0 Flash, cùng với các cải tiến khác như lập luận đa phương thức, khả năng hiểu ngữ cảnh dài, làm theo hướng dẫn phức tạp và lập kế hoạch, gọi hàm tổng hợp, sử dụng công cụ gốc và độ trễ được cải thiện, tất cả đều hoạt động cùng nhau để tạo ra một lớp trải nghiệm tác động mới.
Ứng dụng thực tế của các tác nhân AI là một lĩnh vực nghiên cứu đầy những khả năng thú vị. Chúng tôi đang khám phá ranh giới mới này với một loạt các nguyên mẫu có thể giúp mọi người hoàn thành các nhiệm vụ và hoàn thành công việc. Chúng bao gồm bản cập nhật cho Project Astra, nguyên mẫu nghiên cứu của chúng tôi khám phá các khả năng trong tương lai của một trợ lý AI toàn diện; Project Mariner mới, khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu từ trình duyệt của bạn; và Jules, một tác nhân mã được hỗ trợ bởi AI có thể giúp các nhà phát triển.
Chúng tôi vẫn đang trong giai đoạn phát triển ban đầu, nhưng chúng tôi rất hào hứng khi thấy những người thử nghiệm đáng tin cậy sử dụng các khả năng mới này và những bài học mà chúng ta có thể học được, để chúng ta có thể làm cho chúng có sẵn rộng rãi hơn trong các sản phẩm trong tương lai.
Project Astra: các tác nhân sử dụng sự hiểu biết đa phương thức trong thế giới thực
Kể từ khi chúng tôi giới thiệu Project Astra tại I/O, chúng tôi đã học hỏi từ những người thử nghiệm đáng tin cậy sử dụng nó trên điện thoại Android. Phản hồi quý báu của họ đã giúp chúng tôi hiểu rõ hơn về cách một trợ lý AI toàn diện có thể hoạt động trong thực tế, bao gồm cả những ảnh hưởng đến an toàn và đạo đức. Những cải tiến trong phiên bản mới nhất được xây dựng với Gemini 2.0 bao gồm:
- Hội thoại tốt hơn: Project Astra giờ đây có khả năng trò chuyện bằng nhiều ngôn ngữ và bằng nhiều ngôn ngữ hỗn hợp, với khả năng hiểu tốt hơn về giọng điệu và các từ không phổ biến.
- Sử dụng công cụ mới: Với Gemini 2.0, Project Astra có thể sử dụng Tìm kiếm Google, Lens và Bản đồ, làm cho nó hữu ích hơn như một trợ lý trong cuộc sống hàng ngày của bạn.
- Bộ nhớ được cải thiện: Chúng tôi đã cải thiện khả năng ghi nhớ của Project Astra trong khi vẫn giữ cho bạn quyền kiểm soát. Giờ đây, nó có bộ nhớ trong phiên lên tới 10 phút và có thể nhớ nhiều cuộc trò chuyện hơn mà bạn đã có với nó trong quá khứ, vì vậy nó được cá nhân hóa tốt hơn cho bạn.
- Độ trễ được cải thiện: Với các khả năng phát trực tuyến mới và khả năng hiểu âm thanh gốc, tác nhân có thể hiểu ngôn ngữ ở độ trễ xấp xỉ như tốc độ trò chuyện của con người.
Chúng tôi đang làm việc để đưa các loại khả năng này vào các sản phẩm Google như ứng dụng Gemini, trợ lý AI của chúng tôi, và vào các yếu tố hình thức khác như kính. Và chúng tôi đang bắt đầu mở rộng chương trình thử nghiệm đáng tin cậy của mình cho nhiều người hơn, bao gồm cả một nhóm nhỏ sẽ sớm bắt đầu thử nghiệm Project Astra trên các mẫu kính.
Project Mariner: các tác nhân có thể giúp bạn hoàn thành các nhiệm vụ phức tạp
Project Mariner là một nguyên mẫu nghiên cứu ban đầu được xây dựng bằng Gemini 2.0, khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu từ trình duyệt của bạn. Là một nguyên mẫu nghiên cứu, nó có thể hiểu và lập luận trên các thông tin trên màn hình trình duyệt của bạn, bao gồm cả pixel và các yếu tố web như văn bản, mã, hình ảnh và biểu mẫu, và sau đó sử dụng thông tin đó thông qua tiện ích mở rộng Chrome thử nghiệm để hoàn thành các nhiệm vụ cho bạn.
Khi được đánh giá trên điểm chuẩn WebVoyager, đánh giá hiệu suất của tác nhân đối với các nhiệm vụ web thực tế trên toàn bộ quá trình, Project Mariner đã đạt được kết quả tốt nhất là 83,5% khi hoạt động dưới dạng thiết lập tác nhân đơn.
Vẫn còn sớm, nhưng Project Mariner cho thấy rằng về mặt kỹ thuật, việc điều hướng bên trong trình duyệt đang trở nên khả thi, mặc dù nó không phải lúc nào cũng chính xác và chậm trong việc hoàn thành các nhiệm vụ hiện nay, điều này sẽ được cải thiện nhanh chóng theo thời gian.
Để xây dựng điều này một cách an toàn và có trách nhiệm, chúng tôi đang tiến hành nghiên cứu tích cực về các loại rủi ro và giải pháp giảm thiểu mới, đồng thời giữ cho con người trong vòng lặp. Ví dụ: Project Mariner chỉ có thể nhập, cuộn hoặc nhấp vào tab đang hoạt động trên trình duyệt của bạn và nó yêu cầu người dùng xác nhận cuối cùng trước khi thực hiện một số hành động nhạy cảm nhất định, chẳng hạn như mua thứ gì đó.
Những người thử nghiệm đáng tin cậy đang bắt đầu thử nghiệm Project Mariner bằng cách sử dụng tiện ích mở rộng Chrome thử nghiệm ngay bây giờ, và chúng tôi đang bắt đầu các cuộc trò chuyện với hệ sinh thái web song song.
Jules: tác nhân dành cho nhà phát triển
Tiếp theo, chúng tôi đang khám phá cách các tác nhân AI có thể hỗ trợ các nhà phát triển với Jules — một tác nhân mã được hỗ trợ bởi AI thử nghiệm tích hợp trực tiếp vào quy trình làm việc của GitHub. Nó có thể giải quyết một vấn đề, phát triển một kế hoạch và thực hiện nó, tất cả đều dưới sự hướng dẫn và giám sát của nhà phát triển. Nỗ lực này là một phần trong mục tiêu dài hạn của chúng tôi là xây dựng các tác nhân AI hữu ích trong tất cả các lĩnh vực, bao gồm cả mã hóa.
Thông tin thêm về thí nghiệm đang diễn ra này có thể được tìm thấy trong bài đăng trên blog dành cho nhà phát triển của chúng tôi.
Tác nhân trong trò chơi và các lĩnh vực khác
Google DeepMind có lịch sử lâu dài về việc sử dụng trò chơi để giúp các mô hình AI trở nên giỏi hơn trong việc tuân theo các quy tắc, lập kế hoạch và logic. Chỉ tuần trước, ví dụ, chúng tôi đã giới thiệu Genie 2, mô hình AI của chúng tôi có thể tạo ra vô số thế giới 3D có thể chơi được — tất cả từ một hình ảnh duy nhất. Xây dựng trên truyền thống này, chúng tôi đã xây dựng các tác nhân sử dụng Gemini 2.0 có thể giúp bạn điều hướng thế giới ảo của trò chơi điện tử. Nó có thể lập luận về trò chơi dựa hoàn toàn trên hành động trên màn hình và đưa ra các đề xuất về những việc cần làm tiếp theo trong cuộc trò chuyện thời gian thực.
Chúng tôi đang hợp tác với các nhà phát triển trò chơi hàng đầu như Supercell để khám phá cách các tác nhân này hoạt động, kiểm tra khả năng diễn giải quy tắc và thách thức của họ trên nhiều trò chơi đa dạng, từ các tựa game chiến lược như “Clash of Clans” đến các trình mô phỏng nông trại như “Hay Day”.
Ngoài việc đóng vai trò là bạn đồng hành chơi game ảo, những tác nhân này thậm chí còn có thể khai thác Tìm kiếm Google để kết nối bạn với kho kiến thức trò chơi trên web.
Ngoài việc khám phá các khả năng tác động trong thế giới ảo, chúng tôi đang thử nghiệm với các tác nhân có thể giúp đỡ trong thế giới vật lý bằng cách áp dụng khả năng lập luận không gian của Gemini 2.0 vào robot học. Mặc dù vẫn còn sớm, nhưng chúng tôi rất hào hứng với tiềm năng của các tác nhân có thể hỗ trợ trong môi trường vật lý.
Bạn có thể tìm hiểu thêm về các nguyên mẫu và thử nghiệm nghiên cứu này tại labs.google.
5. Xây dựng có trách nhiệm trong kỷ nguyên tác động
Gemini 2.0 Flash và các nguyên mẫu nghiên cứu của chúng tôi cho phép chúng tôi kiểm tra và lặp lại các khả năng mới ở vị trí hàng đầu của nghiên cứu AI, cuối cùng sẽ giúp các sản phẩm Google trở nên hữu ích hơn.
Khi phát triển những công nghệ mới này, chúng tôi nhận ra trách nhiệm mà nó mang lại và những câu hỏi mà các tác nhân AI đặt ra đối với an toàn và bảo mật. Đó là lý do tại sao chúng tôi đang thực hiện một cách tiếp cận khám phá và dần dần đối với sự phát triển, tiến hành nghiên cứu trên nhiều nguyên mẫu, lặp đi lặp lại việc thực hiện đào tạo an toàn, làm việc với những người thử nghiệm đáng tin cậy và các chuyên gia bên ngoài và thực hiện đánh giá rủi ro, đánh giá an toàn và bảo đảm toàn diện.
Ví dụ:
- Là một phần của quy trình an toàn của mình, chúng tôi đã làm việc với Ủy ban Trách nhiệm và An toàn (RSC), nhóm xem xét nội bộ lâu năm của chúng tôi, để xác định và hiểu các rủi ro tiềm ẩn.
- Khả năng lập luận của Gemini 2.0 đã cho phép những tiến bộ lớn trong cách tiếp cận nhóm đỏ được hỗ trợ bởi AI của chúng tôi, bao gồm cả khả năng vượt ra ngoài việc chỉ phát hiện rủi ro để giờ đây tự động tạo ra các đánh giá và dữ liệu đào tạo để giảm thiểu chúng. Điều này có nghĩa là chúng ta có thể tối ưu hóa mô hình cho sự an toàn ở quy mô lớn một cách hiệu quả hơn.
- Khi tính đa phương thức của Gemini 2.0 làm tăng độ phức tạp của đầu ra tiềm năng, chúng tôi sẽ tiếp tục đánh giá và đào tạo mô hình trên đầu vào và đầu ra hình ảnh và âm thanh để giúp cải thiện độ an toàn.
- Với Project Astra, chúng tôi đang khám phá các giải pháp giảm thiểu tiềm năng đối với việc người dùng vô tình chia sẻ thông tin nhạy cảm với tác nhân, và chúng tôi đã tích hợp các điều khiển quyền riêng tư giúp người dùng dễ dàng xóa các phiên. Chúng tôi cũng đang tiếp tục nghiên cứu các cách để đảm bảo các tác nhân AI hoạt động như nguồn thông tin đáng tin cậy và không thực hiện các hành động ngoài ý muốn thay mặt bạn.
- Với Project Mariner, chúng tôi đang làm việc để đảm bảo mô hình học cách ưu tiên các hướng dẫn của người dùng hơn các nỗ lực của bên thứ ba đối với việc tiêm lời nhắc, để nó có thể xác định các hướng dẫn có khả năng gây hại từ các nguồn bên ngoài và ngăn ngừa việc sử dụng sai mục đích. Điều này ngăn người dùng bị phơi bày trước gian lận và nỗ lực lừa đảo thông qua những thứ như các hướng dẫn độc hại được ẩn trong email, tài liệu hoặc trang web.
Chúng tôi tin tưởng vững chắc rằng cách duy nhất để xây dựng AI là phải có trách nhiệm ngay từ đầu và chúng tôi sẽ tiếp tục ưu tiên việc làm cho an toàn và trách nhiệm trở thành một yếu tố quan trọng trong quy trình phát triển mô hình của mình khi chúng tôi nâng cao các mô hình và tác nhân của mình.
0 comments Blogger 0 Facebook
Đăng nhận xét