Gemini 2.0 Flash: Khai mở kỷ nguyên AI đa phương thức thời gian thực

Mục lục

Giới thiệu Gemini 2.0 Flash và cuộc cách mạng đa phương thức
Gemini 2.0 Flash: Chất xúc tác cho cuộc cách mạng AI đa phương thức
Cảnh quan cạnh tranh: Cuộc đua định hình tương lai
Thử thách và cơ hội
Kết luận: Bình minh mới, dẫn đầu bởi Google (tạm thời)

Giới thiệu Gemini 2.0 Flash và cuộc cách mạng đa phương thức

Việc Google ra mắt Gemini 2.0 Flash tuần này, cho phép người dùng tương tác trực tiếp với video môi trường xung quanh, đã đặt nền móng cho một bước ngoặt quan trọng trong cách doanh nghiệp và người tiêu dùng tương tác với công nghệ. Sự ra mắt này, cùng với các thông báo từ OpenAI, Microsoft và các công ty khác, là một phần của bước nhảy vọt mang tính chuyển đổi trong lĩnh vực "AI đa phương thức". Công nghệ này cho phép bạn sử dụng video, âm thanh hoặc hình ảnh được đưa vào máy tính hoặc điện thoại của mình và đặt câu hỏi về chúng.

Điều này cũng báo hiệu sự gia tăng cường độ trong cuộc đua cạnh tranh giữa Google và các đối thủ chính của mình - OpenAI và Microsoft - để giành vị thế thống trị trong khả năng AI. Nhưng quan trọng hơn, nó dường như đang định hình kỷ nguyên tiếp theo của điện toán tương tác, chủ động.

Thời điểm này trong AI đối với tôi giống như "thời điểm iPhone", và tôi đang đề cập đến năm 2007-2008 khi Apple phát hành iPhone, thông qua kết nối với internet và giao diện người dùng mượt mà, đã chuyển đổi cuộc sống hàng ngày bằng cách cung cấp cho mọi người một máy tính mạnh mẽ trong túi của họ.

Trong khi ChatGPT của OpenAI có thể đã khởi động thời điểm AI mới nhất này với chatbot giống người mạnh mẽ vào tháng 11 năm 2022, việc phát hành Gemini 2.0 Flash của Google vào cuối năm 2024 được cảm nhận như là sự tiếp nối quan trọng của thời điểm đó - vào thời điểm nhiều nhà quan sát lo ngại về sự chậm lại có thể xảy ra trong việc cải thiện công nghệ AI.

Gemini 2.0 Flash: Chất xúc tác cho cuộc cách mạng AI đa phương thức

Gemini 2.0 Flash của Google cung cấp chức năng đột phá, cho phép tương tác thời gian thực với video được chụp qua điện thoại thông minh. Không giống như các cuộc trình diễn dàn dựng trước đây (ví dụ: Project Astra của Google vào tháng 5), công nghệ này hiện đã có sẵn cho người dùng hàng ngày thông qua AI Studio của Google.

Tôi khuyến khích bạn tự mình thử. Tôi đã sử dụng nó để xem và tương tác với môi trường xung quanh của mình - đối với tôi sáng nay là nhà bếp và phòng ăn. Bạn có thể thấy ngay lập tức điều này mang lại những đột phá cho giáo dục và các trường hợp sử dụng khác. Bạn có thể hiểu tại sao người tạo nội dung Jerrod Lew đã phản ứng trên X ngày hôm qua với sự kinh ngạc khi anh ấy sử dụng AI thời gian thực Gemini 2.0 để chỉnh sửa video trong Adobe Premiere Pro. "Điều này thật điên rồ", anh ấy nói, sau khi Google hướng dẫn anh ấy chỉ trong vài giây về cách thêm hiệu ứng làm mờ cơ bản ngay cả khi anh ấy là người dùng mới.

Sam Witteveen, một nhà phát triển AI nổi bật và là người đồng sáng lập Red Dragon AI, đã được quyền truy cập sớm để thử nghiệm Gemini 2.0 Flash, và ông nhấn mạnh rằng tốc độ của Gemini Flash - nhanh gấp đôi so với Gemini 1.5 Pro hàng đầu của Google cho đến nay - và giá cả "rẻ đến mức điên rồ" làm cho nó không chỉ là một sản phẩm trưng bày cho các nhà phát triển để thử nghiệm các sản phẩm mới, mà còn là một công cụ thực tế cho các doanh nghiệp quản lý ngân sách AI. (Cần phải nói rõ là Google chưa thực sự công bố giá cả cho Gemini 2.0 Flash. Đây là bản xem trước miễn phí. Nhưng Witteveen đang dựa trên giả định của mình trên tiền lệ được thiết lập bởi dòng sản phẩm Gemini 1.5 của Google.)

Đối với các nhà phát triển, API trực tiếp của các tính năng trực tiếp đa phương thức này mang lại tiềm năng đáng kể, vì chúng cho phép tích hợp liền mạch vào các ứng dụng. API đó cũng có sẵn để sử dụng; một ứng dụng demo có sẵn. Đây là bài đăng trên blog của Google dành cho nhà phát triển.

Lập trình viên Simon Willison gọi API phát trực tuyến là cấp độ tiếp theo: "Những thứ này đến thẳng từ khoa học viễn tưởng: có thể có một cuộc trò chuyện bằng giọng nói với một LLM có khả năng về những thứ mà nó có thể 'nhìn thấy' qua máy ảnh của bạn là một trong những khoảnh khắc 'chúng ta đang sống trong tương lai'". Ông lưu ý cách bạn yêu cầu API cho phép chế độ thực thi mã, cho phép các mô hình viết mã Python, chạy nó và xem xét kết quả như một phần phản hồi của chúng - tất cả đều là một phần của tương lai chủ động.

Công nghệ này rõ ràng là người báo hiệu cho các hệ sinh thái ứng dụng và kỳ vọng của người dùng mới. Hãy tưởng tượng có thể phân tích video trực tiếp trong một bài thuyết trình, đề xuất chỉnh sửa hoặc khắc phục sự cố trong thời gian thực.

Vâng, công nghệ này rất tuyệt vời cho người tiêu dùng, nhưng điều quan trọng là người dùng doanh nghiệp và lãnh đạo cũng cần nắm bắt. Các tính năng mới là nền tảng của một cách thức hoàn toàn mới để làm việc và tương tác với công nghệ - gợi ý về năng suất và quy trình làm việc sáng tạo sắp tới.

Cảnh quan cạnh tranh: Cuộc đua định hình tương lai

Việc phát hành Gemini 2.0 Flash của Google vào thứ Tư diễn ra trong bối cảnh nhiều bản phát hành của Google và các đối thủ cạnh tranh chính của mình, những người đang cố gắng giao hàng các công nghệ mới nhất của họ trước cuối năm. Tất cả đều hứa hẹn sẽ cung cấp khả năng đa phương thức sẵn sàng cho người tiêu dùng - tương tác video trực tiếp, tạo hình ảnh và tổng hợp giọng nói - nhưng một số trong số chúng chưa hoàn thiện hoặc thậm chí chưa hoàn toàn khả dụng.

Một lý do cho sự vội vàng là một số công ty này cung cấp cho nhân viên tiền thưởng để cung cấp các sản phẩm chính trước khi kết thúc năm. Một lý do khác là quyền khoe khoang khi họ ra mắt các tính năng mới trước tiên. Họ có thể thu hút được sự chú ý lớn của người dùng bằng cách là người đầu tiên, như OpenAI đã chứng minh vào năm 2022, khi ChatGPT của họ trở thành sản phẩm tiêu dùng phát triển nhanh nhất trong lịch sử. Mặc dù Google có công nghệ tương tự, nhưng họ chưa sẵn sàng cho việc phát hành công khai và bị bỏ lại phía sau. Kể từ đó, các nhà quan sát đã chỉ trích mạnh mẽ Google vì quá chậm chạp.

Dưới đây là những gì các công ty khác đã công bố trong vài ngày qua, tất cả đều giúp giới thiệu kỷ nguyên AI đa phương thức mới này.

Chế độ giọng nói nâng cao với Tầm nhìn của OpenAI: Được ra mắt ngày hôm qua nhưng vẫn đang được triển khai, nó cung cấp các tính năng như phân tích video thời gian thực và chia sẻ màn hình. Mặc dù đầy hứa hẹn, nhưng các vấn đề truy cập sớm đã hạn chế tác động tức thời của nó. Ví dụ, tôi vẫn chưa thể truy cập nó ngay cả khi tôi là người đăng ký Plus.
Copilot Vision của Microsoft: Tuần trước, Microsoft đã ra mắt một công nghệ tương tự trong bản xem trước - chỉ dành cho một nhóm người dùng Pro được chọn. Thiết kế tích hợp trình duyệt của nó gợi ý về các ứng dụng doanh nghiệp nhưng thiếu sự trau chuốt và khả năng tiếp cận của Gemini 2.0. Microsoft cũng đã phát hành một mô hình Phi-4 nhanh chóng và mạnh mẽ.
Claude 3.5 Haiku của Anthropic: Anthropic, cho đến nay đang trong cuộc đua khốc liệt để dẫn đầu mô hình ngôn ngữ lớn (LLM) với OpenAI, vẫn chưa cung cấp bất cứ thứ gì tiên tiến ở phía đa phương thức. Họ mới chỉ phát hành 3.5 Haiku, đáng chú ý về hiệu quả và tốc độ. Nhưng trọng tâm của họ vào việc giảm chi phí và các mô hình nhỏ hơn trái ngược với các tính năng đột phá của bản phát hành mới nhất của Google và của Chế độ giọng nói với Tầm nhìn của OpenAI.

Thử thách và cơ hội

Mặc dù các công nghệ này mang tính cách mạng, nhưng vẫn còn những thách thức:

Khả năng tiếp cận và khả năng mở rộng: OpenAI và Microsoft đã phải đối mặt với các nút thắt triển khai, và Google phải đảm bảo tránh những cạm bẫy tương tự. Google đã đề cập rằng tính năng phát trực tuyến trực tiếp (Project Astra) có giới hạn bộ nhớ ngữ cảnh tối đa lên đến 10 phút bộ nhớ trong phiên, mặc dù điều đó có thể sẽ tăng lên theo thời gian.
Quyền riêng tư và bảo mật: Các hệ thống AI phân tích video thời gian thực hoặc dữ liệu cá nhân cần các biện pháp bảo vệ mạnh mẽ để duy trì niềm tin. Mô hình Gemini 2.0 Flash của Google có tích hợp tạo hình ảnh gốc, quyền truy cập vào API của bên thứ ba và khả năng khai thác tìm kiếm của Google và thực thi mã. Tất cả những điều đó rất mạnh mẽ, nhưng có thể khiến người dùng dễ dàng vô tình tiết lộ thông tin riêng tư khi nghịch ngợm với những thứ này.
Tích hợp hệ sinh thái: Khi Microsoft tận dụng bộ công cụ doanh nghiệp của mình và Google tự định vị mình trong Chrome, câu hỏi đặt ra là: Nền tảng nào cung cấp trải nghiệm liền mạch nhất cho doanh nghiệp?

Tuy nhiên, tất cả những trở ngại này đều bị lấn át bởi những lợi ích tiềm năng của công nghệ, và không nghi ngờ gì nữa rằng các nhà phát triển và các công ty doanh nghiệp sẽ nhanh chóng nắm bắt chúng trong năm tới.

Kết luận: Bình minh mới, dẫn đầu bởi Google (tạm thời)

Như nhà phát triển Sam Witteveen và tôi đã thảo luận trong podcast được ghi âm vào tối thứ Tư sau thông báo của Google, Gemini 2.0 Flash thực sự là một bản phát hành ấn tượng, đánh dấu thời điểm AI đa phương thức đã trở nên thực tế. Những tiến bộ của Google đã thiết lập một tiêu chuẩn mới, mặc dù đúng là lợi thế này có thể rất ngắn ngủi. OpenAI và Microsoft đang bám sát gót chân của Google. Chúng ta vẫn đang ở giai đoạn rất sớm của cuộc cách mạng này, giống như vào năm 2008 khi bất chấp việc iPhone được phát hành, không rõ Google, Nokia và RIM sẽ phản ứng như thế nào. Lịch sử cho thấy Nokia và RIM đã không làm được, và chúng đã biến mất. Google đã phản hồi rất tốt và đã cạnh tranh sòng phẳng với iPhone.

Tương tự như vậy, rõ ràng là Microsoft và OpenAI đang rất tham gia vào cuộc đua này với Google. Trong khi đó, Apple đã quyết định hợp tác về công nghệ này và tuần này đã công bố sự tích hợp sâu hơn với ChatGPT - nhưng chắc chắn họ không cố gắng giành chiến thắng hoàn toàn trong kỷ nguyên cung cấp đa phương thức mới này.

Trong podcast của chúng tôi, Sam và tôi cũng đề cập đến lợi thế chiến lược đặc biệt của Google xung quanh lĩnh vực trình duyệt. Ví dụ, bản phát hành Project Mariner, một tiện ích mở rộng của Chrome, cho phép bạn thực hiện các tác vụ duyệt web thực tế với nhiều chức năng hơn so với các công nghệ cạnh tranh do Anthropic (gọi là Computer Use) và OmniParser của Microsoft (vẫn đang trong nghiên cứu) cung cấp. (Đúng là tính năng của Anthropic cung cấp cho bạn nhiều quyền truy cập hơn vào các tài nguyên cục bộ của máy tính của bạn.) Tất cả những điều này đã giúp Google có được lợi thế trong cuộc đua để thúc đẩy công nghệ AI chủ động vào năm 2005, ngay cả khi Microsoft dường như đang dẫn đầu về mặt thực thi trong việc cung cấp các giải pháp chủ động cho doanh nghiệp. Các tác nhân AI thực hiện các nhiệm vụ phức tạp một cách tự động, với sự can thiệp tối thiểu của con người - ví dụ, chúng sớm sẽ thực hiện các nhiệm vụ nghiên cứu nâng cao và kiểm tra cơ sở dữ liệu trước khi thực hiện thương mại điện tử, giao dịch chứng khoán hoặc thậm chí mua bán bất động sản.

Việc Google tập trung vào việc làm cho các khả năng Gemini 2.0 này có thể tiếp cận được với cả nhà phát triển và người tiêu dùng là một chiến lược thông minh, vì nó đảm bảo rằng họ đang giải quyết vấn đề của ngành với một kế hoạch toàn diện. Cho đến nay, Google đã phải chịu tiếng xấu là không tập trung mạnh mẽ vào các nhà phát triển như Microsoft.

Câu hỏi dành cho người ra quyết định không phải là có nên áp dụng các công cụ này hay không, mà là bạn có thể tích hợp chúng vào quy trình làm việc nhanh đến mức nào. Thật thú vị khi được thấy năm tới sẽ đưa chúng ta đến đâu. Hãy chắc chắn lắng nghe những điểm chính của chúng tôi dành cho người dùng doanh nghiệp trong video bên dưới:

Gemini 2.0 Flash Image

Gemini 2.0 Flash: Khai mở kỷ nguyên AI đa phương thức thời gian thực

0 comments Blogger 0 Facebook

Đăng nhận xét

Bài đăng phổ biến

Labels

Gemini 2.0 Flash: Khai mở kỷ nguyên AI đa phương thức thời gian thực

Next

Bài đăng Mới hơn

Previous

Bài đăng Cũ hơn

0 comments Blogger 0 Facebook

Đăng nhận xét