Google tập trung vào doanh nghiệp với các phiên bản nâng cấp của Gemini 1.5 Flash, 1.5 Pro và Imagen 3

Mục lục

Gemini 1.5 Flash: Nhanh hơn, rẻ hơn và thông minh hơn
Gemini 1.5 Pro: Nâng cao khả năng xử lý thông tin với 2 triệu token
Imagen 3: Tạo hình ảnh chân thực hơn với nhiều cải tiến
Khả năng kết nối thông tin thực tế với dữ liệu doanh nghiệp

1. Gemini 1.5 Flash: Nhanh hơn, rẻ hơn và thông minh hơn

Google đã công bố việc phát hành rộng rãi mô hình Gemini 1.5 Flash, với tốc độ xử lý nhanh chóng, khả năng xử lý 1 triệu token và giá cả cạnh tranh. Điều này giúp Gemini 1.5 Flash có thể xử lý lượng thông tin lớn gấp 60 lần so với GPT-3.5 Turbo của OpenAI, đồng thời nhanh hơn 40%.

Google cho biết Uber Technologies Inc. đã sử dụng Gemini 1.5 Flash cho dịch vụ giao đồ ăn UberEats. Hệ thống AI cho UberEats đã giúp giảm thời gian phản hồi gần 50% và mang lại trải nghiệm tốt hơn cho khách hàng.

2. Gemini 1.5 Pro: Nâng cao khả năng xử lý thông tin với 2 triệu token

Gemini 1.5 Pro hiện đã có sẵn với khả năng xử lý lên tới 2 triệu token, mở ra những tính năng mới cho phép các doanh nghiệp xử lý hàng ngàn tài liệu và video dài. Với khả năng này, 1.5 Pro có thể xử lý 2 giờ video, 22 giờ âm thanh, hơn 60.000 dòng code hoặc 1.5 triệu từ trong thời gian kỷ lục.

Thomas Kurian, Giám đốc điều hành của Google Cloud, cho biết: Chúng tôi đã có nhiều công ty nhận thấy giá trị to lớn từ Gemini 1.5 Pro. Ví dụ, các nhà bán lẻ sử dụng cửa sổ ngữ cảnh lớn và camera trong cửa hàng để hiểu nơi khách hàng tập trung vào những thời điểm cao điểm, từ đó điều chỉnh khu vực làm việc để tối ưu hóa luồng khách hàng. Các tổ chức tài chính có thể thu thập tất cả các báo cáo 10-K và 10-Q được tạo ra vào cuối mỗi ngày công bố thu nhập và xử lý chúng như một kho dữ liệu duy nhất để phân tích toàn bộ thông tin.

3. Imagen 3: Tạo hình ảnh chân thực hơn với nhiều cải tiến

Imagen 3, mô hình tạo hình ảnh thế hệ tiếp theo của Google, được phát hành trên nền tảng AI quản lý Vertex AI. Imagen 3 tạo ra hình ảnh chân thực từ các lời nhắc bằng ngôn ngữ tự nhiên, với nhiều cải tiến so với Imagen 2. Bao gồm: tốc độ tạo hình ảnh nhanh hơn 40%, khả năng hiểu lời nhắc tốt hơn, tuân theo hướng dẫn tốt hơn và khả năng tạo hình ảnh nhóm người chân thực hơn.

Imagen 3 cũng được nâng cấp để người dùng có thể kiểm soát tốt hơn việc tạo và sắp xếp văn bản trong hình ảnh. Việc tạo văn bản bằng mô hình tạo hình ảnh theo kiểu khuếch tán thường gặp khó khăn, vì các mô hình này đôi khi tạo ra thông tin nhảm nhí hoặc hiểu sai lời nhắc yêu cầu tạo văn bản.

Gaurav Sharma, trưởng nhóm nghiên cứu AI tại Typeface, một startup chuyên khai thác AI tạo nội dung cho doanh nghiệp, chia sẻ: Kết quả ban đầu của các mô hình Imagen 3 đã khiến chúng tôi ngạc nhiên bởi chất lượng và tốc độ trong thử nghiệm. Nó mang đến những cải tiến trong việc tạo chi tiết, cũng như hình ảnh phong cách sống của con người.

Mô hình mới này cũng hỗ trợ đa ngôn ngữ và các tỷ lệ khung hình khác nhau. Sanjeev Mohan, nhà phân tích ngành và Giám đốc điều hành của SanjMo, nhận định: Google hiện có hai cách để tạo hình ảnh. Người dùng có thể sử dụng Gemini đa phương thức hoặc Imagen 3 dựa trên khuếch tán với khả năng đồ họa nâng cao.

4. Khả năng kết nối thông tin thực tế với dữ liệu doanh nghiệp

Tại hội nghị dành cho nhà phát triển Google I/O vào tháng 5, Google đã công bố việc phát hành rộng rãi khả năng kết nối thông tin thực tế với Google Search trong Vertex AI. Khả năng này cho phép kết quả của Gemini được bổ sung thông tin thực tế, chất lượng cao, cập nhật từ Google Search.

Bắt đầu từ quý tiếp theo, Vertex AI sẽ cung cấp một dịch vụ mới cung cấp dữ liệu đáng tin cậy từ bên thứ ba cho các tác nhân AI tạo nội dung để kết nối thông tin thực tế với dữ liệu doanh nghiệp.

Google cho biết họ đang hợp tác với các nguồn thông tin đáng tin cậy, bao gồm các nhà cung cấp như Moody’s Corp. (nhà cung cấp dữ liệu tài chính), Thomson Reuters Corp. (công ty thông tin đa quốc gia về luật) và ZoomInfo Technologies Inc. (công cụ tìm kiếm thương mại). Các công ty này sẽ cung cấp quyền truy cập vào các nguồn thông tin đáng tin cậy, được cập nhật thường xuyên và có thể được khai thác như thông tin được kết nối và đáng tin cậy.

Đối với các tổ chức cần kiểm soát chặt chẽ hơn và phản hồi dựa trên thực tế, Google cung cấp chế độ kết nối thông tin thực tế độ trung thực cao trên dữ liệu nội bộ cho các trường hợp sử dụng nhạy cảm như dịch vụ tài chính, chăm sóc sức khỏe và bảo hiểm. Chế độ kết nối thông tin thực tế này được công bố ở chế độ thử nghiệm và được cung cấp bởi một phiên bản của Gemini 1.5 Flash đã được tinh chỉnh để chỉ sử dụng nội dung do khách hàng cung cấp và sẽ tạo ra câu trả lời chỉ dựa trên dữ liệu đó, bỏ qua kiến thức về thế giới của mô hình.

Ví dụ, một mô hình được thiết lập để chỉ hoạt động từ một tập dữ liệu cụ thể về tài liệu xét nghiệm máu từ năm 2022 đến năm 2024 sẽ trả lời câu hỏi dựa trên các tài liệu này với độ chính xác cao. Tuy nhiên, nếu được hỏi về tài liệu từ năm 2021, hoặc bất kỳ chủ đề nào khác, mô hình sẽ trả lời rằng thông tin được cung cấp không có bất kỳ thông tin nào từ năm 2021 thay vì bịa đặt.

Điều này đảm bảo mức độ chính xác cao trong phản hồi và giảm đáng kể khả năng ảo giác, hoặc khi mô hình tự tin trả lời sai, Google cho biết. Đồng thời, mô hình cung cấp điểm số phần trăm về mức độ tin tưởng vào câu trả lời và nguồn thông tin để người dùng có thể theo dõi lại nguồn gốc của câu trả lời.

Google tập trung vào doanh nghiệp với các phiên bản nâng cấp của Gemini 1.5 Flash, 1.5 Pro và Imagen 3