Gemini: Công cụ AI của Google - Mọi thứ bạn cần biết

Gemini là một công cụ trí tuệ nhân tạo (AI) đa năng của Google, ra mắt vào tháng 12 năm 2023 bởi Google DeepMind. Không chỉ là một chatbot đơn thuần, Gemini còn hoạt động như một công cụ tìm kiếm thông minh và được tích hợp vào nhiều sản phẩm của Google, bao gồm Google Tìm kiếm, Workspace và thậm chí cả điện thoại Pixel, giúp tăng cường hiệu suất và trải nghiệm người dùng.

Gemini là gì?

Về bản chất, Gemini là một mô hình ngôn ngữ lớn (LLM - Large Language Model), có khả năng hiểu và tạo ra văn bản giống như con người viết. Nó được thiết kế để tích hợp AI tiên tiến vào các tương tác người dùng hàng ngày và các giải pháp doanh nghiệp phức tạp. Người dùng có thể tương tác với Gemini thông qua chatbot trên web hoặc ứng dụng di động.

Gemini hiện có bốn mô hình: Ultra, Pro, Flash và Nano, mỗi mô hình được thiết kế cho các trường hợp sử dụng khác nhau. Điểm nổi bật của Gemini là khả năng xử lý ngữ cảnh mở rộng nhờ cửa sổ ngữ cảnh (token context window) lớn. Gemini 1.5 Flash có cửa sổ 1 triệu token, trong khi mô hình 1.5 Pro lên đến 2 triệu token, vượt trội so với ChatGPT (giới hạn 32.000 token ở phiên bản mở rộng).

Thuật ngữ AI thông dụng:

Trước khi đi sâu vào chi tiết, hãy cùng điểm qua một số thuật ngữ AI quan trọng:

  • Trí tuệ nhân tạo thế hệ (Generative AI hoặc Gen AI): Là hệ thống AI có khả năng tạo ra nội dung mới, như văn bản, hình ảnh hoặc âm nhạc, dựa trên dữ liệu đã được huấn luyện. LLM như Gemini là một loại Gen AI.
  • Mô hình ngôn ngữ lớn (LLM): Học hỏi từ các tập dữ liệu văn bản và mã khổng lồ, sau đó sử dụng kiến thức đó để hiểu và tạo ra văn bản giống như con người.
  • Chatbot: Sử dụng LLM để tham gia vào các cuộc hội thoại thời gian thực, cung cấp thông tin và giải quyết vấn đề. Tuy nhiên, chatbot đôi khi mắc lỗi, đưa ra những câu trả lời sai lệch (hiện tượng "ảo giác" - hallucination trong AI). Google đã từng gặp phải những sự cố này với Gemini.
  • Token: Là các đơn vị cấu tạo nên văn bản mà mô hình AI sử dụng để xử lý ngôn ngữ. Chúng có thể là từ nguyên vẹn, một phần từ hoặc dấu câu. Giới hạn token thể hiện khả năng "ghi nhớ" của AI trong cuộc hội thoại để đảm bảo tính mạch lạc và liên quan.

Gemini trên điện thoại Pixel và Google Tìm kiếm:

Gemini được tích hợp vào điện thoại Google Pixel, tăng cường các tính năng AI của điện thoại, như sao chép giọng nói, tạo phản hồi email nhanh chóng. Nó giúp Pixel hoạt động nhanh hơn và trực quan hơn.

Gemini cũng đóng vai trò quan trọng trong "AI Overviews" trên Google Tìm kiếm. Tính năng này cung cấp các câu trả lời chi tiết và phong phú hơn cho các truy vấn tìm kiếm, giúp người dùng hiểu rõ hơn các chủ đề phức tạp. Tuy nhiên, ngay khi ra mắt, AI Overviews đã vấp phải những chỉ trích vì đưa ra những lời khuyên kỳ lạ, thậm chí vô lý. Google đã nhanh chóng khắc phục vấn đề này.

Hiện tại, AI Overviews có sẵn cho người dùng từ 13 tuổi trở lên ở Mỹ và từ 18 tuổi trở lên ở một số quốc gia khác. Google đặt mục tiêu mở rộng tính năng này cho hơn 1 tỷ người dùng vào cuối năm 2024. Mặc dù tính năng này không thể tắt hoàn toàn, nhưng có một vài cách giải pháp để hạn chế.

Khắc phục vấn đề tạo ảnh:

Trong thời gian đầu ra mắt, Gemini vấp phải nhiều chỉ trích vì những sai sót trong việc tạo hình ảnh, đặc biệt là việc mô tả sai lệch các nhân vật lịch sử và chủng tộc. Google đã tạm dừng tính năng tạo ảnh của Gemini để khắc phục.

Ngày 28 tháng 8, Google công bố phiên bản mới của công cụ text-to-image là Imagen 3, sẽ sớm có sẵn cho người đăng ký Gemini Advanced, Business và Enterprise. Tuy nhiên, khả năng tạo ảnh người vẫn chưa được khôi phục. Trước đó, ngày 13 tháng 8, Google đã ra mắt Gemini Live cho người đăng ký Advanced trên thiết bị Android, với kế hoạch mở rộng sang iOS. Gemini Live cho phép hội thoại rảnh tay, thời gian thực với 10 tùy chọn giọng nói mới.

Giá cả và quyền truy cập:

Gemini phiên bản cá nhân là miễn phí, cung cấp mô hình 1.5 Flash với cửa sổ ngữ cảnh 32.000 token. Tuy nhiên, các tính năng nâng cao có tính phí:

  • Gemini Advanced (mô hình 1.5 Pro): $20/tháng.
  • Gemini Business: $20/người dùng/tháng (kế hoạch hàng năm) hoặc $24/tháng (thanh toán hàng tháng).
  • Gemini Enterprise: $30/người dùng/tháng (kế hoạch hàng năm), giá tùy chỉnh qua đội ngũ bán hàng của Google.

Đối với nhà phát triển và doanh nghiệp, Google cung cấp API Gemini (Flash và Pro) với cấu trúc giá theo tầng. Có cả gói miễn phí dùng thử.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top