Google Sử Dụng Robot để Trình Diễn Khả Năng của Mô Hình AI Gemini

Mục lục:

Robot từ Everybody Robots Division
Sử Dụng Vision Language Models (VLMs)
Ví Dụ về Khả Năng của Robot
Kết Luận

Google đã tìm ra một cách mới để thể hiện khả năng của mô hình AI Gemini thông qua việc sử dụng robot. Robot này từng thuộc về Everybody Robots Division, một bộ phận đã bị đóng cửa vào năm ngoái. Tuy nhiên, những con robot này vẫn còn tồn tại và Google đã quyết định sử dụng chúng để trình diễn Gemini.

1. Robot từ Everybody Robots Division

Google đã trang bị cho một trong những robot này một chiếc nơ màu vàng và sử dụng Gemini để dạy robot cách phản hồi các lệnh và di chuyển trong văn phòng của DeepMind.

2. Sử Dụng Vision Language Models (VLMs)

Để đạt được điều này, Google đã sử dụng các mô hình ngôn ngữ thị giác (VLMs). VLMs được đào tạo dựa trên hình ảnh và video cùng với văn bản, cho phép chúng trả lời các câu hỏi và thực hiện các nhiệm vụ cần đến khả năng nhận thức.

3. Ví Dụ về Khả Năng của Robot

Trong một video, nhân viên Google yêu cầu robot đưa anh ta đến một nơi để vẽ. Robot trả lời rằng nó cần một phút để suy nghĩ, sau đó đưa nhân viên đến bảng trắng.

Trong một video khác, robot được yêu cầu làm theo hướng dẫn trên bảng trắng, nơi một bản đồ hiển thị hướng dẫn để đến Khu vực Xanh. Robot làm theo hướng dẫn để đến khu vực thử nghiệm robot và tuyên bố: Tôi đã làm theo hướng dẫn trên bảng trắng thành công.

4. Kết Luận

Việc Google sử dụng robot để trình diễn khả năng của Gemini cho thấy tiềm năng to lớn của VLMs trong việc tạo ra các robot thông minh hơn và có khả năng tương tác với môi trường xung quanh.

Google Sử Dụng Robot để Trình Diễn Khả Năng của Mô Hình AI Gemini