Google đang huấn luyện robot thông minh hơn với Gemini AI

Mục lục

Gemini AI giúp robot điều hướng và thực hiện nhiệm vụ
Gemini 1.5 Pro: Khả năng xử lý thông tin dài
Robot xem video để học hỏi môi trường
Robot hiểu yêu cầu phức tạp hơn
Hiệu quả và những hạn chế

1. Gemini AI giúp robot điều hướng và thực hiện nhiệm vụ

Google đang sử dụng Gemini AI để huấn luyện robot của mình, giúp chúng thông minh hơn trong việc điều hướng và thực hiện nhiệm vụ. Nhóm nghiên cứu robot của DeepMind đã công bố một bài báo mới giải thích cách sử dụng Gemini 1.5 Pro, với khả năng xử lý thông tin dài, cho phép người dùng tương tác dễ dàng hơn với robot RT-2 bằng ngôn ngữ tự nhiên.

2. Gemini 1.5 Pro: Khả năng xử lý thông tin dài

Gemini 1.5 Pro có khả năng xử lý thông tin dài, cho phép nó ghi nhớ và hiểu được nhiều thông tin hơn. Điều này giúp robot học hỏi và hiểu được yêu cầu của người dùng một cách chính xác hơn.

3. Robot xem video để học hỏi môi trường

Cách thức hoạt động của hệ thống này là quay video một khu vực nhất định, như nhà hoặc văn phòng, rồi sử dụng Gemini 1.5 Pro để robot xem video và học hỏi về môi trường. Sau đó, robot có thể thực hiện các lệnh dựa trên những gì nó đã quan sát, bằng cách sử dụng đầu ra bằng lời nói hoặc hình ảnh. Ví dụ, sau khi được hiển thị một chiếc điện thoại và yêu cầu Nơi nào tôi có thể sạc cái này?, robot có thể dẫn người dùng đến ổ cắm điện.

4. Robot hiểu yêu cầu phức tạp hơn

Nhóm nghiên cứu cũng phát hiện ra bằng chứng sơ bộ cho thấy Gemini 1.5 Pro cho phép robot lên kế hoạch thực hiện các yêu cầu phức tạp hơn, không chỉ điều hướng. Ví dụ, khi một người dùng có nhiều lon Coca trên bàn hỏi robot xem đồ uống yêu thích của họ có sẵn hay không, Gemini biết rằng robot nên di chuyển đến tủ lạnh, kiểm tra xem có Coca hay không, sau đó quay lại báo cáo kết quả cho người dùng.

5. Hiệu quả và những hạn chế

DeepMind cho biết robot được trang bị Gemini đạt tỷ lệ thành công 90% trong hơn 50 lệnh người dùng được đưa ra trong một khu vực hoạt động rộng hơn 9.000 feet vuông. Tuy nhiên, theo bài báo, mặc dù các minh họa video do Google cung cấp rất ấn tượng, nhưng các đoạn cắt rõ ràng sau khi robot xác nhận mỗi yêu cầu che giấu việc xử lý các lệnh này mất từ 10 đến 30 giây. Do đó, có thể cần một thời gian trước khi chúng ta chia sẻ nhà cửa với robot lập bản đồ môi trường nâng cao hơn, nhưng ít nhất những robot này có thể tìm thấy chìa khóa hoặc ví bị mất của chúng ta.

Google đang huấn luyện robot thông minh hơn với Gemini AI