Waymo Sử Dụng Gemini của Google để Huấn Luyện Xe Tự Lái

Mục lục

  1. Giới thiệu
  2. Mô hình EMMA
  3. Ưu điểm của MLLMs trong Huấn Luyện Xe Tự Lái
  4. Ứng dụng của EMMA
  5. So sánh với Tesla
  6. Hạn chế của EMMA
  7. Rủi ro tiềm ẩn và nghiên cứu trong tương lai

1. Giới thiệu

Bài báo từ The Verge trình bày về việc Waymo, công ty con của Alphabet, đang sử dụng mô hình ngôn ngữ lớn đa phương thức (MLLM) Gemini của Google để huấn luyện xe tự lái của mình.

Waymo đã công bố một nghiên cứu mới giới thiệu mô hình EMMA (End-to-End Multimodal Model for Autonomous Driving), dựa trên Gemini. EMMA xử lý dữ liệu cảm biến để tạo ra "quỹ đạo di chuyển trong tương lai cho xe tự lái", giúp xe đưa ra quyết định về lộ trình và cách tránh vật cản.

2. Mô hình EMMA

EMMA là một mô hình huấn luyện "tất cả trong một" (end-to-end), nghĩa là nó kết hợp nhiều chức năng khác nhau trong một hệ thống duy nhất, bao gồm:

  • Nhận thức (Perception): Phân tích dữ liệu từ cảm biến để hiểu môi trường xung quanh.
  • Lập bản đồ (Mapping): Tạo bản đồ 3D của môi trường.
  • Dự đoán (Prediction): Dự đoán hành động của các đối tượng khác trên đường.
  • Lập kế hoạch (Planning): Lập kế hoạch đường đi cho xe tự lái.

3. Ưu điểm của MLLMs trong Huấn Luyện Xe Tự Lái

Cách tiếp cận truyền thống sử dụng các mô hình chuyên biệt cho từng chức năng có thể gặp hạn chế về khả năng mở rộng và thích nghi với môi trường mới. Waymo cho rằng MLLMs như Gemini có thể giải quyết vấn đề này vì:

  • Kiến thức tổng quát (Generalist): Gemini được đào tạo trên lượng dữ liệu khổng lồ từ Internet, cung cấp kiến thức rộng lớn về thế giới.
  • Khả năng suy luận (Reasoning): Gemini có khả năng suy luận nâng cao thông qua các kỹ thuật như "suy luận chuỗi suy nghĩ" (chain-of-thought reasoning), mô phỏng cách con người suy luận logic.

4. Ứng dụng của EMMA

Waymo đã sử dụng EMMA để huấn luyện xe tự lái của mình trong các tình huống phức tạp như:

  • Gặp động vật trên đường.
  • Di chuyển trong khu vực đang thi công.

5. So sánh với Tesla

Tesla cũng đang phát triển các mô hình "tất cả trong một" cho xe tự lái của mình. Tuy nhiên, Waymo có lợi thế trong việc triển khai xe tự lái thực tế trên đường, và việc sử dụng Gemini cho thấy họ đang nghiêm túc trong việc theo đuổi công nghệ end-to-end.

6. Hạn chế của EMMA

EMMA hiện vẫn có một số hạn chế:

  • Không thể kết hợp dữ liệu 3D từ lidar hoặc radar.
  • Chỉ có thể xử lý một lượng nhỏ khung hình hình ảnh cùng một lúc.

7. Rủi ro tiềm ẩn và nghiên cứu trong tương lai

MLLMs như Gemini có thể "ảo tưởng" (hallucinate) hoặc gặp lỗi trong các nhiệm vụ đơn giản. Waymo thừa nhận cần nghiên cứu thêm để khắc phục các vấn đề này và đảm bảo độ an toàn cao cho xe tự lái.

Kết luận

Việc Waymo sử dụng Gemini để huấn luyện xe tự lái cho thấy tiềm năng của MLLMs trong lĩnh vực này. Tuy nhiên, việc ứng dụng công nghệ này vào thực tế vẫn cần nhiều nghiên cứu và phát triển thêm để đảm bảo độ tin cậy và an toàn.

Logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top