Google Gemini: Khả năng phân tích dữ liệu không như lời quảng cáo

Google Gemini: Khả năng phân tích dữ liệu không như lời quảng cáo

Mục lục:

  • Gemini: Lời hứa về khả năng xử lý dữ liệu khổng lồ
  • Nghiên cứu cho thấy Gemini không thực sự hiểu dữ liệu
  • Khoa học đằng sau context window của Gemini
  • Kết quả nghiên cứu: Gemini thất bại trong các thử nghiệm thực tế
  • Google liệu có đang hứa hẹn quá nhiều với Gemini?
  • Sự nghi ngờ ngày càng tăng đối với AI thế hệ mới
  • Cần có những đánh giá khách quan hơn về AI

1. Gemini: Lời hứa về khả năng xử lý dữ liệu khổng lồ

Google đã giới thiệu Gemini 1.5 Pro và 1.5 Flash, những mô hình AI thế hệ mới, với khả năng xử lý và phân tích dữ liệu khổng lồ. Google tuyên bố Gemini có thể hoàn thành những nhiệm vụ tưởng chừng bất khả thi nhờ vào context window rộng lớn, như tóm tắt hàng trăm trang tài liệu hoặc tìm kiếm thông tin xuyên suốt các cảnh quay trong phim.

2. Nghiên cứu cho thấy Gemini không thực sự hiểu dữ liệu

Tuy nhiên, các nghiên cứu mới đây đã chỉ ra rằng, thực tế, Gemini không giỏi trong việc xử lý khối lượng dữ liệu lớn như lời quảng cáo. Hai nghiên cứu độc lập đã đánh giá khả năng của Gemini 1.5 Pro và 1.5 Flash trong việc xử lý những tác phẩm văn học dài như Chiến tranh và Hòa bình. Kết quả cho thấy, cả hai mô hình đều gặp khó khăn trong việc trả lời chính xác các câu hỏi về tập dữ liệu khổng lồ. Trong một loạt các bài kiểm tra dựa trên tài liệu, Gemini chỉ đạt tỷ lệ chính xác khoảng 40% - 50%.

3. Khoa học đằng sau context window của Gemini

Context window là lượng dữ liệu đầu vào (ví dụ: văn bản) mà mô hình AI xem xét trước khi tạo ra đầu ra (ví dụ: văn bản bổ sung). Một câu hỏi đơn giản như Ai đã chiến thắng cuộc bầu cử tổng thống Mỹ năm 2020? có thể đóng vai trò là context, cũng như kịch bản phim, chương trình truyền hình hay clip âm thanh. Khi context window càng lớn, kích thước của các tài liệu được đưa vào cũng càng lớn.

Các phiên bản mới nhất của Gemini có thể tiếp nhận hơn 2 triệu token làm context. (Token là các bit dữ liệu được phân chia, ví dụ: các âm tiết fan, tas và tic trong từ fantastic). Điều này tương đương với khoảng 1,4 triệu từ, hai giờ video hoặc 22 giờ âm thanh, context window lớn nhất trong bất kỳ mô hình thương mại nào hiện nay.

4. Kết quả nghiên cứu: Gemini thất bại trong các thử nghiệm thực tế

Trong một trong những nghiên cứu đánh giá khả năng xử lý dữ liệu của Gemini, các nhà nghiên cứu đã yêu cầu mô hình đánh giá các câu khẳng định đúng/sai về những cuốn sách hư cấu bằng tiếng Anh. Các nhà nghiên cứu đã chọn những tác phẩm gần đây để đảm bảo Gemini không thể lừa đảo bằng cách dựa vào kiến thức trước đó. Họ đã thêm vào các khẳng định những chi tiết và điểm cốt truyện cụ thể, vốn không thể hiểu được nếu không đọc toàn bộ cuốn sách.

Khi được đưa ra một câu khẳng định như Bằng cách sử dụng kỹ năng của mình với tư cách là một Apoth, Nusis có thể tái tạo lại loại cổng được mở ra bởi chìa khóa phản ứng được tìm thấy trong chiếc rương gỗ của Rona, Gemini 1.5 Pro và 1.5 Flash - sau khi đọc hết cuốn sách liên quan - phải xác định câu khẳng định đó là đúng hay sai và giải thích lý do.

Với một cuốn sách dài khoảng 260.000 từ (~520 trang), Gemini 1.5 Pro trả lời chính xác 46,7% các câu khẳng định đúng/sai, trong khi Flash chỉ đạt 20%. Điều này có nghĩa là một đồng xu còn có khả năng trả lời chính xác hơn mô hình AI mới nhất của Google. Trung bình tất cả các kết quả đánh giá, không mô hình nào đạt được tỷ lệ chính xác cao hơn ngẫu nhiên trong việc trả lời câu hỏi.

5. Google liệu có đang hứa hẹn quá nhiều với Gemini?

Cả hai nghiên cứu đều chưa được bình duyệt, cũng như không đánh giá phiên bản Gemini 1.5 Pro và 1.5 Flash với context window 2 triệu token. (Cả hai nghiên cứu đều đánh giá phiên bản 1 triệu token). Và Flash không được thiết kế để có hiệu năng cao như Pro; Google quảng cáo Flash là một lựa chọn thay thế giá rẻ.

Tuy nhiên, cả hai nghiên cứu đều bổ sung thêm bằng chứng cho thấy Google đã hứa hẹn quá nhiều - và giao hàng không đủ - với Gemini ngay từ đầu. Không một mô hình nào được các nhà nghiên cứu thử nghiệm, bao gồm cả GPT-4 của OpenAI và Claude 3.5 Sonnet của Anthropic, đạt được hiệu suất tốt. Nhưng Google là nhà cung cấp mô hình duy nhất đưa context window lên hàng đầu trong các quảng cáo của mình.

6. Sự nghi ngờ ngày càng tăng đối với AI thế hệ mới

Nói chung, AI thế hệ mới đang phải đối mặt với sự giám sát ngày càng tăng khi các doanh nghiệp (và các nhà đầu tư) ngày càng thất vọng với những hạn chế của công nghệ này.

Trong hai cuộc khảo sát gần đây của Boston Consulting Group, khoảng một nửa số người được hỏi - tất cả là giám đốc điều hành - cho biết họ không kỳ vọng AI thế hệ mới sẽ mang lại năng suất lao động đáng kể và họ lo ngại về khả năng xảy ra lỗi và rủi ro dữ liệu do các công cụ được hỗ trợ bởi AI thế hệ mới gây ra. PitchBook gần đây đã báo cáo rằng, trong hai quý liên tiếp, hoạt động giao dịch AI thế hệ mới ở giai đoạn đầu đã giảm, giảm 76% so với mức đỉnh điểm của quý 3 năm 2023.

Đối mặt với các chatbot tóm tắt cuộc họp mà tạo ra những chi tiết hư cấu về con người và các nền tảng tìm kiếm AI về cơ bản là các máy phát sinh đạo văn, khách hàng đang tìm kiếm những điểm khác biệt đầy hứa hẹn. Google - vốn đã phải chạy đua, đôi khi vụng về, để theo kịp các đối thủ AI thế hệ mới của mình - rất muốn biến context window của Gemini thành một trong những điểm khác biệt đó.

7. Cần có những đánh giá khách quan hơn về AI

Chúng tôi chưa tìm ra cách để thực sự chứng minh rằng 'lý luận' hoặc 'hiểu biết' về các tài liệu dài đang diễn ra, và về cơ bản mọi nhóm phát hành các mô hình này đều đang kết hợp những đánh giá độc lập của riêng mình để đưa ra những tuyên bố này, Karpinska nói. Không có kiến thức về cách xử lý context dài được thực hiện - và các công ty không chia sẻ những chi tiết này - rất khó để nói rằng những tuyên bố này có tính thực tế đến mức nào.

Google đã không trả lời yêu cầu bình luận.

Cả Saxon và Karpinska đều tin rằng giải pháp cho những tuyên bố thổi phồng xung quanh AI thế hệ mới là những đánh giá tốt hơn và, theo cách tương tự, tập trung nhiều hơn vào phê bình của bên thứ ba. Saxon lưu ý rằng một trong những bài kiểm tra phổ biến hơn cho context dài (được Google trích dẫn một cách rộng rãi trong các tài liệu tiếp thị của mình), kim trong bó rơm, chỉ đo lường khả năng của mô hình trong việc truy xuất thông tin cụ thể, như tên và số, từ tập dữ liệu - chứ không phải trả lời các câu hỏi phức tạp về thông tin đó.

Tất cả các nhà khoa học và hầu hết các kỹ sư sử dụng những mô hình này đều đồng ý rằng văn hóa đánh giá hiện tại của chúng ta đã lỗi thời, Saxon nói, vì vậy điều quan trọng là công chúng phải hiểu rằng cần phải xem xét những báo cáo khổng lồ chứa những con số như 'trí thông minh chung trên các điểm chuẩn' với một lượng muối khổng lồ.

Logo Google Gemini

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top