Các chuyên gia AI chuẩn bị "Kỳ thi cuối cùng của nhân loại" để thử thách công nghệ mạnh mẽ

Các chuyên gia công nghệ đang kêu gọi trên toàn cầu những câu hỏi hóc búa nhất để đặt ra cho các hệ thống trí tuệ nhân tạo (AI), vốn đang ngày càng dễ dàng vượt qua các bài kiểm tra chuẩn mực phổ biến như trò chơi trẻ con.

Dự án mang tên "Kỳ thi cuối cùng của nhân loại" (Humanity's Last Exam) do Trung tâm An toàn AI (CAIS) và Scale AI khởi xướng, nhằm xác định thời điểm AI đạt đến trình độ chuyên gia. Mục tiêu của dự án là duy trì tính phù hợp ngay cả khi khả năng của AI tiếp tục phát triển trong những năm tới.

Lời kêu gọi này được đưa ra chỉ vài ngày sau khi nhà sản xuất ChatGPT giới thiệu một mô hình mới, gọi là OpenAI o1, "đã phá vỡ các tiêu chuẩn đánh giá lý luận phổ biến nhất", theo Dan Hendrycks, giám đốc điều hành của CAIS và cố vấn cho xAI – startup của Elon Musk.

Hendrycks là đồng tác giả của hai bài báo năm 2021 đề xuất các bài kiểm tra hệ thống AI hiện đang được sử dụng rộng rãi. Một bài kiểm tra kiến thức của sinh viên đại học về các chủ đề như lịch sử Hoa Kỳ, bài còn lại là khả năng giải quyết các bài toán cấp độ thi đấu. Bài kiểm tra theo phong cách đại học đã được tải xuống nhiều hơn bất kỳ bộ dữ liệu nào khác từ trung tâm AI trực tuyến Hugging Face.

Vào thời điểm các bài báo đó được xuất bản, AI thường đưa ra các câu trả lời gần như ngẫu nhiên cho các câu hỏi trong bài kiểm tra. "Giờ đây, chúng đã bị vượt mặt hoàn toàn", Hendrycks chia sẻ với Reuters.

Chẳng hạn, các mô hình Claude từ phòng thí nghiệm AI Anthropic đã tăng điểm từ khoảng 77% trong bài kiểm tra cấp độ đại học vào năm 2023 lên gần 89% một năm sau, theo bảng xếp hạng khả năng nổi bật.

Kết quả này khiến các tiêu chuẩn đánh giá thông thường trở nên ít ý nghĩa hơn.

Theo Báo cáo Chỉ số AI của Đại học Stanford hồi tháng Tư, AI dường như đạt điểm thấp trong các bài kiểm tra ít được sử dụng hơn, bao gồm việc xây dựng kế hoạch và giải quyết các câu đố nhận dạng mẫu hình trực quan. Ví dụ, OpenAI o1 đạt khoảng 21% trong một phiên bản bài kiểm tra ARC-AGI về nhận dạng mẫu hình, theo các nhà tổ chức ARC cho biết vào thứ Sáu.

Một số nhà nghiên cứu AI cho rằng những kết quả này cho thấy khả năng lập kế hoạch và tư duy trừu tượng là những thước đo trí thông minh tốt hơn. Tuy nhiên, Hendrycks cho rằng khía cạnh trực quan của ARC khiến nó không phù hợp để đánh giá các mô hình ngôn ngữ. "Kỳ thi cuối cùng của nhân loại" sẽ yêu cầu tư duy trừu tượng, ông nhấn mạnh.

Các nhà quan sát ngành công nghiệp cũng cho rằng các câu trả lời từ các bài kiểm tra phổ biến có thể đã xuất hiện trong dữ liệu được sử dụng để huấn luyện các hệ thống AI. Hendrycks cho biết một số câu hỏi trong "Kỳ thi cuối cùng của nhân loại" sẽ được giữ bí mật để đảm bảo các câu trả lời của AI không đến từ việc ghi nhớ.

Kỳ thi sẽ bao gồm ít nhất 1.000 câu hỏi được cộng đồng mạng đóng góp vào ngày 1 tháng 11, những câu hỏi này khó đối với những người không phải chuyên gia. Sau đó, các câu hỏi sẽ trải qua quá trình bình duyệt, những câu hỏi xuất sắc nhất sẽ được cộng tác viên và nhận giải thưởng lên đến 5.000 USD do Scale AI tài trợ.

"Chúng ta rất cần những bài kiểm tra khó hơn cho các mô hình cấp độ chuyên gia để đo lường sự tiến bộ nhanh chóng của AI", Alexandr Wang, Giám đốc điều hành của Scale, cho biết.

Một điều kiện tiên quyết: các nhà tổ chức không muốn có câu hỏi nào liên quan đến vũ khí, vì một số người cho rằng việc AI nghiên cứu về lĩnh vực này quá nguy hiểm.

Các chuyên gia AI chuẩn bị "Kỳ thi cuối cùng của nhân loại" để thử thách công nghệ mạnh mẽ