Bài viết: "Kỳ thi cuối cùng của nhân loại" ra đời nhằm thử thách trí tuệ nhân tạo

Giới thiệu:

Trong bối cảnh trí tuệ nhân tạo (AI) ngày càng phát triển mạnh mẽ và vượt qua nhiều thử thách từng được xem là khó nhằn, một nhóm chuyên gia công nghệ đã đưa ra một sáng kiến mới: "Kỳ thi cuối cùng của nhân loại" (Humanity's Last Exam). Mục tiêu của dự án này là tạo ra một bài kiểm tra khó khăn nhằm đánh giá khả năng của AI ở cấp độ chuyên gia và xác định thời điểm mà AI thực sự đạt đến đỉnh cao trí tuệ.

Mục đích và ý nghĩa:

"Kỳ thi cuối cùng của nhân loại" được khởi xướng bởi Trung tâm An toàn Trí tuệ nhân tạo (CAIS) và công ty khởi nghiệp Scale AI. Dự án này nhằm giải quyết vấn đề các bài kiểm tra chuẩn thông thường đang dần trở nên lỗi thời khi AI dễ dàng vượt qua chúng. Các chuyên gia nhận thấy AI đã đạt được những bước tiến vượt bậc trong việc giải quyết các bài toán logic và kiến thức cơ bản, thậm chí vượt xa con người trong một số lĩnh vực.

Dan Hendrycks, giám đốc điều hành của CAIS và cố vấn cho xAI (công ty khởi nghiệp của Elon Musk), cho biết AI đã "phá hủy" các bài kiểm tra lý luận phổ biến nhất. Ông là đồng tác giả của hai bài báo năm 2021 đề xuất các bài kiểm tra AI, bao gồm một bài kiểm tra kiến thức đại học (lịch sử Mỹ,…) và một bài kiểm tra tư duy toán học cấp độ thi đấu. Trước đây, AI thường đưa ra các câu trả lời ngẫu nhiên cho các câu hỏi trong các bài kiểm tra này, nhưng hiện tại, AI đã vượt trội hơn rất nhiều. Chẳng hạn, mô hình Claude của Anthropic đã tăng điểm từ 77% lên gần 89% trong bài kiểm tra kiến thức đại học chỉ trong vòng một năm.

Thách thức AI với những bài toán mới:

Các bài kiểm tra thông thường đang mất đi ý nghĩa khi AI dễ dàng vượt qua. Theo Báo cáo Chỉ số AI của Đại học Stanford, AI dường như gặp khó khăn với các bài kiểm tra ít được sử dụng hơn, liên quan đến việc lập kế hoạch và nhận dạng các mẫu hình ảnh. Điều này cho thấy việc lập kế hoạch và tư duy trừu tượng có thể là những thước đo tốt hơn về trí thông minh. Tuy nhiên, Hendrycks cho rằng khía cạnh hình ảnh của các bài kiểm tra như ARC-AGI khiến nó không phù hợp để đánh giá các mô hình ngôn ngữ.

Bảo mật và tính minh bạch:

Một số chuyên gia ngành nhận thấy rằng các câu trả lời cho các bài kiểm tra chuẩn đã được đưa vào dữ liệu huấn luyện AI. Vì vậy, "Kỳ thi cuối cùng của nhân loại" sẽ bao gồm các câu hỏi được giữ bí mật để đảm bảo AI không sử dụng kỹ thuật ghi nhớ để trả lời.

Cách thức tham gia:

Kỳ thi sẽ bao gồm ít nhất 1000 câu hỏi do cộng đồng đóng góp. Thời hạn gửi câu hỏi là ngày 1 tháng 11. Các câu hỏi sẽ trải qua quá trình bình duyệt và những câu hỏi xuất sắc nhất sẽ được trao giải thưởng lên đến 5.000 USD do Scale AI tài trợ. Người tham gia được khuyến khích đưa ra những câu hỏi khó, thách thức người không chuyên, nhưng đồng thời không được liên quan đến vũ khí, một lĩnh vực mà các chuyên gia cho rằng AI không nên nghiên cứu.

Kết luận:

"Kỳ thi cuối cùng của nhân loại" là một nỗ lực đáng chú ý nhằm tạo ra một bài kiểm tra đủ sức thách thức trí tuệ nhân tạo. Dự án này có ý nghĩa quan trọng trong việc đánh giá chính xác khả năng của AI, từ đó giúp con người có cái nhìn rõ ràng hơn về tiềm năng và hạn chế của AI trong tương lai. Sự tham gia của cộng đồng trong việc đóng góp câu hỏi cũng góp phần vào sự minh bạch và tính cạnh tranh của bài kiểm tra này, đồng thời thúc đẩy sự phát triển AI theo hướng an toàn và có lợi cho con người.

Bài viết: "Kỳ thi cuối cùng của nhân loại" ra đời nhằm thử thách trí tuệ nhân tạo