Mục lục:

  1. Giới thiệu
  2. Khả năng của Mô hình Ngôn ngữ Lớn (LLM)
  3. Phương pháp nghiên cứu
  4. Kết quả nghiên cứu
  5. Kết luận và hướng phát triển

1. Giới thiệu

Một nghiên cứu gần đây được công bố trên tạp chí Scientific Reports đã cho thấy một số chatbot AI tiên tiến có khả năng đánh giá tình huống xã hội tốt hơn con người. Sử dụng bài kiểm tra đánh giá tình huống (Situational Judgment Test - SJT), một công cụ tâm lý được sử dụng rộng rãi, các nhà nghiên cứu phát hiện ra rằng ba chatbot — Claude, Microsoft Copilot và trợ lý thông minh của you.com — đã vượt trội hơn người tham gia là con người trong việc lựa chọn phản ứng hành vi hiệu quả nhất.

Ảnh minh họa: Trí tuệ nhân tạo

Khả năng của AI trong hỗ trợ tương tác xã hội ngày càng trở nên quan trọng, với các ứng dụng đa dạng từ dịch vụ khách hàng đến hỗ trợ sức khỏe tâm thần. Tuy nhiên, hiệu quả của AI trong việc điều hướng các động lực xã hội phức tạp vẫn chưa được khám phá đầy đủ.

2. Khả năng của Mô hình Ngôn ngữ Lớn (LLM)

Mô hình ngôn ngữ lớn là hệ thống trí tuệ nhân tạo tiên tiến được thiết kế để hiểu và tạo ra văn bản giống như con người. Chúng được huấn luyện trên một lượng dữ liệu khổng lồ — sách, bài báo, trang web và các nguồn văn bản khác — cho phép chúng học các mẫu trong ngôn ngữ, ngữ cảnh và ý nghĩa. Khả năng này cho phép LLM thực hiện nhiều nhiệm vụ, từ trả lời câu hỏi, dịch ngôn ngữ đến viết bài luận và tham gia vào các cuộc trò chuyện chi tiết. Khác với các mô hình AI trước đây, LLM dựa vào khả năng xử lý ngữ cảnh và tạo ra các phản hồi thường mang tính đối thoại và phù hợp với đầu vào của người dùng.

3. Phương pháp nghiên cứu

Để đánh giá hiệu suất của AI, các nhà nghiên cứu đã sử dụng bài kiểm tra đánh giá tình huống (SJT), một công cụ được sử dụng rộng rãi trong tâm lý học và đánh giá nhân sự để đo lường năng lực xã hội. Bài kiểm tra trình bày 12 tình huống đòi hỏi người tham gia đánh giá bốn hành động tiềm năng. Đối với mỗi tình huống, người tham gia được giao nhiệm vụ xác định phản hồi tốt nhất và tệ nhất, được đánh giá bởi một hội đồng gồm 109 chuyên gia.

Nghiên cứu so sánh hiệu suất của năm chatbot AI — Claude, Microsoft Copilot, ChatGPT, Google Gemini và trợ lý thông minh của you.com — với 276 người tham gia. Những người tham gia này là các ứng viên phi công được chọn lọc dựa trên trình độ học vấn cao và động lực. Hiệu suất của họ cung cấp một tiêu chuẩn đánh giá nghiêm ngặt cho các hệ thống AI. Mỗi chatbot đã hoàn thành bài kiểm tra SJT mười lần, với thứ tự trình bày ngẫu nhiên để đảm bảo kết quả nhất quán. Sau đó, các phản hồi được chấm điểm dựa trên mức độ phù hợp với các lựa chọn tốt nhất và tệ nhất do chuyên gia xác định.

4. Kết quả nghiên cứu

Các nhà nghiên cứu phát hiện ra rằng tất cả các chatbot AI được thử nghiệm đều hoạt động ít nhất ngang bằng với người tham gia, và một số thậm chí còn vượt trội hơn. Trong số các chatbot, Claude đạt điểm trung bình cao nhất, tiếp theo là Microsoft Copilot và trợ lý thông minh của you.com. Ba hệ thống này liên tục lựa chọn phản hồi hiệu quả nhất trong các tình huống bài kiểm tra SJT, phù hợp chặt chẽ với đánh giá của chuyên gia.

Điều thú vị là, khi chatbot không chọn được phản hồi tốt nhất, chúng thường chọn lựa chọn hiệu quả thứ hai, phản ánh mô hình ra quyết định của người tham gia. Điều này cho thấy rằng các hệ thống AI, mặc dù không hoàn hảo, có khả năng đưa ra đánh giá tinh tế và lập luận xác suất giống với quá trình suy nghĩ của con người.

5. Kết luận và hướng phát triển

Nghiên cứu cho thấy các hệ thống AI ngày càng có khả năng bắt chước phán đoán xã hội của con người. Những tiến bộ này mở ra cơ hội cho các ứng dụng thực tiễn, bao gồm hướng dẫn cá nhân trong các lĩnh vực xã hội và chuyên nghiệp, cũng như tiềm năng sử dụng trong hỗ trợ sức khỏe tâm thần. Tuy nhiên, cần lưu ý rằng nghiên cứu tập trung vào các kịch bản mô phỏng hơn là tương tác trong thế giới thực. Do đó, cần nghiên cứu thêm để đánh giá hiệu suất của AI trong các thiết lập xã hội năng động và có rủi ro cao.

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top