Giải pháp mới cho vấn đề ảo tưởng của AI: Chatbot giám sát chatbot
Mục lục:
- Vấn đề ảo tưởng của AI
- Giải pháp mới: Chatbot giám sát
- Cách thức hoạt động của chatbot giám sát
- Kết quả nghiên cứu
- Những hạn chế và bước tiếp theo
1. Vấn đề ảo tưởng của AI
Công nghệ AI thế hệ mới, như ChatGPT và Google's Gemini, đang đối mặt với một vấn đề nan giải: ảo tưởng. Khi được cung cấp một câu hỏi, các thuật toán đôi khi đưa ra những câu trả lời vô lý hoặc thậm chí là hài hước, nhưng lại tỏ ra rất tự tin. Hiện tượng này đã dẫn đến những sự cố công khai đáng xấu hổ. Ví dụ, trong tháng 5 vừa qua, Google đã thử nghiệm tính năng AI Overviews, cung cấp tóm tắt do AI tạo ra ở trên kết quả tìm kiếm. Tuy nhiên, tính năng này đã khiến người dùng hoang mang khi đưa ra lời khuyên như sử dụng keo không độc hại để giúp phô mai dính chặt vào pizza, hoặc sử dụng xăng để làm món mì Ý cay. Một truy vấn khác về lối sống lành mạnh thậm chí còn đề xuất con người nên ăn một viên đá mỗi ngày.
Mặc dù việc dán pizza bằng keo hay ăn đá có vẻ buồn cười và có thể dễ dàng bỏ qua, nhưng vấn đề ảo tưởng của AI lại nghiêm trọng hơn nhiều. Các câu trả lời được tạo ra thường nghe có vẻ hợp lý và đáng tin cậy, ngay cả khi chúng không dựa trên sự thật. Chính vì sự tự tin của AI, người ta thường có xu hướng tin tưởng những câu trả lời này. Khi công nghệ này được tích hợp thêm vào các lĩnh vực y tế hoặc giáo dục, ảo tưởng của AI có thể dẫn đến những hậu quả nghiêm trọng và trở thành nguồn gốc của thông tin sai lệch.
2. Giải pháp mới: Chatbot giám sát
Để giải quyết vấn đề này, một nghiên cứu mới được công bố trên tạp chí Nature đã đưa ra một ý tưởng độc đáo: Sử dụng một công cụ AI thứ hai như một cảnh sát chân lý để phát hiện khi nào chatbot chính đang bị ảo tưởng. Công cụ này, cũng là một mô hình ngôn ngữ lớn, có khả năng phát hiện ra những câu trả lời không chính xác được tạo bởi AI. Sau đó, một AI thứ ba sẽ đánh giá hiệu quả của cảnh sát chân lý.
3. Cách thức hoạt động của chatbot giám sát
Các mô hình ngôn ngữ lớn là những hệ thống AI phức tạp được xây dựng trên các mạng lưới đa lớp, mô phỏng lỏng lẻo bộ não con người. Để huấn luyện một mạng lưới cho một nhiệm vụ cụ thể, chẳng hạn như phản hồi văn bản giống như con người, mô hình sẽ tiếp nhận một lượng lớn dữ liệu được thu thập từ các nguồn trực tuyến, bao gồm các bài báo, sách, bình luận trên Reddit và YouTube, và chú thích trên Instagram hoặc TikTok.
Dữ liệu này giúp các mô hình nắm bắt cách thức hoạt động của ngôn ngữ. Chúng hoàn toàn không biết đến sự thật. Các câu trả lời của chúng dựa trên dự đoán thống kê về cách các từ và câu có thể kết nối với nhau, và điều gì có khả năng xuất hiện tiếp theo, dựa trên những ví dụ đã được học.
Tuy nhiên, các thuật toán này không có được lòng thông thường như con người, đôi khi dẫn đến những câu trả lời bịa đặt vô nghĩa. Thuật ngữ ảo tưởng được sử dụng để chỉ nhiều loại lỗi khác nhau từ các kết quả được tạo bởi AI, những lỗi này không phù hợp với ngữ cảnh hoặc hoàn toàn sai sự thật.
Nhóm nghiên cứu của Farquhar đã tập trung vào một loại ảo tưởng của AI, được gọi là confabulations. Loại ảo tưởng này đặc biệt đáng chú ý vì chúng liên tục đưa ra những câu trả lời sai lệch dựa trên các câu hỏi, nhưng bản thân những câu trả lời lại rất đa dạng. Nói cách khác, AI bịa đặt những câu trả lời sai, và phản hồi của chúng thay đổi khi được hỏi cùng một câu hỏi nhiều lần.
Confabulations liên quan đến hoạt động nội bộ của AI, không liên quan đến câu hỏi được đưa ra.
Nghiên cứu mới đã tận dụng những sai sót của AI. Đầu tiên, nhóm nghiên cứu yêu cầu một mô hình ngôn ngữ lớn đưa ra gần một tá phản hồi cho cùng một câu hỏi, sau đó phân loại các câu trả lời bằng một mô hình tương tự thứ hai. Giống như một giáo viên tiếng Anh, AI thứ hai tập trung vào ý nghĩa và sắc thái hơn là các chuỗi từ cụ thể.
Ví dụ, khi được hỏi nhiều lần Mặt trăng lớn nhất trong hệ mặt trời là gì?, AI đầu tiên trả lời Ganymede của sao Mộc, Nó là Ganymede, Titan, hoặc Titan là mặt trăng của sao Thổ.
AI thứ hai sau đó đo lường mức độ ngẫu nhiên của phản hồi, sử dụng kỹ thuật entropy ngữ nghĩa đã có từ nhiều thập kỷ. Phương pháp này nắm bắt ý nghĩa của từ viết trong một câu, đoạn văn hoặc ngữ cảnh nhất định, thay vì định nghĩa nghiêm ngặt của nó.
Nói cách khác, nó phát hiện ra việc diễn đạt lại. Nếu các câu trả lời của AI tương đối giống nhau, chẳng hạn như Ganymede của sao Mộc hoặc Nó là Ganymede, thì điểm entropy sẽ thấp. Nhưng nếu câu trả lời của AI rất khác nhau, như Nó là Ganymede và Titan, thì nó sẽ tạo ra điểm số cao hơn, báo động rằng mô hình có khả năng đang bịa đặt câu trả lời của mình.
Sau đó, AI cảnh sát chân lý nhóm các phản hồi thành các nhóm dựa trên entropy của chúng, những nhóm có điểm số thấp hơn được coi là đáng tin cậy hơn.
Cuối cùng, nhóm nghiên cứu yêu cầu hai người tham gia đánh giá mức độ chính xác của mỗi câu trả lời được tạo ra. Một mô hình ngôn ngữ lớn thứ ba đóng vai trò thẩm phán. AI này so sánh các câu trả lời từ hai bước đầu tiên với câu trả lời của con người. Nhìn chung, hai thẩm phán con người đồng ý với nhau ở mức độ tương tự như thẩm phán AI, hơn 90% thời gian.
4. Kết quả nghiên cứu
AI cảnh sát chân lý cũng phát hiện ra confabulations đối với các câu chuyện phức tạp hơn, bao gồm các sự thật về cuộc đời của Freddie Frith, một tay đua mô tô nổi tiếng. Khi được hỏi cùng một câu hỏi nhiều lần, AI đầu tiên đôi khi thay đổi các sự thật cơ bản, chẳng hạn như thời điểm Frith được sinh ra, và đã bị cảnh sát chân lý AI phát hiện. Giống như các thám tử thẩm vấn nghi phạm, các thành phần AI bổ sung có thể kiểm tra thực tế các câu chuyện, câu trả lời kiến thức và kết quả tìm kiếm phổ biến dựa trên các truy vấn Google thực tế.
Các mô hình ngôn ngữ lớn dường như giỏi trong việc biết những gì chúng không biết, nhóm nghiên cứu đã viết trong bài báo, chúng chỉ không biết [rằng] chúng biết những gì chúng không biết. AI cảnh sát chân lý và AI thẩm phán thêm một loại kiểm tra sự tỉnh táo cho mô hình gốc.
5. Những hạn chế và bước tiếp theo
Tuy nhiên, điều đó không có nghĩa là thiết lập này hoàn hảo. Confabulation chỉ là một loại ảo tưởng của AI. Những loại khác cứng đầu hơn. Ví dụ, AI có thể tự tin tạo ra cùng một câu trả lời sai mỗi lần. Bộ phát hiện lời nói dối AI cũng không giải quyết vấn đề thông tin sai lệch được tạo ra đặc biệt để chiếm đoạt các mô hình nhằm mục đích lừa đảo.
Chúng tôi tin rằng những điều này đại diện cho các cơ chế cơ bản khác nhau, mặc dù có triệu chứng tương tự, và cần được xử lý riêng biệt, nhóm nghiên cứu giải thích trong bài báo của họ.
Trong khi đó, Google DeepMind cũng đang khám phá việc bổ sung tự nhất quán phổ quát vào các mô hình ngôn ngữ lớn của họ để có được câu trả lời chính xác hơn và tóm tắt chính xác hơn các văn bản dài hơn.
Khung nghiên cứu mới có thể được tích hợp vào các hệ thống AI hiện tại, nhưng với chi phí năng lượng tính toán cao và thời gian trễ dài hơn. Ở bước tiếp theo, chiến lược này có thể được thử nghiệm cho các mô hình ngôn ngữ lớn khác, để xem việc hoán đổi từng thành phần có tạo ra sự khác biệt về độ chính xác hay không.
Tuy nhiên, trong quá trình này, các nhà khoa học sẽ phải xác định liệu cách tiếp cận này có thực sự kiểm soát đầu ra của các mô hình ngôn ngữ lớn hay không, Verspoor viết. Việc sử dụng LLM để đánh giá phương pháp dựa trên LLM có vẻ vòng tròn và có thể bị thiên vị.

0 comments Blogger 0 Facebook
Đăng nhận xét