Khi Chatbot AI "Bị Lôi Kéo": Thách Thức An Ninh Mới trong Thế Giới Trí Tuệ Nhân Tạo

Trong bối cảnh trí tuệ nhân tạo (AI) phát triển chóng mặt, một thách thức mới đã nổi lên: "Những kẻ thì thầm với AI" đang thử thách ranh giới đạo đức của AI bằng cách thuyết phục các chatbot vốn ngoan ngoãn vi phạm chính các quy tắc của chúng.

Được gọi là tiêm lệnh (prompt injection) hoặc "jailbreak" (phá vỡ chuồng), các phương thức khai thác này phơi bày những lỗ hổng trong hệ thống AI và làm dấy lên lo ngại về vấn đề an ninh. Gần đây, Microsoft đã gây xôn xao với kỹ thuật "Skeleton Key" - một quy trình đa bước được thiết kế để vượt qua các hàng rào đạo đức của AI. Tuy nhiên, phương pháp này không hoàn toàn mới mẻ như vẻ ngoài của nó.

"Skeleton Key độc đáo ở chỗ nó yêu cầu nhiều lần tương tác với AI", Chenta Lee, Kiến trúc sư trưởng về Tình báo Đe dọa của IBM giải thích. "Trước đây, hầu hết các cuộc tấn công tiêm lệnh đều nhằm mục đích gây nhầm lẫn cho AI chỉ trong một lần thử. Skeleton Key thực hiện nhiều lần tấn công, điều này có thể làm tăng tỷ lệ thành công."

Nghệ thuật thao túng AI

Thế giới của jailbreak AI đa dạng và luôn biến đổi. Một số cuộc tấn công đơn giản đến đáng kinh ngạc, trong khi những cuộc tấn công khác lại phức tạp, đòi hỏi chuyên môn của các hacker tinh vi. Điểm chung của chúng là một mục tiêu: đẩy các trợ lý kỹ thuật số này vượt quá giới hạn lập trình của chúng.

Các phương thức khai thác này tận dụng bản chất của các mô hình ngôn ngữ. Chatbot AI được đào tạo để hữu ích và hiểu ngữ cảnh. Những kẻ jailbreak tạo ra các tình huống mà AI tin rằng việc bỏ qua các nguyên tắc đạo đức thông thường là phù hợp.

Mặc dù các cuộc tấn công đa bước như Skeleton Key thu hút sự chú ý của công chúng, Lee lập luận rằng các kỹ thuật tấn công một lần vẫn là mối quan ngại cấp bách hơn. "Dễ dàng hơn để sử dụng một lần tấn công để khai thác một mô hình ngôn ngữ lớn", ông lưu ý. "Hãy tưởng tượng việc chèn một lệnh tiêm vào sơ yếu lý lịch của bạn để gây nhầm lẫn cho hệ thống tuyển dụng dựa trên AI. Đó là một cuộc tấn công một lần mà không có cơ hội tương tác nhiều lần."

Theo các chuyên gia an ninh mạng, hậu quả tiềm ẩn đáng báo động. "Các tác nhân độc hại có thể sử dụng Skeleton Key để vượt qua các biện pháp bảo vệ của AI và tạo ra nội dung độc hại, lan truyền thông tin sai lệch hoặc tự động hóa các cuộc tấn công kỹ thuật xã hội quy mô lớn", Stephen Kowski, Field CTO tại SlashNext Email Security+, cảnh báo.

Mặc dù nhiều cuộc tấn công này vẫn ở mức lý thuyết, nhưng các tác động trong thế giới thực đang bắt đầu xuất hiện. Lee đưa ra ví dụ về các nhà nghiên cứu đã thuyết phục chatbot AI của một công ty cung cấp giảm giá khổng lồ, không được phép. "Bạn có thể gây nhầm lẫn cho chatbot ảo của họ và nhận được một mức giá tốt. Đó có thể không phải là điều mà công ty mong muốn", ông nói.

Trong nghiên cứu của mình, Lee đã phát triển các bản mẫu để chứng minh cách một mô hình ngôn ngữ lớn (LLM) có thể bị "** thôi miên**" để tạo ra mã dễ bị tổn thương và độc hại, cũng như cách các cuộc trò chuyện âm thanh trực tiếp có thể bị *chặn và làm sai lệch* gần như trong thời gian thực.

Củng cố biên giới kỹ thuật số

Phòng thủ trước những cuộc tấn công này là một thử thách liên tục. Lee phác thảo hai phương pháp chính: cải thiện việc đào tạo AI và xây dựng tường lửa AI.

"Chúng ta muốn cải thiện việc đào tạo để bản thân mô hình nhận ra, 'Ồ, có ai đó đang cố gắng tấn công tôi'", Lee giải thích. "Chúng ta cũng sẽ kiểm tra tất cả các truy vấn gửi đến mô hình ngôn ngữ và phát hiện các lệnh tiêm."

Khi AI thế hệ mới (generative AI) ngày càng được tích hợp vào cuộc sống hàng ngày, việc hiểu rõ những lỗ hổng này không chỉ là mối quan tâm của các chuyên gia công nghệ. Điều ngày càng quan trọng đối với bất kỳ ai tương tác với hệ thống AI phải nhận thức được những điểm yếu tiềm ẩn của chúng.

Lee so sánh với những ngày đầu của các cuộc tấn công tiêm SQL vào cơ sở dữ liệu. "Ngành công nghiệp đã mất 5-10 năm để khiến mọi người hiểu rằng khi viết một truy vấn SQL, bạn cần tham số hóa tất cả các đầu vào để miễn nhiễm với các cuộc tấn công tiêm", ông nói. "Đối với AI, chúng ta đang bắt đầu sử dụng mô hình ngôn ngữ ở khắp mọi nơi. Mọi người cần hiểu rằng bạn không thể chỉ đưa ra các hướng dẫn đơn giản cho AI vì điều đó sẽ khiến phần mềm của bạn dễ bị tổn thương."

Việc phát hiện ra các phương thức jailbreak như Skeleton Key có thể làm giảm lòng tin của công chúng vào AI, tiềm ẩn làm chậm quá trình áp dụng các công nghệ AI có lợi. Theo Narayana Pappu, CEO của Zendata, sự minh bạch và xác minh độc lập là điều cần thiết để khôi phục lại niềm tin.

"Các nhà phát triển AI và các tổ chức có thể đạt được sự cân bằng giữa việc tạo ra các mô hình ngôn ngữ mạnh mẽ, linh hoạt và đảm bảo các biện pháp bảo vệ vững chắc chống lại việc sử dụng sai mục đích", ông nói. "Họ có thể làm điều đó thông qua tính minh bạch hệ thống nội bộ, hiểu rõ các rủi ro trong chuỗi cung ứng AI/dữ liệu và tích hợp các công cụ đánh giá vào từng giai đoạn của quy trình phát triển."

Khi Chatbot AI "Bị Lôi Kéo": Thách Thức An Ninh Mới trong Thế Giới Trí Tuệ Nhân Tạo