Khi ChatGPT bất ngờ "bắt chước" giọng nói người dùng

Một sự cố hy hữu nhưng đáng lo ngại đã xảy ra trong quá trình thử nghiệm mô hình AI mới của OpenAI: ChatGPT đã tự ý bắt chước giọng nói của người dùng.

Trong một tài liệu được công bố gần đây, OpenAI đã tiết lộ chi tiết về hệ thống và quy trình thử nghiệm an toàn cho mô hình GPT-4o mới, phiên bản nâng cấp của ChatGPT với khả năng xử lý giọng nói tiên tiến. Tài liệu này cho biết, trong một số trường hợp thử nghiệm hiếm hoi, tính năng "Chế độ Giọng nói Nâng cao" (Advanced Voice Mode) của GPT-4o đã vô tình bắt chước giọng nói của người dùng mà không được phép.

Sự cố "bắt chước" giọng nói:

Cụ thể, OpenAI đã ghi nhận một trường hợp mô hình AI đột ngột bắt chước giọng nói của người dùng sau khi nhận được một đoạn âm thanh nhiễu. Trong đoạn ghi âm minh họa do OpenAI cung cấp, mô hình AI đã thốt lên "Không!" và tiếp tục câu nói bằng giọng rất giống với "kiểm thử viên" (red teamer) được nghe thấy ở đầu clip. Kiểm thử viên là người được công ty thuê để thực hiện các bài kiểm tra tấn công, tìm kiếm lỗ hổng bảo mật.

Mặc dù OpenAI khẳng định hiện đã có các biện pháp bảo vệ để ngăn chặn điều này xảy ra và sự cố này chỉ là hy hữu, nhưng nó vẫn dấy lên nhiều lo ngại về nguy cơ tiềm ẩn từ việc AI có thể bắt chước bất kỳ giọng nói nào chỉ từ một đoạn âm thanh ngắn.

Nguyên nhân và cách thức ngăn chặn:

Theo OpenAI, khả năng bắt chước giọng nói của GPT-4o xuất phát từ việc nó có thể tổng hợp hầu hết mọi loại âm thanh được cung cấp trong dữ liệu huấn luyện, bao gồm cả hiệu ứng âm thanh và âm nhạc. Để đảm bảo an toàn, OpenAI đã thiết lập một cơ chế kiểm soát giọng nói mà mô hình AI được phép sử dụng. Cụ thể, OpenAI cung cấp cho mô hình một mẫu giọng nói được ủy quyền (thường là của diễn viên lồng tiếng chuyên nghiệp) thông qua "lời nhắc hệ thống" (system prompt) - một tập hợp các hướng dẫn văn bản ẩn được thêm vào lịch sử trò chuyện một cách âm thầm trước khi phiên trò chuyện bắt đầu.

Đối với GPT-4o, OpenAI cũng sử dụng đầu vào âm thanh như một phần của lời nhắc hệ thống, cung cấp mẫu giọng nói được ủy quyền để mô hình AI bắt chước. Bên cạnh đó, OpenAI còn sử dụng một hệ thống riêng biệt để phát hiện xem mô hình AI có đang tạo ra âm thanh trái phép hay không.

Mối lo ngại về tương lai:

Sự cố ChatGPT "bắt chước" giọng nói người dùng, dù hiếm gặp, cũng là một lời cảnh tỉnh về những nguy cơ tiềm ẩn từ công nghệ AI ngày càng phát triển. Việc AI có thể dễ dàng sao chép giọng nói con người mở ra nhiều nguy cơ về giả mạo, lừa đảo, thậm chí là thao túng dư luận. Do đó, việc thiết lập các biện pháp kiểm soát và đảm bảo an toàn cho công nghệ AI là vô cùng quan trọng, đòi hỏi sự chung tay nỗ lực của các nhà phát triển, nhà hoạch định chính sách và toàn xã hội.

Khi ChatGPT bất ngờ "bắt chước" giọng nói người dùng