Không có mô hình AI lớn nào là an toàn tuyệt đối, nhưng một số mô hình an toàn hơn những mô hình khác

Các mô hình ngôn ngữ lớn (LLM) đang ngày càng phổ biến, nhưng khả năng tạo ra nội dung độc hại của chúng đang là mối lo ngại lớn. Một nghiên cứu gần đây của Chatterbox Labs cho thấy rằng tất cả các LLM hàng đầu đều có thể tạo ra nội dung có hại, nhưng Anthropic Claude 3.5 lại vượt trội hơn các đối thủ trong việc ngăn chặn các phản hồi này.

Bài viết này của The Register tập trung vào kết quả của một thử nghiệm độc lập về tính an toàn của các mô hình AI. Chatterbox Labs đã sử dụng bộ công cụ AIMI để đánh giá 8 LLM phổ biến trên các tiêu chí như công bằng, độc hại, quyền riêng tư và bảo mật. Kết quả cho thấy, không có mô hình nào hoàn toàn an toàn trước các yêu cầu kích hoạt nội dung độc hại, bao gồm cả nội dung vi phạm pháp luật, hướng dẫn gây hại hoặc thông tin sai lệch.

Anthropic, công ty đứng sau Claude 3.5, được đánh giá là có hiệu quả nhất trong việc ngăn chặn các phản hồi có hại. Theo Stuart Battersby, CTO của Chatterbox Labs, Anthropic đã xây dựng một hệ thống "hàng rào bảo vệ" (guardrails) hiệu quả hơn trong việc nhận biết và từ chối các yêu cầu độc hại.

Vậy Anthropic đã làm gì khác biệt?

Theo Stuart Ritchie, người phụ trách truyền thông nghiên cứu của Anthropic, công ty này có một phương pháp độc đáo tập trung vào nghiên cứu thực nghiệm và phát triển các hệ thống AI an toàn hơn.

  • Họ áp dụng "Chính sách mở rộng có trách nhiệm" (Responsible Scaling Policy), chỉ phát triển các mô hình tiên tiến hơn nếu đạt được các tiêu chuẩn an toàn nghiêm ngặt và sẵn sàng đánh giá công khai cả khả năng lẫn các biện pháp bảo mật của mô hình.
  • Họ tiên phong trong các lĩnh vực như giám sát có thể mở rộng và học tập định hướng quy trình, nhằm tạo ra các hệ thống AI cơ bản an toàn hơn và phù hợp hơn với các giá trị của con người.
  • Họ đầu tư mạnh vào khả năng giải thích cơ chế (mechanistic interpretability) để hiểu rõ cách thức hoạt động bên trong của các mô hình.

Anthropic cũng sử dụng phương pháp "Trí tuệ nhân tạo Hiến pháp" (Constitutional AI), một cách tiếp cận sáng tạo để huấn luyện các mô hình tuân theo các nguyên tắc đạo đức và hành xử an toàn thông qua việc tự giám sát và tranh luận, từ đó giúp chúng tự học cách phù hợp với giá trị và ý định của con người.

Tuy nhiên, các biện pháp an toàn này không phải là hoàn hảo. Giống như bất kỳ cơ chế bảo mật nào, "hàng rào bảo vệ" của AI đôi khi cũng không thể phát hiện và ngăn chặn mọi trường hợp nội dung độc hại.

"Jailbreaking", hay "bẻ khóa", là một kỹ thuật mà người dùng có thể sử dụng để lách qua các hàng rào bảo vệ và khiến mô hình tạo ra các phản hồi không mong muốn. Chatterbox Labs đã thử nghiệm khả năng bẻ khóa trên tất cả các mô hình được thử nghiệm và xác định rằng không có mô hình nào hoàn toàn miễn nhiễm với kỹ thuật này.

Kết luận:

Nghiên cứu của Chatterbox Labs cho thấy rằng việc bảo đảm tính an toàn của các mô hình AI là một thách thức lớn. Mặc dù các công ty đang nỗ lực phát triển các phương pháp bảo vệ và "hàng rào bảo vệ", nhưng vẫn còn nhiều việc phải làm để đảm bảo rằng các LLM được sử dụng một cách an toàn và có trách nhiệm.

Anthropic đang dẫn đầu trong lĩnh vực này với các cách tiếp cận độc đáo và cam kết với sự phát triển AI an toàn, nhưng điều quan trọng là phải tiếp tục nghiên cứu và phát triển các biện pháp bảo vệ tốt hơn để đảm bảo AI phục vụ lợi ích cho nhân loại.

Ghi chú:

  • Bài viết ban đầu có đưa ra một số ví dụ cụ thể về việc mô hình AI có thể tạo ra các phản hồi độc hại, cũng như mô tả chi tiết cách Anthropic tiếp cận với vấn đề an toàn AI. Các thông tin này đã được tóm tắt và kết hợp vào bài viết này.
  • Ngoài ra, bài viết ban đầu có kèm theo bảng kết quả thử nghiệm, nhưng do không thể hiển thị trực tiếp trong văn bản này nên tôi đã tóm tắt nội dung quan trọng trong bảng.
  • Một số chi tiết kỹ thuật liên quan đến AI (như RLHF, Constitutional AI, red-teaming) được giữ nguyên để người đọc có thể hiểu rõ hơn về các khía cạnh kỹ thuật của vấn đề.

Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top