Hiến pháp AI của Anthropic cho thấy tiềm năng ban đầu trong việc điều tiết hành vi mô hình, các nhà nghiên cứu cho biết | Semafor

Anthropic

Hi nỗ lực của Anthropic trong việc soạn thảo một bản "hiến pháp" AI dài 30.000 từ dường như đang phát huy hiệu quả.

Tài liệu này giới hạn hành vi của Claude, bao gồm việc đặt ra các giới hạn đối với sự thiếu trung thực và gây hại. Các nhà nghiên cứu đã phân tích tài liệu thành 205 quy tắc và phát hiện ra rằng các mô hình mới hơn, được huấn luyện theo hiến pháp, ít có khả năng vi phạm các quy tắc này hơn nhiều so với các mô hình cũ.

Các chuyên gia về rủi ro AI cho rằng giá trị con người rất phức tạp, và các hệ thống AI thông minh có thể tìm ra những kẽ hở nguy hiểm; vì vậy, việc cài đặt thành công hiến pháp này sẽ là "một bước tiến lớn về an toàn" như các tác giả nhận định.

Kết quả vẫn chưa hoàn hảo.

Claude đôi khi vẫn sử dụng dữ liệu bịa đặt, và các quy tắc của nó đôi khi mâu thuẫn với nhau: một AI được chỉ thị phải nói dối sẽ buộc phải vi phạm một trong hai quy tắc — về sự thiếu trung thực hoặc về việc tuân theo chỉ dẫn của người vận hành. Tuy nhiên, các nhà nghiên cứu vẫn "khá ấn tượng".

— Tom Chivers

Nguồn: https://www.semafor.com/article/03/13/2026/anthropics-ai-constitution-shows-early-promise-in-regulating-models-behavior-researchers-say

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top