Meta Bí Mật Sử Dụng Trình Quét Web Mới Để Thu thập Dữ Liệu Huấn Luyện AI

Meta, gã khổng lồ mạng xã hội, đã âm thầm sử dụng hai trình quét web mới để thu thập dữ liệu huấn luyện AI từ khắp nơi trên Internet. Mặc dù công ty chưa công khai thông tin về việc sử dụng các trình quét này đối với người dùng web thông thường, nhưng một bản cập nhật trên trang web dành cho nhà phát triển của Meta vào cuối tháng 7 đã hé lộ sự tồn tại của chúng.

Theo các công ty theo dõi AI như Originality.ai và Dark Visitors, hai trình quét web này được đặt tên là Meta-External Agent và Meta-ExternalFetcher. Meta-ExternalAgent được cho là giúp huấn luyện các mô hình AI và cải thiện các sản phẩm dựa trên AI bằng cách "chỉ mục hóa nội dung trực tiếp." Trong khi đó, Meta-ExternalFetcher được liên kết trực tiếp với các công cụ trợ lý AI của Meta và tìm kiếm các liên kết web để hỗ trợ các chức năng liên quan đến truy vấn của các công cụ này.

Mặc dù Originality.ai và Dark Visitors đã phát hiện ra các trình quét này vào tháng 7, nhưng Meta không bao giờ công bố sự tồn tại của chúng một cách công khai. Thay vào đó, công ty đã âm thầm cập nhật một trang web trên trang web của mình, dành cho các nhà phát triển, mô tả về các trình quét web của họ. Tuy nhiên, khi được Fortune yêu cầu xác nhận, Meta đã thừa nhận rằng họ đang chạy cả hai trình quét mới và chúng được lấy cảm hứng từ một trình quét Meta trước đó, đã thu thập dữ liệu của người dùng web "trong nhiều năm." Trình quét trước đó, hoạt động dưới cái tên Facebook-ExternalHit, thu thập nội dung từ các ứng dụng hoặc trang web được chia sẻ trên các nền tảng Meta như Facebook, Instagram hoặc Messenger.

Một phát ngôn viên của Meta cho biết: "Giống như các công ty khác, chúng tôi huấn luyện các mô hình AI thế hệ của mình dựa trên nội dung có sẵn công khai trên mạng." "Chúng tôi đã cập nhật hướng dẫn của mình gần đây về cách tốt nhất cho các nhà xuất bản để loại trừ miền của họ khỏi bị quét bởi các trình quét liên quan đến AI của Meta."

Tuy nhiên, hướng dẫn này là một sự an ủi nhỏ đối với những người quen thuộc với lập trường được cho là chống lại việc quét web của Meta, được công bố vào tháng 4 năm 2021 và dường như chưa được cập nhật kể từ đó.

Trang web của Meta viết: "Sử dụng tự động để lấy dữ liệu từ Facebook mà không có sự cho phép của chúng tôi là vi phạm các điều khoản của chúng tôi." "Bản thân dữ liệu không nhất thiết bị cấm; dữ liệu được quét thường có sẵn rộng rãi cho mọi người truy cập trong việc sử dụng hàng ngày của họ đối với trang web hoặc ứng dụng. Các trình quét không được phép truy cập hoặc thu thập dữ liệu từ các sản phẩm của chúng tôi bằng phương tiện tự động mà không có sự cho phép trước của chúng tôi."

Rất khó có khả năng Meta đã nhận được sự cho phép từ mỗi trang web mà họ quét; việc làm như vậy sẽ khiến hướng dẫn từ chối được đề cập ở trên trở nên vô nghĩa. Giống như cách họ đã làm với trình tạo hình ảnh AI được đào tạo trên Instagram và Facebook vào năm ngoái, Meta có nhiều khả năng sử dụng chiến lược "xin lỗi sau, không xin phép trước", dù phần còn lại của web có chấp thuận hay không.

Báo cáo này làm dấy lên những lo ngại về việc Meta thu thập dữ liệu người dùng và sử dụng nó để huấn luyện AI. Điều quan trọng là phải chú ý đến việc Meta đã âm thầm sử dụng các trình quét web mới này và tác động tiềm ẩn của việc sử dụng dữ liệu được thu thập đối với quyền riêng tư của người dùng.

Meta Bí Mật Sử Dụng Trình Quét Web Mới Để Thu thập Dữ Liệu Huấn Luyện AI