Cloudflare Ra Mắt Công Cụ Chống Bot AI

Cloudflare Ra Mắt Công Cụ Chống Bot AI

Mục lục:

1. Khắc phục Vấn đề Vượt Qua Robots.txt

Mặc dù một số nhà cung cấp AI, bao gồm Google, OpenAI và Apple, cho phép chủ sở hữu trang web chặn các bot họ sử dụng để thu thập dữ liệu và đào tạo mô hình bằng cách sửa đổi tệp robots.txt, Cloudflare nhận thấy rằng không phải tất cả các bot thu thập dữ liệu AI đều tuân thủ quy tắc này.

Cloudflare viết trên blog chính thức của họ: Khách hàng không muốn bot AI truy cập trang web của họ, đặc biệt là những bot hành động không trung thực. Chúng tôi lo ngại rằng một số công ty AI có ý định bỏ qua các quy tắc để truy cập nội dung sẽ liên tục thích nghi để trốn tránh phát hiện bot.

2. Cách Cloudflare Phát Hiện Bot AI

Để giải quyết vấn đề này, Cloudflare đã phân tích lưu lượng truy cập bot và trình thu thập dữ liệu AI để tinh chỉnh các mô hình phát hiện bot tự động. Các mô hình này xem xét, trong số các yếu tố khác, liệu bot AI có cố gắng trốn tránh phát hiện bằng cách bắt chước giao diện và hành vi của người dùng trình duyệt web hay không.

Cloudflare giải thích: Khi những kẻ tấn công cố gắng thu thập dữ liệu web quy mô lớn, họ thường sử dụng các công cụ và khung công tác mà chúng tôi có thể xác định dấu vân tay. Dựa trên các tín hiệu này, các mô hình của chúng tôi có thể phù hợp gắn cờ lưu lượng truy cập từ bot AI trốn tránh là bot.

3. Xử Lý Bot AI Bằng Cách Báo cáo

Cloudflare đã thiết lập một biểu mẫu để chủ sở hữu trang web báo cáo các bot và trình thu thập dữ liệu AI đáng ngờ và cho biết họ sẽ tiếp tục liệt kê đen các bot AI thủ công theo thời gian.

4. Tầm Quan Trọng của Việc Chống Bot AI

Vấn đề bot AI trở nên nghiêm trọng hơn khi sự bùng nổ của AI thế hệ tiếp theo thúc đẩy nhu cầu về dữ liệu đào tạo mô hình. Nhiều trang web, lo ngại về việc các nhà cung cấp AI đào tạo mô hình trên nội dung của họ mà không thông báo hoặc bồi thường cho họ, đã chọn chặn trình thu thập dữ liệu và bot AI.

Theo một nghiên cứu, khoảng 26% trong số 1.000 trang web hàng đầu trên web đã chặn bot của OpenAI; một nghiên cứu khác phát hiện ra rằng hơn 600 nhà xuất bản tin tức đã chặn bot này.

5. Thách Thức Khi Chặn Bot AI

Tuy nhiên, chặn không phải là biện pháp bảo vệ chắc chắn. Như đã đề cập trước đó, một số nhà cung cấp dường như đang bỏ qua các quy tắc loại trừ bot tiêu chuẩn để có được lợi thế cạnh tranh trong cuộc đua AI.

Công cụ tìm kiếm AI Perplexity gần đây bị cáo buộc đã giả mạo khách truy cập hợp pháp để thu thập dữ liệu từ các trang web, và OpenAI và Anthropic được cho là đã bỏ qua các quy tắc robots.txt ở một số thời điểm.

Trong một bức thư gửi cho các nhà xuất bản vào tháng trước, công ty khởi nghiệp cấp phép nội dung TollBit cho biết thực tế họ thấy rất nhiều tác nhân AI bỏ qua tiêu chuẩn robots.txt.

Các công cụ như của Cloudflare có thể hữu ích - nhưng chỉ khi chúng được chứng minh là chính xác trong việc phát hiện bot AI bí mật. Và chúng sẽ không giải quyết được vấn đề nan giải hơn là các nhà xuất bản có nguy cơ hy sinh lưu lượng truy cập giới thiệu từ các công cụ AI như Google AI Overviews, công cụ này loại trừ các trang web khỏi việc đưa vào nếu họ chặn các trình thu thập dữ liệu AI cụ thể.

Logo Cloudflare

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top