Mở nguồn AI cần tiết lộ dữ liệu đào tạo, theo định nghĩa mới của OSI

Mục lục

  1. Giới thiệu về định nghĩa mới của OSI về AI mở nguồn
  2. Thách thức đối với Meta và Llama
  3. Quan điểm của Meta
  4. Ý nghĩa của định nghĩa mới
  5. Tranh luận về dữ liệu đào tạo
  6. Kết luận

1. Giới thiệu về định nghĩa mới của OSI về AI mở nguồn

Sáng kiến Mở nguồn (OSI) vừa công bố định nghĩa chính thức về trí tuệ nhân tạo (AI) "mở nguồn", đặt nền móng cho cuộc đối đầu với các gã khổng lồ công nghệ như Meta - những công ty có các mô hình AI không phù hợp với quy định mới này.

OSI từ lâu đã thiết lập tiêu chuẩn ngành cho phần mềm mở nguồn. Tuy nhiên, các hệ thống AI bao gồm các yếu tố không được bao phủ bởi giấy phép truyền thống, chẳng hạn như dữ liệu đào tạo mô hình. Theo định nghĩa mới, để được xem là thực sự mở nguồn, hệ thống AI phải cung cấp:

  • Truy cập vào chi tiết về dữ liệu được sử dụng để đào tạo AI, cho phép người khác hiểu và tái tạo lại.
  • Mã nguồn đầy đủ được sử dụng để xây dựng và vận hành AI.
  • Cài đặt và trọng số từ quá trình đào tạo, giúp AI tạo ra kết quả.

2. Thách thức đối với Meta và Llama

Định nghĩa này trực tiếp thách thức Meta's Llama, được quảng cáo là mô hình AI mở nguồn lớn nhất. Llama có thể tải xuống và sử dụng công khai, nhưng nó bị hạn chế về mặt thương mại (cho các ứng dụng có hơn 700 triệu người dùng) và không cung cấp quyền truy cập vào dữ liệu đào tạo, khiến nó không đáp ứng tiêu chuẩn của OSI về tự do sử dụng, sửa đổi và chia sẻ không giới hạn.

3. Quan điểm của Meta

Phát ngôn viên của Meta, Faith Eischen, nói với The Verge rằng mặc dù "Meta đồng ý với OSI về nhiều vấn đề", nhưng công ty không đồng ý với định nghĩa này. "Không có định nghĩa duy nhất về AI mở nguồn, và việc xác định nó là một thách thức bởi vì các định nghĩa mở nguồn trước đây không bao gồm sự phức tạp của các mô hình AI hiện đại đang phát triển nhanh chóng."

Eischen bổ sung, "Meta sẽ tiếp tục hợp tác với OSI và các nhóm ngành khác để làm cho AI dễ tiếp cận và miễn phí một cách có trách nhiệm, bất kể định nghĩa kỹ thuật."

4. Ý nghĩa của định nghĩa mới

Trong 25 năm, định nghĩa của OSI về phần mềm mở nguồn đã được các nhà phát triển chấp nhận rộng rãi, những người muốn xây dựng dựa trên công việc của nhau mà không sợ kiện tụng hoặc bẫy giấy phép. Hiện nay, khi AI định hình lại bối cảnh, các gã khổng lồ công nghệ phải đối mặt với lựa chọn quan trọng: chấp nhận các nguyên tắc đã được thiết lập hoặc từ chối chúng.

Tổ chức Linux Foundation cũng đã có một nỗ lực gần đây để định nghĩa "AI mở nguồn", báo hiệu cuộc tranh luận đang gia tăng về cách các giá trị mở nguồn truyền thống sẽ thích nghi với kỷ nguyên AI.

Simon Willison, nhà nghiên cứu độc lập và là người tạo ra Datasette - công cụ đa năng mở nguồn, nói với The Verge: “Bây giờ chúng ta đã có một định nghĩa mạnh mẽ, có lẽ chúng ta có thể phản đối mạnh mẽ hơn đối với các công ty đang ‘giặt trắng’ và tuyên bố công việc của họ là mở nguồn trong khi thực tế thì không phải vậy.”

Giám đốc điều hành của Hugging Face, Clément Delangue, gọi định nghĩa của OSI là "một sự giúp đỡ rất lớn trong việc định hình cuộc trò chuyện về sự cởi mở trong AI, đặc biệt là khi nói đến vai trò quan trọng của dữ liệu đào tạo."

Giám đốc điều hành của OSI, Stefano Maffulli, cho biết sáng kiến này đã mất hai năm, tham khảo ý kiến chuyên gia trên toàn cầu, để tinh chỉnh định nghĩa này thông qua một quá trình cộng tác. Điều này bao gồm việc làm việc với các chuyên gia từ giới học thuật về máy học và xử lý ngôn ngữ tự nhiên, triết gia, người sáng tạo nội dung từ thế giới Creative Commons, và nhiều hơn nữa.

5. Tranh luận về dữ liệu đào tạo

Trong khi Meta viện dẫn vấn đề an toàn để hạn chế quyền truy cập vào dữ liệu đào tạo, các nhà phê bình lại thấy một động cơ đơn giản hơn: giảm thiểu trách nhiệm pháp lý và bảo vệ lợi thế cạnh tranh.

Rất nhiều mô hình AI chắc chắn được đào tạo trên tài liệu có bản quyền. Vào tháng 4, The New York Times đưa tin rằng Meta đã thừa nhận nội bộ rằng có nội dung có bản quyền trong dữ liệu đào tạo của mình "bởi vì chúng tôi không có cách nào để không thu thập nó." Có rất nhiều vụ kiện chống lại Meta, OpenAI, Perplexity, Anthropic, và các công ty khác về vi phạm bản quyền.

Tuy nhiên, ngoại trừ một số trường hợp ngoại lệ - như Stable Diffusion, công khai dữ liệu đào tạo của mình - các nguyên đơn hiện phải dựa vào bằng chứng gián tiếp để chứng minh rằng tác phẩm của họ đã bị trích xuất trái phép.

Maffulli cho rằng lịch sử mã nguồn mở đang lặp lại chính nó. "Meta đang đưa ra những lập luận tương tự" như Microsoft đã làm trong những năm 1990 khi họ coi mã nguồn mở là mối đe dọa đối với mô hình kinh doanh của mình, Maffulli nói với The Verge.

Ông nhớ lại Meta đã nói với ông về khoản đầu tư mạnh mẽ của mình vào Llama, hỏi ông "Theo bạn, ai sẽ có khả năng làm điều tương tự?". Maffulli nhận thấy một mô hình quen thuộc: một gã khổng lồ công nghệ sử dụng chi phí và độ phức tạp để biện minh cho việc giữ công nghệ của mình bị khóa. "Chúng ta trở lại với những ngày đầu," ông nói.

"Đó là bí mật của họ," Maffulli nói về dữ liệu đào tạo. "Đó là tài sản trí tuệ có giá trị."

6. Kết luận

Định nghĩa mới của OSI về AI mở nguồn đặt ra những thách thức mới cho các công ty công nghệ lớn, yêu cầu họ phải minh bạch hơn về dữ liệu đào tạo và mã nguồn của mình. Điều này có thể dẫn đến sự thay đổi đáng kể trong cách các mô hình AI được phát triển và chia sẻ trong tương lai.

Cần lưu ý rằng, việc tiết lộ dữ liệu đào tạo có thể dẫn đến nhiều tranh cãi về bản quyền và quyền riêng tư. Tuy nhiên, định nghĩa này mang lại hy vọng về việc tạo ra một môi trường AI mở nguồn minh bạch hơn và mang lại lợi ích cho cả cộng đồng và cá nhân.

Logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top