Harvard Công Bố Bộ Dữ Liệu Khổng Lồ Miễn Phí Dành Cho Huấn Luyện AI, Được Tài Trợ Bởi OpenAI và Microsoft

Mục lục

Giới thiệu về bộ dữ liệu khổng lồ
Mục đích và tầm ảnh hưởng
Sự hỗ trợ từ các ông lớn công nghệ
Tầm quan trọng trong bối cảnh pháp lý hiện nay
Các dự án tương tự và triển vọng tương lai
Kết luận

Giới thiệu về bộ dữ liệu khổng lồ

User added image

Ngày 12 tháng 12 năm 2024, Đại học Harvard đã công bố việc phát hành một bộ dữ liệu khổng lồ, chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng. Bộ dữ liệu này có thể được sử dụng bởi bất kỳ ai để huấn luyện các mô hình ngôn ngữ lớn (LLM) và các công cụ AI khác. Dự án này được thực hiện bởi Sáng kiến Dữ liệu Thể chế (IDI) mới thành lập của Harvard, với sự tài trợ từ cả Microsoft và OpenAI. Bộ dữ liệu bao gồm các cuốn sách được quét trong khuôn khổ dự án Google Books, hiện không còn bị bảo hộ bản quyền.

Với quy mô gấp khoảng năm lần so với bộ dữ liệu Books3 nổi tiếng từng được sử dụng để huấn luyện các mô hình AI như Llama của Meta, cơ sở dữ liệu của IDI bao phủ nhiều thể loại, thập kỷ và ngôn ngữ. Từ các tác phẩm kinh điển của Shakespeare, Charles Dickens và Dante, cho đến những sách giáo khoa toán học tiếng Séc ít người biết đến và từ điển bỏ túi tiếng Wales đều được tổng hợp trong bộ dữ liệu này.

Mục đích và tầm ảnh hưởng

Greg Leppert, giám đốc điều hành của IDI, cho biết dự án này là một nỗ lực nhằm "sân bằng cuộc chơi" bằng cách cung cấp cho công chúng, bao gồm cả những người chơi nhỏ trong ngành AI và các nhà nghiên cứu cá nhân, quyền truy cập vào các kho lưu trữ nội dung được tinh chỉnh và quản lý tốt, vốn chỉ có các gã khổng lồ công nghệ mới có đủ nguồn lực để xây dựng. Ông nhấn mạnh chất lượng của bộ dữ liệu: "Nó đã trải qua quá trình xem xét nghiêm ngặt."

Leppert tin rằng cơ sở dữ liệu phạm vi công cộng mới này có thể được sử dụng kết hợp với các tài liệu có giấy phép khác để xây dựng các mô hình trí tuệ nhân tạo. Ông ví von: "Tôi nghĩ về nó một chút giống như cách mà Linux đã trở thành hệ điều hành nền tảng cho rất nhiều nơi trên thế giới," đồng thời lưu ý rằng các công ty vẫn cần sử dụng dữ liệu huấn luyện bổ sung để phân biệt mô hình của họ với các đối thủ cạnh tranh.

Sự hỗ trợ từ các ông lớn công nghệ

Burton Davis, phó chủ tịch kiêm phó tổng cố vấn về sở hữu trí tuệ của Microsoft, nhấn mạnh rằng sự hỗ trợ của công ty đối với dự án này phù hợp với niềm tin rộng rãi hơn của họ về giá trị của việc tạo ra "các nhóm dữ liệu dễ tiếp cận" cho các công ty khởi nghiệp AI sử dụng, được "quản lý vì lợi ích công cộng". Nói cách khác, Microsoft không nhất thiết có kế hoạch thay thế tất cả dữ liệu huấn luyện AI mà họ đã sử dụng trong các mô hình của mình bằng các lựa chọn thay thế phạm vi công cộng như các cuốn sách trong cơ sở dữ liệu Harvard mới. Davis nói: "Chúng tôi sử dụng dữ liệu công khai để huấn luyện các mô hình của mình."

Tom Rubin, trưởng bộ phận sở hữu trí tuệ và nội dung của OpenAI, đã mô tả công ty là "vui mừng" được hỗ trợ dự án trong một tuyên bố.

Tầm quan trọng trong bối cảnh pháp lý hiện nay

Hàng chục vụ kiện liên quan đến việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang được đưa ra xét xử. Tương lai của việc xây dựng các công cụ trí tuệ nhân tạo đang bị treo lơ lửng. Nếu các công ty AI thắng kiện, họ sẽ có thể tiếp tục thu thập dữ liệu trên internet mà không cần phải ký kết thỏa thuận cấp phép với chủ sở hữu bản quyền. Nhưng nếu họ thua, các công ty AI có thể bị buộc phải thay đổi cách thức tạo ra các mô hình của mình. Một loạt các dự án như cơ sở dữ liệu Harvard đang được triển khai dựa trên giả định rằng - bất kể điều gì xảy ra - sẽ có nhu cầu về các bộ dữ liệu phạm vi công cộng.

Các dự án tương tự và triển vọng tương lai

Ngoài kho sách khổng lồ, IDI cũng đang hợp tác với Thư viện Công cộng Boston để quét hàng triệu bài báo từ các tờ báo khác nhau hiện thuộc phạm vi công cộng, và cho biết họ sẵn sàng hợp tác tương tự trong tương lai. Cách thức chính xác mà bộ dữ liệu sách sẽ được phát hành vẫn chưa được quyết định. IDI đã yêu cầu Google hợp tác trong việc phân phối công khai, nhưng các chi tiết vẫn đang được hoàn thiện. Trong một tuyên bố, Kent Walker, chủ tịch phụ trách các vấn đề toàn cầu của Google, cho biết công ty "tự hào được hỗ trợ" dự án.

Bất kể IDI phát hành bộ dữ liệu như thế nào, nó sẽ tham gia vào hàng loạt các dự án, công ty khởi nghiệp và sáng kiến tương tự, hứa hẹn sẽ cung cấp cho các công ty quyền truy cập vào các tài liệu huấn luyện AI chất lượng cao và đáng kể mà không có rủi ro vi phạm bản quyền. Các công ty như Calliope Networks và ProRata đã xuất hiện để cấp phép và quản lý các kế hoạch bồi thường nhằm mục đích trả tiền cho người tạo và chủ sở hữu quyền đối với việc cung cấp dữ liệu huấn luyện AI.

Cũng có các dự án phạm vi công cộng mới khác. Mùa xuân năm ngoái, công ty khởi nghiệp AI của Pháp Pleias đã tung ra bộ dữ liệu phạm vi công cộng riêng của mình, Common Corpus, chứa khoảng 3 đến 4 triệu cuốn sách và tập hợp tạp chí, theo điều phối viên dự án Pierre-Carl Langlais. Được hỗ trợ bởi Bộ Văn hóa Pháp, Common Corpus đã được tải xuống hơn 60.000 lần chỉ riêng trong tháng này trên nền tảng AI mã nguồn mở Hugging Face. Tuần trước, Pleias đã tuyên bố rằng họ đang phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên bộ dữ liệu này, mà Langlais cho biết với WIRED là các mô hình đầu tiên "từng được huấn luyện hoàn toàn trên dữ liệu mở và tuân thủ Đạo luật AI [của EU]".

Nỗ lực đang được tiến hành để tạo ra các bộ dữ liệu hình ảnh tương tự. Công ty khởi nghiệp AI Spawning đã phát hành bộ dữ liệu riêng của mình vào mùa hè này có tên Source.Plus, chứa các hình ảnh phạm vi công cộng từ Wikimedia Commons cũng như nhiều bảo tàng và kho lưu trữ. Một số tổ chức văn hóa quan trọng từ lâu đã làm cho kho lưu trữ của riêng họ có thể truy cập được với công chúng như các dự án độc lập, chẳng hạn như Bảo tàng Nghệ thuật Metropolitan ở New York.

Ed Newton-Rex, một cựu giám đốc điều hành của Stability AI hiện đang điều hành một tổ chức phi lợi nhuận chứng nhận các công cụ AI được huấn luyện có đạo đức, cho biết sự gia tăng của các bộ dữ liệu này cho thấy không cần phải đánh cắp tài liệu có bản quyền để xây dựng các mô hình AI hiệu suất cao và chất lượng. OpenAI trước đây đã nói với các nhà lập pháp ở Vương quốc Anh rằng sẽ "bất khả thi" để tạo ra các sản phẩm như ChatGPT mà không sử dụng các tác phẩm có bản quyền. Newton-Rex nói: "Các bộ dữ liệu phạm vi công cộng lớn như thế này càng làm phá vỡ 'luận điểm cần thiết' mà một số công ty AI sử dụng để biện minh cho việc thu thập dữ liệu có bản quyền để huấn luyện các mô hình của họ."

Tuy nhiên, ông vẫn còn nghi ngại về việc liệu IDI và các dự án tương tự có thực sự thay đổi hiện trạng huấn luyện AI hay không. Ông nói: "Các bộ dữ liệu này chỉ có tác động tích cực nếu chúng được sử dụng, có lẽ kết hợp với việc cấp phép dữ liệu khác, để thay thế công việc có bản quyền bị thu thập trái phép. Nếu chúng chỉ được thêm vào hỗn hợp, một phần của bộ dữ liệu cũng bao gồm cả đời sống không được cấp phép của các nhà sáng tạo trên thế giới, chúng sẽ mang lại lợi ích áp đảo cho các công ty AI."

Kết luận

Bộ dữ liệu khổng lồ của Harvard, được hỗ trợ bởi OpenAI và Microsoft, đánh dấu một bước tiến quan trọng trong việc cung cấp nguồn dữ liệu huấn luyện AI chất lượng cao, mở và tuân thủ pháp luật. Tuy nhiên, sự thành công của dự án này phụ thuộc vào việc nó được sử dụng rộng rãi và hiệu quả như thế nào để thay thế việc sử dụng dữ liệu có bản quyền trái phép. Đây là một đóng góp đáng kể trong cuộc tranh luận pháp lý và đạo đức đang diễn ra xung quanh việc sử dụng dữ liệu trong phát triển AI.

Harvard Công Bố Bộ Dữ Liệu Khổng Lồ Miễn Phí Dành Cho Huấn Luyện AI, Được Tài Trợ Bởi OpenAI và Microsoft

0 comments Blogger 0 Facebook

Đăng nhận xét

Bài đăng phổ biến

Labels

Harvard Công Bố Bộ Dữ Liệu Khổng Lồ Miễn Phí Dành Cho Huấn Luyện AI, Được Tài Trợ Bởi OpenAI và Microsoft

Next

Bài đăng Mới hơn

Previous

Bài đăng Cũ hơn

0 comments Blogger 0 Facebook

Đăng nhận xét