Chi phí AI tăng vọt: Không phải do chip Nvidia đắt hơn, mà là bởi…
AI đang ngày càng trở nên phổ biến và mạnh mẽ hơn, nhưng đi kèm với đó là chi phí phát triển AI cũng tăng vọt. Tuy nhiên, nguyên nhân không phải do giá chip Nvidia tăng lên, mà là một yếu tố khác, ít được chú ý hơn: việc gắn nhãn dữ liệu.
Tốn kém để huấn luyện AI:
- Huấn luyện các mô hình AI khổng lồ ngày nay có thể tốn hàng trăm triệu đô la, và dự kiến sẽ lên đến 1 tỷ đô la trong vài năm tới.
- Phần lớn chi phí đó được dành cho sức mạnh tính toán từ các chip chuyên dụng, chủ yếu là GPU của Nvidia, với số lượng lên đến hàng chục nghìn chip, mỗi chip có giá khoảng 30.000 đô la.
Gắn nhãn dữ liệu: Chi phí bị bỏ qua:
- Ngoài chi phí tính toán, các công ty cũng phải đối mặt với chi phí gia tăng khác, thường bị bỏ qua: gắn nhãn dữ liệu.
- Gắn nhãn dữ liệu là quá trình tỉ mỉ, trong đó các mô hình AI được huấn luyện với dữ liệu được gắn thẻ để giúp mô hình nhận biết và giải thích các mẫu dữ liệu.
Gắn nhãn dữ liệu: Từ ô tô tự lái đến AI hội thoại:
- Gắn nhãn dữ liệu từ lâu đã được sử dụng để phát triển các mô hình AI cho ô tô tự lái.
- Các camera thu thập hình ảnh về người đi bộ, biển báo, xe cộ và đèn giao thông, và các chuyên viên gắn nhãn cho những hình ảnh này với các từ như "người đi bộ," "xe tải," hoặc "dừng lại."
- OpenAI đã bị chỉ trích vì thuê người ở Kenya với mức lương thấp để gắn nhãn dữ liệu cho ChatGPT, nhằm giảm bớt tính độc hại của chatbot.
Gắn nhãn dữ liệu: Càng phức tạp, càng tốn kém:
- Các mô hình ngôn ngữ lớn (LLM) ngày nay phải trải qua một quá trình tương tự gắn nhãn dữ liệu, được gọi là "Học tăng cường phản hồi từ con người", trong đó con người cung cấp phản hồi định tính hoặc xếp hạng cho những gì mô hình tạo ra.
- Chi phí gia tăng cũng đến từ việc gắn nhãn dữ liệu riêng tư mà các công ty muốn đưa vào mô hình AI của mình, chẳng hạn như thông tin khách hàng hoặc dữ liệu nội bộ.
- Gắn nhãn dữ liệu kỹ thuật cao, chuyên ngành trong các lĩnh vực như pháp lý, tài chính và y tế càng đắt đỏ hơn.
- Các công ty phải thuê chuyên gia như bác sĩ, luật sư, tiến sĩ và nhà khoa học để gắn nhãn một số dữ liệu, hoặc thuê ngoài cho các công ty bên thứ ba như Scale AI, công ty đã huy động được 1 tỷ đô la đầu tư.
Thách thức và giải pháp:
- Các chuyên gia trong lĩnh vực AI cho biết chi phí gắn nhãn dữ liệu có thể lên đến hàng triệu đô la, chiếm 80% ngân sách AI.
- Dữ liệu cũng cần được gắn nhãn lại để cập nhật theo thời gian.
- Một số công ty đang tìm cách giảm chi phí bằng cách sử dụng dữ liệu "tổng hợp" - được tạo ra bởi chính AI - để tự động hóa một phần việc thu thập và gắn nhãn dữ liệu.
- Trong một số trường hợp, các mô hình có thể tự động hóa hoàn toàn việc gắn nhãn dữ liệu, chẳng hạn như trong lĩnh vực dược phẩm.
Kết luận:
- Gắn nhãn dữ liệu có thể tốn kém và mất thời gian, nhưng nó rất cần thiết cho việc phát triển AI.
- Chi phí gắn nhãn dữ liệu có thể tiếp tục tăng trong tương lai, khi AI ngày càng trở nên phức tạp và được sử dụng rộng rãi hơn.
Bài báo này cung cấp thông tin chi tiết về một vấn đề quan trọng liên quan đến chi phí phát triển AI, giúp người đọc hiểu rõ hơn về nguyên nhân và giải pháp cho vấn đề này.

0 comments Blogger 0 Facebook
Đăng nhận xét