Mục lục

Giới thiệu

Quan niệm truyền thống trong phát triển trí tuệ nhân tạo (AI) cho rằng: mô hình càng lớn, hiệu năng càng cao. Tuy nhiên, quan điểm này đang bị thách thức bởi thế hệ mô hình ngôn ngữ AI mới nhất, đạt được kết quả tương đương thậm chí vượt trội với số lượng tham số ít hơn đáng kể. Bài viết này sẽ phân tích xu hướng này dựa trên nghiên cứu mới từ EpochAI.

Kích thước mô hình và hiệu suất: Một quan điểm mới

Nghiên cứu của EpochAI cho thấy GPT-4o chỉ hoạt động với khoảng 200 tỷ tham số, trong khi Claude 3.5 Sonnet sử dụng khoảng 400 tỷ tham số. Những con số này tạo ra sự tương phản mạnh mẽ so với GPT-4 ban đầu, được cho là chứa tới 1,8 nghìn tỷ tham số.

User added image

Do một số công ty AI không công khai kích thước mô hình kín của họ, EpochAI đã dựa trên tốc độ tạo văn bản và chi phí sử dụng để ước tính. Ví dụ, GPT-4o tạo ra 100 đến 150 token mỗi giây và có giá 10 đô la cho một triệu token – làm cho nó nhanh hơn và hiệu quả về chi phí hơn đáng kể so với GPT-4 ban đầu.

Biểu đồ đường: So sánh chi phí của các kích thước mô hình GPT-4 khác nhau, cho thấy sự gia tăng chi phí theo cấp số mũ với tốc độ token ngày càng tăng. (Hình ảnh: Epoch AI)

Tại sao mô hình nhỏ hơn lại hiệu quả hơn?

EpochAI đã xác định bốn lý do chính cho xu hướng này:

  1. Nhu cầu cao bất ngờ: Nhu cầu cao đối với các dịch vụ AI đã buộc các nhà cung cấp phải tạo ra các hệ thống hiệu quả hơn.
  2. Phương pháp chưng cất (Distillation): Quá trình "chưng cất" cho phép các mô hình lớn huấn luyện các mô hình nhỏ hơn mà vẫn duy trì mức hiệu năng tương tự.
  3. Luật mở rộng Chinchilla: Việc áp dụng luật mở rộng Chinchilla đã dẫn các công ty huấn luyện các mô hình với ít tham số hơn trên tập dữ liệu lớn hơn. Tối ưu hóa tính toán thời gian chạy (Test-time compute scaling) cũng góp phần vào việc thiết kế mô hình hiệu quả hơn.
  4. Lý luận trong ngữ cảnh (In-context reasoning): Những cải tiến trong phương pháp "lý luận trong ngữ cảnh" sử dụng dữ liệu tổng hợp cho phép các mô hình nhỏ hơn xử lý các nhiệm vụ phức tạp một cách hiệu quả.

Dự đoán về tương lai của mô hình ngôn ngữ lớn

Sam Altman, CEO của OpenAI, đã dự đoán sự thay đổi này ngay sau khi GPT-4 được phát hành vào tháng 4 năm 2023. Ông so sánh cuộc đua giành nhiều tham số hơn với việc theo đuổi tốc độ xung nhịp bộ xử lý cao hơn trong lịch sử – một phát triển đã chứng minh là bế tắc. Đáng chú ý, GPT-4 là mô hình đầu tiên của OpenAI mà công ty không tiết lộ số lượng tham số.

EpochAI dự đoán thế hệ mô hình ngôn ngữ tiếp theo, bao gồm GPT-5 và Claude 4, sẽ đạt hoặc vượt nhẹ kích thước của GPT-4 ban đầu. Các mô hình với 1 đến 10 nghìn tỷ tham số có thể hoạt động tốt hơn và hiệu quả về chi phí hơn so với các mô hình 100 nghìn tỷ tham số, ngay cả khi về mặt kỹ thuật khả thi, nhờ vào tối ưu hóa tính toán thời gian chạy. Các nhà phân tích dự đoán sự tăng trưởng chậm hơn trong ba năm tới, với kích thước mô hình tăng ít hơn 10 lần – một tốc độ chậm hơn so với bước nhảy từ GPT-3 đến GPT-4.

Ilya Sutskever, cựu nhà khoa học trưởng của OpenAI, gần đây đã chỉ ra dữ liệu huấn luyện hạn chế là một ràng buộc chính đối với sự phát triển AI. Altman trước đây cũng cho biết vào tháng 6 rằng mặc dù có đủ dữ liệu cho thế hệ AI tiếp theo, nhưng những tiến bộ trong tương lai sẽ cần cả dữ liệu chất lượng cao hơn và các phương pháp học tập hiệu quả hơn.

Kết luận

Các mô hình ngôn ngữ AI mới nhất, như GPT-4o và Claude 3.5 Sonnet, đang thách thức quan niệm cho rằng nhiều tham số đồng nghĩa với hiệu năng tốt hơn. Các mô hình này đạt được kết quả tương đương hoặc tốt hơn với số lượng tham số ít hơn đáng kể so với người tiền nhiệm của chúng. Xu hướng này phản ánh sự chuyển dịch sang sự ưu tiên hiệu quả và tính khả thi về chi phí trong phát triển AI, mở ra một chương mới đầy hứa hẹn cho lĩnh vực này.

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top