Vượt Qua LLM: Lý Do Tại Sao Các Mô Hình Ngôn Ngữ Nhỏ Là Tương Lai Của Trí Tuệ Nhân Tạo

Các mô hình ngôn ngữ lớn (LLM) đã tạo nên một làn sóng mới trong lĩnh vực trí tuệ nhân tạo (AI) với sự ra mắt của ChatGPT của OpenAI. Kể từ đó, nhiều công ty khác cũng đã tung ra các LLM của riêng mình, nhưng hiện nay, nhiều người đang hướng đến các mô hình ngôn ngữ nhỏ (SLM).

SLM đang ngày càng phổ biến, nhưng chúng là gì và khác biệt với LLM như thế nào?

Mô Hình Ngôn Ngữ Nhỏ (SLM) là gì?

Mô hình ngôn ngữ nhỏ (SLM) là một loại mô hình AI với số lượng tham số (có thể hiểu đơn giản là các giá trị trong mô hình được học trong quá trình huấn luyện) ít hơn. Giống như các mô hình ngôn ngữ lớn, SLM có thể tạo ra văn bản và thực hiện các tác vụ khác. Tuy nhiên, SLM sử dụng ít dữ liệu hơn cho quá trình huấn luyện, có số lượng tham số ít hơn và yêu cầu ít sức mạnh tính toán hơn để huấn luyện và vận hành.

SLM tập trung vào các chức năng chính, và kích thước nhỏ của chúng cho phép triển khai trên các thiết bị khác nhau, kể cả những thiết bị không có phần cứng cao cấp như điện thoại di động. Ví dụ, Google Nano là một SLM trên thiết bị được xây dựng từ đầu, chạy trên các thiết bị di động. Do kích thước nhỏ, Nano có thể chạy cục bộ với hoặc không kết nối mạng, theo công ty.

Ngoài Nano, còn nhiều SLM khác từ các công ty hàng đầu và mới nổi trong lĩnh vực AI. Một số SLM phổ biến bao gồm Phi-3 của Microsoft, GPT-4o mini của OpenAI, Claude 3 Haiku của Anthropic, Llama 3 của Meta và Mixtral 8x7B của Mistral AI.

Mô Hình Ngôn Ngữ Nhỏ so với Mô Hình Ngôn Ngữ Lớn

Khi nói đến SLM, chúng ta không thể bỏ qua những người anh em lớn của chúng: LLM. Sự khác biệt chính giữa SLM và LLM là kích thước của mô hình, được đo bằng số lượng tham số.

Cho đến nay, chưa có sự đồng thuận trong ngành AI về số lượng tham số tối đa để xem xét một mô hình là SLM hoặc số lượng tham số tối thiểu cần thiết để được coi là LLM. Tuy nhiên, SLM thường có hàng triệu đến vài tỷ tham số, trong khi LLM có nhiều hơn, lên tới hàng nghìn tỷ. Ví dụ, GPT-3, được phát hành vào năm 2020, có 175 tỷ tham số (và người ta đồn rằng mô hình GPT-4 có khoảng 1,76 nghìn tỷ tham số), trong khi các SLM Phi-3-mini, Phi-3-small và Phi-3-medium của Microsoft vào năm 2024 có 3,8 tỷ, 7 tỷ và 14 tỷ tham số, tương ứng.

Ngoài ra, lượng dữ liệu được sử dụng để huấn luyện cũng là một yếu tố khác biệt giữa SLM và LLM. SLM được huấn luyện với số lượng dữ liệu nhỏ hơn, trong khi LLM sử dụng các tập dữ liệu lớn. Sự khác biệt này cũng ảnh hưởng đến khả năng của mô hình trong việc giải quyết các nhiệm vụ phức tạp. Do sử dụng lượng dữ liệu lớn trong quá trình huấn luyện, LLM phù hợp hơn để giải quyết các nhiệm vụ phức tạp khác nhau đòi hỏi suy luận nâng cao, trong khi SLM phù hợp hơn cho các nhiệm vụ đơn giản hơn. Không giống như LLM, SLM sử dụng ít dữ liệu huấn luyện hơn, nhưng dữ liệu được sử dụng phải có chất lượng cao hơn để đạt được nhiều khả năng của LLM trong một gói nhỏ.

Tại Sao Các Mô Hình Ngôn Ngữ Nhỏ Là Tương Lai?

Đối với hầu hết các trường hợp sử dụng, SLM có vị trí tốt hơn để trở thành các mô hình chính được các công ty và người tiêu dùng sử dụng để thực hiện nhiều loại tác vụ khác nhau. Tất nhiên, LLM có những lợi thế của riêng mình và phù hợp hơn cho một số trường hợp sử dụng, chẳng hạn như giải quyết các nhiệm vụ phức tạp. Tuy nhiên, SLM là tương lai cho hầu hết các trường hợp sử dụng do các lý do sau:

1. Chi phí huấn luyện và bảo trì thấp hơn

SLM cần ít dữ liệu để huấn luyện hơn LLM, điều này làm cho chúng trở thành lựa chọn khả thi nhất cho các cá nhân và các công ty vừa và nhỏ với dữ liệu huấn luyện hạn chế, tài chính hạn chế hoặc cả hai. LLM đòi hỏi lượng dữ liệu huấn luyện lớn và, theo đó, cần các nguồn lực tính toán khổng lồ để cả huấn luyện và chạy.

Để minh họa, CEO của OpenAI, Sam Altman, đã xác nhận rằng họ đã chi hơn 100 triệu đô la để huấn luyện GPT-4 trong một sự kiện tại MIT (theo Wired). Một ví dụ khác là OPT-175B LLM của Meta. Meta cho biết nó được huấn luyện bằng cách sử dụng 992 GPU NVIDIA A100 80GB, mỗi chiếc có giá khoảng 10.000 đô la, theo CNBC. Điều đó đưa chi phí lên khoảng 9 triệu đô la, mà không bao gồm các chi phí khác như năng lượng, lương và nhiều hơn nữa.

Với những con số như vậy, các công ty vừa và nhỏ không thể huấn luyện LLM. Ngược lại, SLM có rào cản đầu vào về nguồn lực thấp hơn và chi phí vận hành thấp hơn, do đó nhiều công ty hơn sẽ áp dụng chúng.

2. Hiệu suất tốt hơn

Về hiệu suất, SLM vượt trội hơn LLM do kích thước nhỏ gọn của chúng. SLM có độ trễ thấp hơn và phù hợp hơn cho các kịch bản yêu cầu phản hồi nhanh hơn, chẳng hạn như các ứng dụng thời gian thực. Ví dụ, các trợ lý kỹ thuật số như Siri hoặc Alexa mong muốn phản hồi nhanh.

Việc chạy trên thiết bị cũng có nghĩa là yêu cầu của bạn không phải đi qua các máy chủ trực tuyến và trở lại để phản hồi truy vấn của bạn, dẫn đến phản hồi nhanh hơn.

3. Chính xác hơn

Khi nói đến AI tạo sinh, một điều luôn đúng: rác vào, rác ra. LLM hiện tại được huấn luyện bằng cách sử dụng các tập dữ liệu lớn từ internet thô. Do đó, chúng có thể không chính xác trong mọi tình huống. Đây là một trong những vấn đề của ChatGPT và các mô hình tương tự, và lý do tại sao bạn không nên tin vào mọi thứ mà một chatbot AI nói. Mặt khác, SLM được huấn luyện bằng dữ liệu chất lượng cao hơn so với LLM và do đó có độ chính xác cao hơn.

SLM cũng có thể được tinh chỉnh thêm với việc huấn luyện tập trung vào các nhiệm vụ hoặc lĩnh vực cụ thể, dẫn đến độ chính xác cao hơn trong các lĩnh vực đó so với các mô hình tổng quát lớn hơn.

4. Có thể chạy trên thiết bị

SLM cần ít sức mạnh tính toán hơn LLM và do đó phù hợp cho các trường hợp tính toán biên. Chúng có thể được triển khai trên các thiết bị biên như điện thoại thông minh và xe tự lái, không có sức mạnh hoặc tài nguyên tính toán lớn. Mô hình Nano của Google có thể chạy trên thiết bị, cho phép nó hoạt động ngay cả khi bạn không có kết nối internet.

Khả năng này mang lại lợi ích cho cả các công ty và người tiêu dùng. Đầu tiên, đó là một lợi ích về quyền riêng tư vì dữ liệu người dùng được xử lý cục bộ thay vì được gửi lên đám mây, điều này rất quan trọng khi ngày càng có nhiều AI được tích hợp vào điện thoại thông minh của chúng ta, chứa gần như mọi chi tiết về chúng ta. Nó cũng là một lợi ích cho các công ty vì họ không cần triển khai và vận hành các máy chủ lớn để xử lý các tác vụ AI.

SLM đang nhận được nhiều sự chú ý, với các nhà cung cấp AI lớn nhất như OpenAI, Google, Microsoft, Anthropic và Meta đã phát hành các mô hình như vậy. Các mô hình này phù hợp hơn với các tác vụ đơn giản hơn, điều này là điều mà hầu hết chúng ta sử dụng LLM cho; do đó, chúng là tương lai.

Tuy nhiên, LLM sẽ không biến mất đâu. Thay vào đó, chúng sẽ được sử dụng cho các ứng dụng tiên tiến kết hợp thông tin từ các lĩnh vực khác nhau để tạo ra thứ gì đó mới, chẳng hạn như trong nghiên cứu y tế.


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top