Xu hướng lớn tiếp theo trong nghiên cứu Mô hình Ngôn ngữ Lớn (LLM)

Mục lục:

Mô hình Ngôn ngữ Đa phương thức (Multimodal LLMs)
- Ví dụ: OpenAI's Sora, Gemini, LLaVA
Mô hình Ngôn ngữ Mở (Open-Source LLMs)
- Ví dụ: LLM360, LLaMA, OLMo, Llama-3
Mô hình Ngôn ngữ Đặc thù lĩnh vực (Domain-specific LLMs)
- Ví dụ: BioGPT, StarCoder, MathVista
Tác nhân LLM (LLM Agents)
- Ví dụ: ChemCrow, ToolLLM, OS-Copilot
Mô hình Ngôn ngữ Nhỏ hơn (Smaller LLMs)
- Ví dụ: BitNet, Gemma 1B, Lit-LLaMA
Mô hình Ngôn ngữ Không phải Transformer (Non-Transformer LLMs)
- Ví dụ: Mamba, RWKV

Mô hình Ngôn ngữ Đa phương thức (Multimodal LLMs)

Khả năng tích hợp nhiều loại đầu vào, bao gồm văn bản, hình ảnh và video, đã đưa các mô hình đa phương thức lên hàng đầu trong lĩnh vực trí tuệ nhân tạo. Những mô hình này cực kỳ linh hoạt cho nhiều ứng dụng vì chúng có thể hiểu và tạo ra nội dung trên nhiều phương thức. Bằng cách sử dụng đào tạo quy mô lớn trên nhiều tập dữ liệu khác nhau, các mô hình đa phương thức được xây dựng để thực hiện các nhiệm vụ phức tạp và tinh vi hơn, chẳng hạn như trả lời các câu hỏi về hình ảnh hoặc tạo ra nội dung video chi tiết dựa trên mô tả bằng văn bản.

Ví dụ:

OpenAI's Sora: Sora là một bước tiến đáng kể trong AI, đặc biệt là trong việc tạo video từ văn bản. Mô hình này sử dụng nhiều dữ liệu video và hình ảnh, bao gồm thời lượng, độ phân giải và tỷ lệ khung hình khác nhau, để đào tạo các mô hình khuếch tán có điều kiện văn bản. Sora tạo ra các bộ phim độ nét cao trong thời lượng tối đa một phút bằng cách xử lý các mảnh không thời gian của mã tiềm ẩn video và hình ảnh bằng cách sử dụng kiến trúc Transformer tiên tiến.
Gemini: Gia đình các mô hình đa phương thức Gemini của Google rất giỏi trong việc hiểu và tạo ra nội dung dựa trên văn bản, âm thanh, video và hình ảnh. Gemini, có sẵn trong các phiên bản Ultra, Pro và Nano, có thể xử lý nhiều ứng dụng, từ các trường hợp sử dụng trên thiết bị có giới hạn bộ nhớ đến các hoạt động suy luận phức tạp. Kết quả đánh giá cho thấy mô hình Gemini Ultra cải thiện hiệu suất tiên tiến trong tất cả 20 điểm chuẩn đa phương thức được đánh giá và đạt hiệu suất chuyên gia của con người trên điểm chuẩn thử nghiệm MMLU, trong số các điểm chuẩn khác, trong 30 trên 32.
LLaVA: LLaVA là một mô hình AI tiên tiến giúp kết nối sự hiểu biết về ngôn ngữ và hình ảnh bằng cách cải thiện khả năng học tập đa phương thức. Mô hình này rất lý tưởng cho các ứng dụng đòi hỏi sự hiểu biết sâu sắc về cả hai định dạng vì nó có thể phân tích và tạo ra nội dung kết hợp văn bản và hình ảnh bằng cách tích hợp dữ liệu hình ảnh vào các mô hình ngôn ngữ.

Mô hình Ngôn ngữ Mở (Open-Source LLMs)

Các Mô hình Ngôn ngữ Lớn có sẵn dưới dạng phần mềm nguồn mở đã dân chủ hóa nghiên cứu AI bằng cách cho phép cộng đồng toàn cầu truy cập vào các mô hình phức tạp và các quy trình đào tạo đằng sau chúng. Với điều này, quyền truy cập minh bạch được cung cấp cho thiết kế mô hình, dữ liệu đào tạo và triển khai mã. Ngoài việc thúc đẩy hợp tác và đẩy nhanh khám phá, tính minh bạch này đảm bảo tính tái tạo trong nghiên cứu AI.

Ví dụ:

LLM360: LLM360 là một lĩnh vực mà LLM360 muốn thay đổi bằng cách thúc đẩy sự minh bạch hoàn toàn trong việc tạo mô hình. Dự án này tiết lộ dữ liệu đào tạo, mã và kết quả trung gian cùng với trọng số cuối cùng cho các mô hình như AMBER và CRYSTALCODER. Đặt ra một điểm chuẩn mới cho phát triển AI có đạo đức, LLM360 khuyến khích tính tái tạo và nghiên cứu hợp tác bằng cách biến toàn bộ quá trình đào tạo thành mã nguồn mở.
LLaMA: Với các mô hình dao động từ 7B đến 65B tham số, LLaMA là một cải tiến đáng kể trong các mô hình nguồn mở LLM. LLaMA-13B, được đào tạo chỉ trên các tập dữ liệu công khai, đã vượt trội so với các mô hình độc quyền lớn hơn trên nhiều điểm chuẩn. Dự án này thể hiện sự cống hiến cho sự cởi mở và nghiên cứu AI do cộng đồng điều khiển.
OLMo: Đối với các mô hình quy mô 7B, OLMo (Mô hình Ngôn ngữ Mở) của AI2 cung cấp quyền truy cập đầy đủ vào mã đào tạo, dữ liệu và trọng số mô hình. OLMo khuyến khích sự tiến bộ trong nghiên cứu mô hình ngôn ngữ bằng cách nhấn mạnh sự cởi mở và tính tái tạo, cho phép các nhà nghiên cứu và học giả cùng tạo ra.
Llama-3: Meta Llama, với các mô hình tham số 8B và 70B được tối ưu hóa cho nhiều ứng dụng, đã được giới thiệu trong Llama-3. Các mô hình này đặt ra tiêu chuẩn cho phát triển AI nguồn mở trên nhiều lĩnh vực khác nhau với hiệu suất tiên tiến của chúng trong suy luận và các nhiệm vụ khác

Mô hình Ngôn ngữ Đặc thù lĩnh vực (Domain-specific LLMs)

Các mô hình đặc thù lĩnh vực được thiết kế để hoạt động tốt hơn trong các nhiệm vụ chuyên biệt bằng cách sử dụng dữ liệu đặc thù lĩnh vực và các chiến lược tinh chỉnh, chẳng hạn như lập trình và y sinh học. Các mô hình này không chỉ nâng cao hiệu suất công việc mà còn cho thấy cách AI có thể được sử dụng để giải quyết các vấn đề phức tạp trong nhiều lĩnh vực chuyên nghiệp.

Ví dụ:

BioGPT: Với kiến trúc độc đáo cho lĩnh vực y sinh học, BioGPT cải thiện các hoạt động như trích xuất thông tin y sinh học và tổng hợp văn bản. Trong một số nhiệm vụ xử lý ngôn ngữ tự nhiên y sinh học, mô hình này hoạt động tốt hơn các mô hình trước đây, chứng minh khả năng hiểu và tạo ra văn bản y sinh học một cách hiệu quả.
StarCoder: StarCoder tập trung vào việc hiểu các ngôn ngữ lập trình và tạo mã. Mô hình này rất thành thạo trong các hoạt động phát triển phần mềm do đào tạo kỹ lưỡng trên các tập dữ liệu mã lớn. Nó có khả năng mạnh mẽ để hiểu logic lập trình phức tạp và tạo ra các đoạn mã.
MathVista: MathVista giải quyết sự kết hợp của sự hiểu biết về thị giác và tư duy toán học. Mô hình này thể hiện sự cải thiện trong việc xử lý dữ liệu toán học và thị giác trong nghiên cứu AI và cung cấp một tiêu chuẩn để đánh giá các mô hình LLM về các nhiệm vụ toán học.

Tác nhân LLM (LLM Agents)

Các Mô hình Ngôn ngữ Lớn cung cấp năng lượng cho các Tác nhân LLM, là các hệ thống AI phức tạp. Chúng sử dụng kỹ năng ngôn ngữ mạnh mẽ của mình để phát triển mạnh mẽ trong các công việc như phát triển nội dung và dịch vụ khách hàng. Các tác nhân này xử lý các truy vấn bằng ngôn ngữ tự nhiên và thực hiện các nhiệm vụ trong nhiều lĩnh vực, chẳng hạn như đưa ra đề xuất hoặc tạo ra các tác phẩm nghệ thuật. Các Tác nhân LLM đơn giản hóa các tương tác khi chúng được tích hợp vào các ứng dụng như chatbot và trợ lý ảo. Điều này cho thấy sự linh hoạt của chúng và cách chúng có thể cải thiện trải nghiệm người dùng trong nhiều ngành.

Ví dụ:

ChemCrow: ChemCrow hợp nhất 18 công cụ chuyên biệt vào một nền tảng duy nhất, biến đổi hóa học tính toán. Tác nhân dựa trên LLM này có thể độc lập tổng hợp thuốc chống côn trùng, xúc tác hữu cơ và các sắc tố mới. Nó cũng xuất sắc trong tổng hợp hóa học, khám phá thuốc và thiết kế vật liệu. ChemCrow sử dụng các nguồn kiến thức bên ngoài, điều này cải thiện hiệu suất của nó trong các công việc hóa học đầy thách thức, trái ngược với các mô hình LLM tiêu chuẩn.
ToolLLM: ToolLLM cải thiện các mô hình nguồn mở LLM bằng cách nhấn mạnh tính khả dụng của các công cụ. Nó sử dụng ChatGPT để thu thập API, tạo hướng dẫn và chú thích tuyến đường giải pháp, cùng với ToolBench, một tập dữ liệu điều chỉnh hướng dẫn. Tương tự như các mô hình mã nguồn đóng như ChatGPT, ToolLLaMA thể hiện hiệu suất mạnh mẽ trong việc thực hiện các hướng dẫn phức tạp và khái quát hóa cho các nguồn dữ liệu không xác định.
OS-Copilot: Bằng cách tương tác với các hệ điều hành, OS-Copilot mở rộng khả năng của LLM và tạo ra FRIDAY, một tác nhân tự động thực hiện tốt nhiều công việc. Trên các điểm chuẩn GAIA, FRIDAY hoạt động tốt hơn các phương pháp tiếp cận trước đây, thể hiện việc sử dụng linh hoạt cho các nhiệm vụ như PowerPoint và Excel với ít giám sát hơn. Khung OS-Copilot mở rộng tiềm năng của AI trong tính toán đa năng, cho thấy sự tiến bộ đáng kể trong phát triển tác nhân tự động và các nghiên cứu AI rộng lớn hơn.

Mô hình Ngôn ngữ Nhỏ hơn (Smaller LLMs)

Các mô hình LLM nhỏ hơn, chẳng hạn như các phiên bản lượng tử hóa, phù hợp để triển khai thiết bị có hạn tài nguyên vì chúng phục vụ các ứng dụng đòi hỏi độ chính xác ít hơn hoặc ít tham số hơn. Các mô hình này tạo điều kiện thuận lợi cho việc triển khai trong điện toán cạnh, thiết bị di động và các tình huống khác yêu cầu các giải pháp AI hiệu quả bằng cách cho phép khả năng truy cập rộng rãi hơn và ứng dụng của các khả năng xử lý ngôn ngữ quy mô lớn trong các môi trường có tài nguyên tính toán hạn chế.

Ví dụ:

BitNet: BitNet là một mô hình LLM 1 bit lần đầu tiên được giới thiệu trong nghiên cứu dưới dạng BitNet b1.58. Với trọng số ba phân {-1, 0, 1} cho mỗi tham số, mô hình này cải thiện đáng kể hiệu quả chi phí trong khi hoạt động theo cách tương tự như các mô hình độ chính xác đầy đủ về độ phức tạp và hiệu suất nhiệm vụ. BitNet vượt trội về mức tiêu thụ năng lượng, lưu lượng, độ trễ và sử dụng bộ nhớ. Nó cũng đề xuất một mô hình xử lý mới và tạo ra một quy luật tỷ lệ mới để đào tạo các mô hình LLM hiệu suất cao, chi phí thấp.
Gemma 1B: Các biến thể mở nhẹ hiện đại được gọi là Gemma 1B dựa trên cùng một công nghệ với dòng Gemini. Các mô hình này hoạt động cực kỳ tốt trong các điểm chuẩn giải thích ngôn ngữ, suy luận và an toàn với kích thước 2 tỷ và 7 tỷ tham số. Gemma hoạt động tốt hơn trên 11 trong số 18 nhiệm vụ dựa trên văn bản so với các mô hình mở có kích thước tương tự. Việc phát hành nhấn mạnh sự an toàn và trách nhiệm trong việc sử dụng AI bằng cách bao gồm cả các kiểm tra được đào tạo trước và tinh chỉnh.
Lit-LLaMA: Xây dựng dựa trên nanoGPT, Lit-LLaMA tìm cách cung cấp một triển khai tinh khiết, hoàn toàn mở và an toàn của mã nguồn LLaMA. Dự án ưu tiên phát triển do cộng đồng điều khiển và sự đơn giản. Do đó, không có mã khuôn mẫu và việc triển khai rất đơn giản. Việc sử dụng hiệu quả trên các thiết bị tiêu dùng được hỗ trợ bởi Lit-LLaMA cho các phương pháp tinh chỉnh hiệu quả tham số như LLaMA-Adapter và LoRA. Sử dụng các thư viện như PyTorch Lightning và Lightning Fabric, Lit-LLaMA tập trung vào các khía cạnh quan trọng của việc triển khai và đào tạo mô hình, duy trì phương pháp luận đơn giản để tạo ra triển khai LLaMA tốt nhất có thể truy cập, hoàn toàn nguồn mở và sẵn sàng cho sự tiến bộ và khám phá nhanh chóng.

Mô hình Ngôn ngữ Không phải Transformer (Non-Transformer LLMs)

Các mô hình ngôn ngữ được biết đến với tên gọi Mô hình Ngôn ngữ Không phải Transformer khác biệt với kiến trúc Transformer thông thường bằng cách thường giới thiệu các thành phần như Mạng Nơron Luân phiên (RNN). Một số nhược điểm và vấn đề chính với các bộ biến đổi, như chi phí tính toán đắt đỏ và xử lý không hiệu quả dữ liệu tuần tự, được giải quyết bởi các phương pháp tiếp cận này. Các mô hình không phải biến đổi LLM cung cấp các phương pháp tiếp cận độc đáo để cải thiện hiệu suất và hiệu quả của mô hình bằng cách nghiên cứu các thiết kế thay thế. Điều này mở rộng phạm vi ứng dụng cho các công việc xử lý ngôn ngữ tiên tiến và tăng số lượng công cụ có sẵn cho phát triển AI.

Ví dụ:

Mamba: Vì Mamba giải quyết sự thiếu hiệu quả về tính toán của kiến trúc Transformer, đặc biệt là với các chuỗi mở rộng, nó cung cấp một sự phát triển đáng kể trong các mô hình nền tảng. Ngược lại với các mô hình thông thường, Mamba không bị hạn chế bởi các kiến trúc thời gian dưới bậc hai, gặp khó khăn với suy luận dựa trên nội dung. Một số ví dụ về các thiết kế này là chú ý tuyến tính và các mô hình luân phiên. Mamba nâng cao khả năng xử lý phương thức rời rạc bằng cách cho phép các tham số Mô hình Không gian Trạng thái Có cấu trúc (SSM) hoạt động phụ thuộc vào đầu vào. Đột phá này và một thuật toán song song nhận thức về phần cứng dẫn đến kiến trúc mạng nơron đơn giản hóa loại bỏ các khối MLP và sự chú ý. Trên nhiều phương thức, bao gồm ngôn ngữ, âm nhạc và bộ gen, Mamba vượt trội so với các Transformer có kích thước tương đương và thậm chí lớn hơn với lưu lượng lớn hơn năm lần so với Transformer và hiển thị tỷ lệ tuyến tính với độ dài chuỗi.
RWKV: Để giải quyết các khó khăn về bộ nhớ và tính toán liên quan đến xử lý chuỗi, RWKV sáng tạo kết hợp những lợi thế của Transformer và Mạng Nơron Luân phiên (RNN). Các bộ biến đổi khá hiệu quả, nhưng tỷ lệ độ dài chuỗi của chúng là bậc hai, trong khi các RNN tỷ lệ tuyến tính nhưng không thể song song hóa hoặc mở rộng. Mô hình có thể học như một Transformer và suy luận như một RNN nhờ việc giới thiệu cơ chế chú ý tuyến tính bởi RWKV. RWKV có thể duy trì độ phức tạp tính toán và bộ nhớ không đổi trong suốt suy luận với khả năng kép của nó. RWKV thể hiện hiệu suất tương đương với Transformer khi được mở rộng lên đến 14 tỷ tham số, cung cấp một con đường khả thi để tạo ra các mô hình xử lý chuỗi hiệu quả hơn, cân bằng hiệu suất cao và hiệu quả tính toán.

Xu hướng lớn tiếp theo trong nghiên cứu Mô hình Ngôn ngữ Lớn (LLM)