Large Language Models (LLMs): Mở ra kỷ nguyên mới cho AI

Mục lục:

LLM là gì?
LLM hoạt động như thế nào?
- Học máy và học sâu
- Mạng lưới thần kinh
- Mô hình Transformer
LLM được ứng dụng như thế nào?
Ưu điểm và hạn chế của LLM
Phát triển LLM: Nhanh chóng và hiệu quả

1. LLM là gì?

LLM là một loại chương trình trí tuệ nhân tạo (AI) có khả năng nhận biết và tạo ra văn bản, ngoài ra còn có thể thực hiện nhiều tác vụ khác. LLMs được đào tạo trên các tập dữ liệu khổng lồ - do đó có tên gọi lớn. Chúng được xây dựng dựa trên học máy, cụ thể là một loại mạng lưới thần kinh gọi là mô hình Transformer.

Nói một cách đơn giản, LLM là một chương trình máy tính được cung cấp đủ dữ liệu để có thể nhận biết và giải thích ngôn ngữ tự nhiên hoặc các loại dữ liệu phức tạp khác. Nhiều LLM được đào tạo trên dữ liệu thu thập từ Internet - hàng nghìn hoặc hàng triệu gigabyte văn bản. Tuy nhiên, chất lượng mẫu dữ liệu ảnh hưởng đến khả năng học ngôn ngữ tự nhiên của LLM, vì vậy các lập trình viên LLM có thể sử dụng tập dữ liệu được chọn lọc kỹ càng hơn.

2. LLM hoạt động như thế nào?

2.1. Học máy và học sâu

Ở mức cơ bản, LLMs được xây dựng dựa trên học máy. Học máy là một nhánh của AI, đề cập đến việc cung cấp cho một chương trình lượng lớn dữ liệu để đào tạo chương trình cách xác định các đặc điểm của dữ liệu đó mà không cần sự can thiệp của con người.

LLMs sử dụng một loại học máy gọi là học sâu. Các mô hình học sâu về cơ bản có thể tự đào tạo để nhận biết sự khác biệt mà không cần sự can thiệp của con người, mặc dù thường cần một số tinh chỉnh thủ công.

Học sâu sử dụng xác suất để học hỏi. Ví dụ, trong câu The quick brown fox jumped over the lazy dog, các chữ cái e và o là phổ biến nhất, xuất hiện 4 lần mỗi chữ cái. Từ đó, mô hình học sâu có thể kết luận (đúng) rằng những chữ cái này là những chữ cái có khả năng xuất hiện nhiều nhất trong văn bản tiếng Anh.

Thực tế, một mô hình học sâu không thể thực sự kết luận bất cứ điều gì từ một câu duy nhất. Nhưng sau khi phân tích hàng nghìn tỷ câu, nó có thể học đủ để dự đoán cách hoàn thành một câu chưa hoàn chỉnh một cách logic, hoặc thậm chí tạo ra các câu của riêng nó.

2.2. Mạng lưới thần kinh

Để cho phép loại học sâu này, LLMs được xây dựng dựa trên mạng lưới thần kinh. Cũng như bộ não con người được cấu tạo từ các nơron kết nối và truyền tín hiệu cho nhau, mạng lưới thần kinh nhân tạo (thường được gọi tắt là mạng lưới thần kinh) được cấu tạo từ các nút mạng kết nối với nhau. Chúng được cấu tạo từ nhiều lớp: lớp đầu vào, lớp đầu ra và một hoặc nhiều lớp ở giữa. Các lớp chỉ truyền thông tin cho nhau nếu đầu ra của chúng vượt quá một ngưỡng nhất định.

2.3. Mô hình Transformer

Loại mạng lưới thần kinh cụ thể được sử dụng cho LLMs được gọi là mô hình Transformer. Các mô hình Transformer có khả năng học ngữ cảnh - đặc biệt quan trọng đối với ngôn ngữ tự nhiên, vốn phụ thuộc nhiều vào ngữ cảnh. Các mô hình Transformer sử dụng một kỹ thuật toán học gọi là tự chú ý để phát hiện những cách tinh tế mà các yếu tố trong một chuỗi liên quan đến nhau. Điều này giúp chúng hiểu ngữ cảnh tốt hơn so với các loại học máy khác. Nó cho phép chúng hiểu, ví dụ, cách kết thúc một câu kết nối với phần đầu, và cách các câu trong một đoạn văn liên quan đến nhau.

Điều này cho phép LLMs giải thích ngôn ngữ của con người, ngay cả khi ngôn ngữ đó mơ hồ hoặc được xác định kém, được sắp xếp theo các kết hợp mà chúng chưa từng gặp phải trước đây, hoặc được đặt trong ngữ cảnh theo những cách mới. Ở một mức độ nào đó, chúng hiểu ngữ nghĩa ở chỗ chúng có thể liên kết các từ và khái niệm theo ý nghĩa của chúng, sau khi đã nhìn thấy chúng được nhóm lại với nhau theo cách đó hàng triệu hoặc hàng tỷ lần.

3. LLM được ứng dụng như thế nào?

LLMs có thể được đào tạo để thực hiện một số nhiệm vụ. Một trong những ứng dụng được biết đến nhiều nhất là ứng dụng của chúng với tư cách là AI tạo sinh: khi được đưa ra một lời nhắc hoặc được hỏi một câu hỏi, chúng có thể tạo ra văn bản để trả lời. Ví dụ, LLM ChatGPT có sẵn công khai có thể tạo ra các bài luận, bài thơ và các dạng văn bản khác để đáp lại đầu vào của người dùng.

Bất kỳ tập dữ liệu lớn và phức tạp nào cũng có thể được sử dụng để đào tạo LLMs, bao gồm cả ngôn ngữ lập trình. Một số LLM có thể giúp các lập trình viên viết mã. Chúng có thể viết các hàm theo yêu cầu - hoặc, được cung cấp một số mã làm điểm bắt đầu, chúng có thể hoàn thành việc viết một chương trình. LLMs cũng có thể được sử dụng trong:

Phân tích tâm lý
Nghiên cứu DNA
Chăm sóc khách hàng
Trò chuyện tự động
Tìm kiếm trực tuyến

Một số ví dụ về LLMs thực tế bao gồm ChatGPT (từ OpenAI), Bard (Google), Llama (Meta) và Bing Chat (Microsoft). Copilot của GitHub là một ví dụ khác, nhưng dành cho mã hóa thay vì ngôn ngữ tự nhiên của con người.

4. Ưu điểm và hạn chế của LLM

Một đặc điểm chính của LLMs là khả năng phản hồi các truy vấn không thể đoán trước. Một chương trình máy tính truyền thống nhận lệnh trong cú pháp được chấp nhận của nó, hoặc từ một tập hợp đầu vào nhất định từ người dùng. Trò chơi điện tử có một tập hợp hữu hạn các nút, một ứng dụng có một tập hợp hữu hạn các thứ mà người dùng có thể nhấp hoặc nhập, và ngôn ngữ lập trình được tạo thành từ các câu lệnh if/then chính xác.

Ngược lại, LLM có thể phản hồi ngôn ngữ tự nhiên của con người và sử dụng phân tích dữ liệu để trả lời một câu hỏi hoặc lời nhắc không cấu trúc theo cách có ý nghĩa. Trong khi một chương trình máy tính điển hình sẽ không nhận ra một lời nhắc như Bốn ban nhạc funk hay nhất trong lịch sử là gì?, LLM có thể trả lời bằng một danh sách gồm bốn ban nhạc như vậy, và một lời bào chữa hợp lý về lý do tại sao chúng là những ban nhạc hay nhất.

Tuy nhiên, về mặt thông tin mà chúng cung cấp, LLMs chỉ có thể đáng tin cậy như dữ liệu mà chúng hấp thụ. Nếu được cung cấp thông tin sai lệch, chúng sẽ đưa ra thông tin sai lệch để đáp lại các truy vấn của người dùng. LLMs đôi khi cũng bị ảo giác: chúng tạo ra thông tin giả khi không thể đưa ra câu trả lời chính xác. Ví dụ, vào năm 2022, cơ quan truyền thông Fast Company đã hỏi ChatGPT về quý tài chính trước đó của công ty Tesla; trong khi ChatGPT đã cung cấp một bài báo tin tức mạch lạc để đáp lại, phần lớn thông tin bên trong đã được bịa đặt.

Về mặt bảo mật, các ứng dụng hướng đến người dùng dựa trên LLMs dễ bị lỗi như bất kỳ ứng dụng nào khác. LLMs cũng có thể bị thao túng thông qua các đầu vào độc hại để cung cấp các loại phản hồi nhất định hơn các loại phản hồi khác - bao gồm cả các phản hồi nguy hiểm hoặc phi đạo đức. Cuối cùng, một trong những vấn đề bảo mật với LLMs là người dùng có thể tải lên dữ liệu bảo mật, bí mật vào chúng để tăng năng suất của chính họ. Nhưng LLMs sử dụng các đầu vào mà chúng nhận được để đào tạo thêm các mô hình của chúng, và chúng không được thiết kế để là két sắt an toàn; chúng có thể tiết lộ dữ liệu bí mật để đáp lại các truy vấn từ người dùng khác.

5. Phát triển LLM: Nhanh chóng và hiệu quả

Để xây dựng các ứng dụng LLM, các nhà phát triển cần truy cập dễ dàng vào nhiều tập dữ liệu, và họ cần nơi để lưu trữ những tập dữ liệu đó. Cả lưu trữ đám mây và lưu trữ tại chỗ cho các mục đích này có thể liên quan đến các khoản đầu tư cơ sở hạ tầng ngoài khả năng chi trả của ngân sách nhà phát triển. Ngoài ra, các tập dữ liệu đào tạo thường được lưu trữ ở nhiều nơi, nhưng việc di chuyển dữ liệu đó đến một vị trí trung tâm có thể dẫn đến phí thoát ra khổng lồ.

May mắn thay, Cloudflare cung cấp một số dịch vụ để cho phép các nhà phát triển nhanh chóng bắt đầu chạy các ứng dụng LLM, và các loại AI khác. Vectorize là một cơ sở dữ liệu vectơ phân tán trên toàn cầu để truy vấn dữ liệu được lưu trữ trong kho lưu trữ đối tượng không phí thoát ra (R2) hoặc các tài liệu được lưu trữ trong Workers Key Value. Kết hợp với nền tảng phát triển Cloudflare Workers AI, các nhà phát triển có thể sử dụng Cloudflare để nhanh chóng bắt đầu thử nghiệm với LLMs của riêng họ.

Large Language Models (LLMs): Mở ra kỷ nguyên mới cho AI