Mô hình Ngôn ngữ Lớn (LLM) và Mối Liên hệ với Trò chuyện AI: Tất cả những gì bạn cần biết
Giới thiệu:
Trò chuyện với chatbot AI như ChatGPT, Claude, Copilot hay Gemini, bạn có thể cảm nhận như đang tương tác với một con người thật sự. Chúng có thể đưa ra những phản hồi mạch lạc, ngữ pháp chính xác và thuyết phục, từ việc soạn thảo email, viết bài luận đến tóm tắt thông tin tìm kiếm. Tuy nhiên, đằng sau những phản hồi ấy không phải là một bộ não con người, mà là sự vận hành của các Mô hình Ngôn ngữ Lớn (LLM) – một công nghệ AI được đào tạo để nhận biết cách sử dụng từ ngữ và dự đoán các từ, câu, đoạn văn tiếp theo.
Mô hình Ngôn ngữ là gì?
Bạn có thể hình dung mô hình ngôn ngữ như một "nhà tiên tri" về ngôn ngữ.
Theo giáo sư Mark Riedl, thuộc Trường Tính toán Tương tác tại Đại học Công nghệ Georgia, "Mô hình ngôn ngữ cố gắng dự đoán cách con người sử dụng ngôn ngữ". Bản chất của mô hình ngôn ngữ là dự đoán từ tiếp theo dựa trên những từ đã có trước đó.
Đây chính là cơ sở của chức năng tự động hoàn thành khi bạn nhắn tin, cũng như của các chatbot AI.
Mô hình Ngôn ngữ Lớn (LLM) là gì?
LLM chứa một lượng khổng lồ từ ngữ được thu thập từ nhiều nguồn khác nhau. Khả năng của chúng được đo lường bằng "tham số".
Tham số là gì?
LLM sử dụng mạng nơ-ron – một dạng mô hình máy học thực hiện các phép tính toán học để tạo ra đầu ra. Số lượng biến số trong những phép tính này được gọi là tham số. LLM có thể sở hữu hàng tỷ tham số trở lên.
Giáo sư Riedl giải thích: "Chúng ta biết rằng một LLM là lớn khi nó tạo ra một đoạn văn hoàn chỉnh, liền mạch và trôi chảy".
Có tồn tại mô hình ngôn ngữ nhỏ không?
Có. Các công ty công nghệ như Microsoft đang phát triển các mô hình nhỏ hơn, được thiết kế để hoạt động "trực tiếp trên thiết bị" mà không cần đến tài nguyên tính toán lớn như LLM. Tuy nhiên, chúng vẫn hỗ trợ người dùng tận dụng sức mạnh của AI sáng tạo.
Cấu trúc bên trong của LLM?
Khi Anthropic "phân tích tâm trí" của mô hình ngôn ngữ lớn Claude 3.0 Sonnet, họ nhận thấy mỗi trạng thái nội bộ (những gì mô hình "suy nghĩ" trước khi tạo ra câu trả lời) được tạo ra bằng cách kết hợp các đặc trưng hay mẫu hoạt động của nơ-ron. (Các nơ-ron nhân tạo trong mạng nơ-ron bắt chước hành vi của nơ-ron trong não bộ chúng ta).
Bằng cách trích xuất các hoạt động của nơ-ron này từ Claude 3.0 Sonnet, Anthropic đã có thể tạo ra một bản đồ các trạng thái nội bộ của nó khi tạo ra câu trả lời. Họ phát hiện ra rằng các mẫu hoạt động của nơ-ron tập trung vào các thành phố, con người, nguyên tố hóa học, lĩnh vực khoa học và cú pháp lập trình, cũng như các khái niệm trừu tượng hơn như lỗi trong mã code, định kiến giới tính trong công việc và các cuộc trò chuyện về việc giữ bí mật.
Kết luận, Anthropic cho biết "tổ chức nội bộ của các khái niệm trong mô hình AI tương ứng, ít nhất là ở một mức độ nào đó, với quan niệm về sự tương đồng của con người".
LLM học hỏi như thế nào?
LLM học hỏi thông qua một quá trình AI cốt lõi gọi là học sâu.
Jason Alan Snyder, Giám đốc Công nghệ Toàn cầu của công ty quảng cáo Momentum Worldwide, cho biết: "Giống như khi bạn dạy một đứa trẻ - bạn đưa ra rất nhiều ví dụ".
Nói cách khác, bạn cung cấp cho LLM một kho tàng nội dung (gọi là dữ liệu huấn luyện) như sách, bài báo, mã code và bài đăng trên mạng xã hội để giúp nó hiểu cách sử dụng từ ngữ trong các ngữ cảnh khác nhau, thậm chí là cả những sắc thái tinh tế của ngôn ngữ. Mô hình này tiếp thu nhiều hơn cả những gì con người có thể đọc trong suốt cuộc đời - khoảng hàng nghìn tỷ mã thông tin (tokens).
Mã thông tin giúp mô hình AI phân tích và xử lý văn bản. Bạn có thể coi mô hình AI như một người đọc cần sự hỗ trợ. Mô hình phân chia câu thành các phần nhỏ hơn, hay mã thông tin - tương đương với 4 ký tự trong tiếng Anh, hoặc khoảng 3/4 từ - để có thể hiểu từng phần và từ đó hiểu được ý nghĩa tổng thể.
Từ đó, LLM có thể phân tích cách các từ kết nối với nhau và xác định những từ thường xuất hiện cùng nhau.
"Giống như việc xây dựng một bản đồ khổng lồ về mối quan hệ giữa các từ", Snyder nói. "Và sau đó, nó bắt đầu làm được điều thực sự thú vị, độc đáo, đó là dự đoán từ tiếp theo… và so sánh dự đoán với từ thực tế trong dữ liệu rồi điều chỉnh bản đồ nội bộ dựa trên độ chính xác của nó".
Quá trình dự đoán và điều chỉnh này diễn ra hàng tỷ lần, vì vậy LLM liên tục tinh chỉnh sự hiểu biết về ngôn ngữ và ngày càng giỏi hơn trong việc xác định các mẫu và dự đoán các từ tiếp theo. Nó thậm chí có thể học các khái niệm và sự thật từ dữ liệu để trả lời câu hỏi, tạo ra các định dạng văn bản sáng tạo và dịch ngôn ngữ. Nhưng chúng không hiểu ý nghĩa của từ ngữ giống như con người - tất cả những gì chúng biết là mối quan hệ thống kê.
LLM cũng học cách cải thiện phản hồi thông qua việc học tăng cường từ phản hồi của con người.
Maarten Sap, trợ lý giáo sư tại Viện Công nghệ Ngôn ngữ tại Đại học Carnegie Mellon giải thích: "Bạn nhận được đánh giá hoặc ưu tiên từ con người về phản hồi nào tốt hơn, dựa trên đầu vào mà nó nhận được. Và sau đó, bạn có thể dạy cho mô hình cải thiện phản hồi của nó".
LLM làm gì?
Được cung cấp một chuỗi các từ đầu vào, LLM sẽ dự đoán từ tiếp theo trong chuỗi.
Ví dụ, hãy xem cụm từ "Tôi đi thuyền buồm trên biển xanh thẳm…".
Hầu hết mọi người có thể đoán "biển" vì thuyền buồm, thẳm và xanh đều là những từ mà chúng ta liên tưởng đến biển. Nói cách khác, mỗi từ tạo ra ngữ cảnh cho những gì nên xuất hiện tiếp theo.
"Những mô hình ngôn ngữ lớn này, vì chúng có rất nhiều tham số, nên có thể lưu trữ rất nhiều mẫu", Riedl nói. "Chúng rất giỏi trong việc chọn ra những manh mối này và đưa ra những phỏng đoán thực sự, thực sự tốt về những gì sẽ đến tiếp theo".
LLM làm tốt những gì?
LLM rất giỏi trong việc tìm ra mối liên hệ giữa các từ và tạo ra văn bản nghe có vẻ tự nhiên.
"Chúng nhận đầu vào, thường là một tập hợp các hướng dẫn, ví dụ như 'Làm điều này cho tôi' hoặc 'Kể cho tôi về điều này' hoặc 'Tóm tắt điều này' và có thể trích xuất các mẫu đó từ đầu vào và tạo ra một chuỗi phản hồi liền mạch", Riedl nói.
LLM gặp khó khăn ở đâu?
Tuy nhiên, chúng cũng có một số điểm yếu.
Đầu tiên, chúng không giỏi nói thật. Trên thực tế, đôi khi chúng bịa đặt những thứ nghe có vẻ đúng, ví dụ như khi ChatGPT trích dẫn 6 vụ án giả trong một bản tóm tắt pháp lý hoặc khi Bard nhầm lẫn khi cho rằng Kính viễn vọng Không gian James Webb đã chụp những bức ảnh đầu tiên về một hành tinh bên ngoài hệ mặt trời của chúng ta. Những lỗi này được gọi là ảo giác.
"Chúng cực kỳ không đáng tin cậy theo nghĩa là chúng bịa đặt và bịa ra rất nhiều thứ", Sap nói. "Chúng không được đào tạo hoặc thiết kế để nói ra bất cứ điều gì đúng sự thật".
Chúng cũng gặp khó khăn với các truy vấn khác biệt cơ bản so với bất cứ thứ gì chúng từng gặp trước đây. Đó là vì chúng tập trung vào việc tìm kiếm và phản hồi các mẫu.
Một ví dụ điển hình là một bài toán với một tập hợp các con số duy nhất.
"Nó có thể không tính toán chính xác vì nó không thực sự giải toán", Riedl nói. "Nó đang cố gắng liên hệ câu hỏi toán học của bạn với các ví dụ trước đó về câu hỏi toán học mà nó đã từng thấy".
Và mặc dù chúng giỏi trong việc dự đoán từ ngữ, nhưng chúng không giỏi trong việc dự đoán tương lai, bao gồm cả lập kế hoạch và ra quyết định.
"Ý tưởng về việc lập kế hoạch theo cách mà con người làm… suy nghĩ về các tình huống và lựa chọn thay thế khác nhau và đưa ra lựa chọn, điều này dường như là một trở ngại thực sự khó khăn đối với các mô hình ngôn ngữ lớn hiện tại của chúng ta", Riedl nói.
Cuối cùng, chúng gặp khó khăn với các sự kiện hiện tại vì dữ liệu huấn luyện của chúng thường chỉ cập nhật đến một thời điểm nhất định và bất cứ điều gì xảy ra sau đó đều không nằm trong cơ sở kiến thức của chúng. Và vì chúng không có khả năng phân biệt giữa những gì đúng sự thật và những gì có khả năng xảy ra, nên chúng có thể tự tin cung cấp thông tin không chính xác về các sự kiện hiện tại.
Chúng cũng không tương tác với thế giới theo cách mà chúng ta làm.
"Điều này khiến chúng khó nắm bắt được những sắc thái và sự phức tạp của các sự kiện hiện tại, thường đòi hỏi sự hiểu biết về ngữ cảnh, động lực xã hội và hậu quả trong thế giới thực", Snyder nói.
LLM sẽ phát triển như thế nào?
Chúng ta đã thấy các công ty AI sáng tạo như OpenAI, Google và Adobe ra mắt các mô hình đa phương thức, được đào tạo không chỉ trên văn bản mà còn trên hình ảnh, video và âm thanh.
Và chúng ta đang thấy khả năng truy xuất thông tin phát triển vượt ra ngoài những gì các mô hình đã được đào tạo, bao gồm cả việc kết nối với các công cụ tìm kiếm như Google để các mô hình có thể thực hiện tìm kiếm trên web và sau đó đưa các kết quả đó vào LLM. Điều này có nghĩa là chúng có thể hiểu rõ hơn các truy vấn và cung cấp phản hồi kịp thời hơn.
"Điều này giúp các mô hình liên kết của chúng ta luôn cập nhật và mới nhất vì chúng thực sự có thể xem xét thông tin mới trên internet và đưa thông tin đó vào", Riedl nói.
Đó là mục tiêu, ví dụ, với Bing được hỗ trợ bởi AI. Thay vì khai thác công cụ tìm kiếm để nâng cao phản hồi, Microsoft đã sử dụng AI để cải thiện công cụ tìm kiếm của riêng mình, một phần bằng cách hiểu rõ hơn ý nghĩa thực sự đằng sau các truy vấn của người tiêu dùng và xếp hạng tốt hơn các kết quả cho các truy vấn đó.
Tuy nhiên, cũng có những trở ngại. Tìm kiếm trên web có thể khiến ảo giác trở nên tồi tệ hơn nếu không có cơ chế kiểm tra thực tế phù hợp. Và LLM sẽ cần phải học cách đánh giá độ tin cậy của các nguồn web trước khi trích dẫn chúng. Google đã học được điều đó một cách khó khăn với việc ra mắt không thành công các kết quả tìm kiếm AI Overviews trong năm nay. Sau đó, công ty tìm kiếm đã điều chỉnh kết quả AI Overviews để giảm thiểu các tóm tắt gây hiểu lầm hoặc tiềm ẩn nguy hiểm.
Trong khi đó, các mô hình bao gồm Lumiere của Google và Sora của OpenAI thậm chí còn đang học cách tạo ra hình ảnh, video và âm thanh. Google và Adobe đã phát hành các bản xem trước về các công cụ có thể tạo trò chơi ảo và nhạc, để cho người tiêu dùng thấy công nghệ này đang hướng đến đâu.
Chúng ta cũng có thể thấy sự cải thiện trong khả năng của LLM không chỉ dịch ngôn ngữ từ tiếng Anh mà còn hiểu và trò chuyện bằng các ngôn ngữ khác nữa.
Kết luận:
LLM là một công nghệ AI đầy tiềm năng đang được phát triển mạnh mẽ. Chúng đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực trò chuyện AI. Tuy nhiên, chúng vẫn còn một số hạn chế cần được khắc phục. Với sự phát triển không ngừng của công nghệ, LLM hứa hẹn sẽ mang lại nhiều tiện ích và thay đổi cách thức con người tương tác với máy móc trong tương lai.

0 comments Blogger 0 Facebook
Đăng nhận xét