LLM và "Lỗi Đảo Ngược": Thách thức và Giải pháp

Mục lục:

  1. Giới thiệu về "Lỗi Đảo Ngược" trong Mô hình Ngôn ngữ Lớn (LLM)
  2. Nguyên nhân của "Lỗi Đảo Ngược"
  3. Phương pháp khắc phục: Tối ưu hóa Mô hình Ngôn ngữ Lớn song hướng (BICO)
  4. Kết luận và hướng phát triển

1. Giới thiệu về "Lỗi Đảo Ngược" trong Mô hình Ngôn ngữ Lớn (LLM)

Các Mô hình Ngôn ngữ Lớn (LLM) hiện đại, dù sở hữu khả năng lập luận tiên tiến, vẫn thường mắc lỗi khi xử lý các mối quan hệ giữa các thực thể. Bài báo "Bidirectional Causal Language Model Optimization to Make GPT and Llama Robust Against the Reversal Curse" của Adeeba Alam Ansari (15/11/2024) đã đề cập đến hiện tượng này, được gọi là "Lỗi Đảo Ngược" (Reversal Curse). Hiện tượng này xảy ra khi LLM xử lý quan hệ R giữa hai thực thể a và b. LLM dễ dàng xử lý câu dạng "aRb" nhưng lại gặp khó khăn với câu dạng "b R-1 a" (R-1 là quan hệ nghịch đảo của R). Ví dụ, LLM trả lời dễ dàng câu hỏi "Ai là mẹ của Tom Cruise?", nhưng lại dễ bị sai hoặc "ảo tưởng" khi trả lời câu hỏi "Con trai của Mary Lee Pfeiffer là ai?". Điều này đáng chú ý vì LLM đã biết mối quan hệ giữa Tom Cruise và Mary Lee Pfeiffer.

2. Nguyên nhân của "Lỗi Đảo Ngược"

Các nhà nghiên cứu từ Đại học Nhân dân Trung Quốc đã chỉ ra rằng hàm mục tiêu huấn luyện là một trong những nguyên nhân chính gây ra "Lỗi Đảo Ngược". Phương pháp dự đoán token tiếp theo (NTP) được sử dụng rộng rãi trong quá trình huấn luyện các LLM như GPT và Llama. Trong các mô hình này, mặt nạ chú ý chỉ tập trung vào các token trước đó, bỏ qua các token sau đó. Điều này dẫn đến việc mô hình tối đa hóa xác suất của b khi biết a, nhưng không đảm bảo xác suất cao cho a khi biết b. Ngược lại, các mô hình GLM được huấn luyện với mục tiêu điền vào chỗ trống tự hồi quy, cho phép token bị che chắn ảnh hưởng đến cả token trước và sau, làm cho chúng ít bị ảnh hưởng bởi "Lỗi Đảo Ngược". Sự khác biệt trong quá trình huấn luyện chuỗi này được cho là nguyên nhân gốc rễ của hiệu suất kém của LLM với các quan hệ nghịch đảo.

3. Phương pháp khắc phục: Tối ưu hóa Mô hình Ngôn ngữ Lớn song hướng (BICO)

Để giải quyết vấn đề này, các tác giả đề xuất phương pháp điều chỉnh hàm mục tiêu huấn luyện của LLM sao cho tương tự như ABI (Autoregressive Blank In-filling). Họ đã tinh chỉnh các mô hình bằng cách sử dụng Tối ưu hóa Mô hình Ngôn ngữ Lớn song hướng (BICO). BICO áp dụng mục tiêu điền vào chỗ trống tự hồi quy tương tự như GLM, nhưng với các sửa đổi nhằm mục đích cụ thể cho các mô hình ngôn ngữ có tính nhân quả. Các tác giả đã giới thiệu các embedding vị trí quay (tương đối) và sửa đổi hàm chú ý để nó trở nên song hướng. Phương pháp tinh chỉnh này đã cải thiện độ chính xác của mô hình trong các bài toán dịch ngược và giải toán. Trong một thử nghiệm trên dữ liệu "Tên đến Mô tả", GLM đạt độ chính xác khoảng 80%, trong khi Llama đạt 0%.

4. Kết luận và hướng phát triển

Bài báo phân tích "Lỗi Đảo Ngược" và đề xuất chiến lược tinh chỉnh để giảm thiểu vấn đề này. Bằng cách sử dụng mô hình ngôn ngữ có tính nhân quả với mục tiêu tương tự như ABI, nghiên cứu này làm sáng tỏ hiệu suất kém của LLM đối với các quan hệ nghịch đảo. Công trình này có thể được mở rộng hơn nữa để kiểm tra tác động của các kỹ thuật tiên tiến, chẳng hạn như RLHF (Reinforcement Learning from Human Feedback), đối với "Lỗi Đảo Ngược".

Logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top