Mục lục:

  1. Giới thiệu về LLaVA-o1 và mô hình o1 của OpenAI
  2. Vấn đề của mô hình VLM hiện tại
  3. Phương pháp lập luận đa giai đoạn của LLaVA-o1
  4. Huấn luyện LLaVA-o1
  5. Hiệu quả của LLaVA-o1
  6. Kết luận

1. Giới thiệu về LLaVA-o1 và mô hình o1 của OpenAI

Mô hình o1 của OpenAI đã chứng minh rằng việc mở rộng quy mô thời gian suy luận – sử dụng nhiều khả năng tính toán hơn trong quá trình suy luận – có thể cải thiện đáng kể khả năng lập luận của mô hình ngôn ngữ lớn. LLaVA-o1, một mô hình mới được phát triển bởi các nhà nghiên cứu từ nhiều trường đại học ở Trung Quốc, áp dụng mô hình này vào các mô hình ngôn ngữ và thị giác nguồn mở (VLM).

2. Vấn đề của mô hình VLM hiện tại

Các mô hình VLM nguồn mở ban đầu thường sử dụng phương pháp dự đoán trực tiếp, tạo ra câu trả lời mà không cần lập luận về lời nhắc và các bước cần thiết để giải quyết lời nhắc đó. Thiếu quá trình lập luận có cấu trúc, chúng kém hiệu quả hơn trong các tác vụ đòi hỏi khả năng lập luận logic. Các kỹ thuật nhắc nhở nâng cao như nhắc nhở "chuỗi suy nghĩ" (CoT), khuyến khích mô hình tạo ra các bước lập luận trung gian, mang lại một số cải tiến nhỏ. Tuy nhiên, các VLM thường mắc lỗi hoặc bị ảo giác.

3. Phương pháp lập luận đa giai đoạn của LLaVA-o1

Các nhà nghiên cứu nhận thấy rằng một vấn đề then chốt là quá trình lập luận trong các VLM hiện có không đủ hệ thống và có cấu trúc. Các mô hình không tạo ra chuỗi lập luận và thường bị mắc kẹt trong các quá trình lập luận mà chúng không biết mình đang ở giai đoạn nào và phải giải quyết vấn đề cụ thể nào.

"Chúng tôi nhận thấy rằng các VLM thường bắt đầu phản hồi mà không tổ chức đầy đủ vấn đề và thông tin có sẵn," các nhà nghiên cứu viết. "Hơn nữa, chúng thường lệch khỏi một lập luận logic hướng tới kết luận, thay vì đưa ra kết luận sớm và sau đó cố gắng biện minh cho nó. Do các mô hình ngôn ngữ tạo ra phản hồi từng token một, một khi kết luận sai lầm được đưa ra, mô hình thường tiếp tục theo một con đường lập luận sai lầm."

OpenAI o1 sử dụng mở rộng quy mô thời gian suy luận để giải quyết vấn đề lập luận có hệ thống và có cấu trúc, cho phép mô hình tạm dừng và xem xét kết quả của nó khi nó dần dần giải quyết vấn đề. Mặc dù OpenAI chưa công bố nhiều chi tiết về cơ chế cơ bản của o1, nhưng kết quả của nó cho thấy các hướng đầy hứa hẹn để cải thiện khả năng lập luận của các mô hình nền tảng.

Lấy cảm hứng từ o1, các nhà nghiên cứu đã thiết kế LLaVA-o1 để thực hiện lập luận từng giai đoạn. Thay vì tạo ra một chuỗi lập luận trực tiếp, LLaVA-o1 phân chia quá trình lập luận thành bốn giai đoạn riêng biệt:

  • Tóm tắt: Mô hình đầu tiên đưa ra một tóm tắt cấp cao về câu hỏi, phác thảo vấn đề cốt lõi mà nó cần giải quyết.
  • Mô tả hình ảnh: Nếu có hình ảnh, mô hình sẽ mô tả các phần liên quan, tập trung vào các yếu tố liên quan đến câu hỏi.
  • Lập luận: Xây dựng dựa trên tóm tắt, mô hình thực hiện lập luận logic có cấu trúc để đưa ra câu trả lời sơ bộ.
  • Kết luận: Cuối cùng, mô hình trình bày một bản tóm tắt ngắn gọn về câu trả lời dựa trên quá trình lập luận trước đó.

Chỉ giai đoạn kết luận mới hiển thị cho người dùng; ba giai đoạn còn lại đại diện cho quá trình lập luận nội bộ của mô hình, tương tự như dấu vết lập luận ẩn của o1. Phương pháp có cấu trúc này cho phép LLaVA-o1 tự quản lý quá trình lập luận của mình, dẫn đến hiệu suất được cải thiện trong các tác vụ phức tạp.

"Phương pháp có cấu trúc này cho phép mô hình tự quản lý quá trình lập luận của mình, cải thiện khả năng thích ứng và hiệu suất trong các tác vụ lập luận phức tạp," các nhà nghiên cứu viết.

Stage-level beam search (right) vs other inference-time scaling techniques Source: arXiv

LLaVA-o1 cũng giới thiệu một kỹ thuật mở rộng quy mô thời gian suy luận mới gọi là "tìm kiếm chùm tia cấp độ giai đoạn". Tìm kiếm chùm tia cấp độ giai đoạn tạo ra nhiều đầu ra ứng viên ở mỗi giai đoạn lập luận. Sau đó, nó chọn ứng viên tốt nhất ở mỗi giai đoạn để tiếp tục quá trình tạo. Điều này trái ngược với phương pháp best-of-N cổ điển, trong đó mô hình được nhắc nhở tạo ra nhiều phản hồi hoàn chỉnh trước khi chọn một phản hồi.

"Đặc biệt, chính thiết kế đầu ra có cấu trúc của LLaVA-o1 làm cho phương pháp này khả thi, cho phép xác minh hiệu quả và chính xác ở mỗi giai đoạn," các nhà nghiên cứu viết. "Điều này xác nhận hiệu quả của đầu ra có cấu trúc trong việc cải thiện việc mở rộng quy mô thời gian suy luận."

4. Huấn luyện LLaVA-o1

Để huấn luyện LLaVA-o1, các nhà nghiên cứu đã biên soạn một bộ dữ liệu mới gồm khoảng 100.000 cặp hình ảnh-câu hỏi-câu trả lời thu được từ một số bộ dữ liệu VQA được sử dụng rộng rãi. Bộ dữ liệu này bao gồm nhiều loại tác vụ, từ trả lời câu hỏi nhiều lượt đến diễn giải biểu đồ và lập luận hình học.

Các nhà nghiên cứu đã sử dụng GPT-4o để tạo ra các quá trình lập luận bốn giai đoạn chi tiết cho mỗi ví dụ, bao gồm các giai đoạn tóm tắt, chú thích, lập luận và kết luận.

Sau đó, các nhà nghiên cứu đã tinh chỉnh Llama-3.2-11B-Vision-Instruct trên bộ dữ liệu này để thu được mô hình LLaVA-o1 cuối cùng. Các nhà nghiên cứu chưa phát hành mô hình nhưng dự định sẽ phát hành bộ dữ liệu, được gọi là LLaVA-o1-100k.

LLaVA-o1 training data is annotated with GPT-4o Source: arXiv

5. Hiệu quả của LLaVA-o1

Các nhà nghiên cứu đã đánh giá LLaVA-o1 trên một số điểm chuẩn lập luận đa phương thức. Mặc dù chỉ được huấn luyện trên 100.000 ví dụ, LLaVA-o1 đã cho thấy những cải thiện hiệu suất đáng kể so với mô hình Llama cơ bản, với điểm chuẩn trung bình tăng 6,9%.

LLaVA-o1 vs other open and closed models Source: arXiv

Hơn nữa, tìm kiếm chùm tia cấp độ giai đoạn đã dẫn đến những cải tiến hiệu suất bổ sung, chứng minh hiệu quả của việc mở rộng quy mô thời gian suy luận. Do bị hạn chế về tài nguyên tính toán, các nhà nghiên cứu chỉ có thể thử nghiệm kỹ thuật này với kích thước chùm tia là 2. Họ dự đoán sẽ có những cải tiến lớn hơn nữa với kích thước chùm tia lớn hơn.

Ấn tượng hơn, LLaVA-o1 không chỉ vượt trội hơn các mô hình nguồn mở khác cùng kích thước hoặc lớn hơn mà còn vượt trội cả một số mô hình nguồn đóng như GPT-4-o-mini và Gemini 1.5 Pro.

"LLaVA-o1 thiết lập một tiêu chuẩn mới cho lập luận đa phương thức trong VLM, mang lại hiệu suất và khả năng mở rộng mạnh mẽ, đặc biệt là về thời gian suy luận," các nhà nghiên cứu viết. "Công trình của chúng tôi mở đường cho nghiên cứu trong tương lai về lập luận có cấu trúc trong VLM, bao gồm cả khả năng mở rộng với các trình xác minh bên ngoài và việc sử dụng học tăng cường để nâng cao hơn nữa khả năng lập luận đa phương thức phức tạp."

6. Kết luận

Bài báo trình bày mô hình LLaVA-o1, một bước tiến đáng kể trong lĩnh vực mô hình ngôn ngữ và thị giác nguồn mở. Việc kết hợp phương pháp lập luận đa giai đoạn và tìm kiếm chùm tia cấp độ giai đoạn đã giúp LLaVA-o1 đạt được hiệu suất vượt trội so với các mô hình khác, mở ra hướng đi mới cho nghiên cứu về khả năng lập luận phức tạp trong VLM.


0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top