OpenAI Phát Triển CriticGPT: Trợ Lý AI Giúp Nâng Cao Hiệu Quả Huấn Luyện Mô Hình Ngôn Ngữ Lớn

OpenAI Phát Triển CriticGPT: Trợ Lý AI Giúp Nâng Cao Hiệu Quả Huấn Luyện Mô Hình Ngôn Ngữ Lớn

Mục Lục:

  1. Thách thức trong việc nâng cao hiệu quả huấn luyện mô hình ngôn ngữ lớn
  2. CriticGPT: Trợ lý AI giúp phát hiện lỗi mã
  3. Hiệu quả của CriticGPT
  4. Kết luận

1. Thách thức trong việc nâng cao hiệu quả huấn luyện mô hình ngôn ngữ lớn

Sau khi được huấn luyện ban đầu, các mô hình ngôn ngữ lớn như GPT-4 sẽ tiếp tục được tinh chỉnh thông qua quá trình học tăng cường từ phản hồi của con người (RLHF). Quá trình này đòi hỏi các chuyên gia huấn luyện tương tác với hệ thống, chú thích phản hồi cho các câu hỏi khác nhau và đánh giá các phản hồi khác nhau để hệ thống học cách đưa ra phản hồi ưu tiên và tăng độ chính xác.

Tuy nhiên, khi hiệu năng của hệ thống ngày càng được cải thiện, nó có thể vượt quá trình độ chuyên môn của người huấn luyện, khiến việc xác định lỗi và sai sót trở nên khó khăn hơn. Thực tế là, các chuyên gia huấn luyện AI không phải lúc nào cũng là chuyên gia về chủ đề. Năm ngoái, OpenAI đã bị phát hiện sử dụng lao động giá rẻ từ Kenya để huấn luyện các mô hình của mình với mức lương chỉ dưới 2 đô la một giờ.

2. CriticGPT: Trợ lý AI giúp phát hiện lỗi mã

Vấn đề này đặc biệt khó khăn khi tinh chỉnh khả năng tạo mã của hệ thống, và đó chính là nơi CriticGPT phát huy tác dụng. OpenAI đã phát triển một mô hình dựa trên GPT-4, được gọi là CriticGPT, để phát hiện lỗi trong mã đầu ra của ChatGPT.

Công ty đã giải thích trong một bài đăng trên blog vào thứ Năm rằng: Chúng tôi đã huấn luyện một mô hình, dựa trên GPT-4, được gọi là CriticGPT, để phát hiện lỗi trong mã đầu ra của ChatGPT. Chúng tôi nhận thấy rằng khi mọi người được giúp đỡ bởi CriticGPT để xem xét mã ChatGPT, họ vượt trội hơn những người không được giúp đỡ 60% thời gian.

3. Hiệu quả của CriticGPT

Hơn nữa, công ty đã phát hành một bài báo nghiên cứu về chủ đề này, có tựa đề LLM Critics Help Catch LLM Bugs, cho thấy LLMs phát hiện nhiều lỗi được thêm vào hơn con người có trình độ được trả tiền để xem xét mã, và hơn nữa, các phê bình của mô hình được ưa chuộng hơn các phê bình của con người hơn 80% thời gian.

Điều thú vị là nghiên cứu cũng phát hiện ra rằng khi con người hợp tác với CriticGPT, tỷ lệ phản hồi ảo giác của AI thấp hơn so với khi CriticGPT làm việc một mình, nhưng tỷ lệ ảo giác vẫn cao hơn so với khi con người tự mình thực hiện công việc.

4. Kết luận

CriticGPT hứa hẹn sẽ là một công cụ hữu ích cho OpenAI trong việc cải thiện hiệu quả huấn luyện mô hình ngôn ngữ lớn. Bằng cách giúp phát hiện lỗi mã, CriticGPT có thể giúp các chuyên gia huấn luyện tập trung vào các nhiệm vụ phức tạp hơn, đồng thời nâng cao độ chính xác và đáng tin cậy của các mô hình ngôn ngữ lớn.

Logo OpenAI

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top