Mục lục
- Đánh giá hiệu suất của các mô hình AI
- Kết quả đánh giá thủ công
- Ưu tiên của người dùng
- Tiết kiệm thời gian
- Những bài học chính
- Phương pháp luận
- Kết luận
Trong phòng thí nghiệm AI của Chequeado, chúng tôi đã đánh giá hiệu suất của GPT-4, Claude Opus, Llama 3 và Gemini 1.5 trong việc đơn giản hóa các đoạn trích từ các bài báo về kinh tế, thống kê và bầu cử, so sánh kết quả của chúng với các phiên bản được tạo bởi con người. Chúng tôi đã tiến hành đánh giá kỹ thuật thủ công và khảo sát ý kiến của người đọc tiềm năng để hiểu rõ hơn về sở thích của họ.
1. Đánh giá hiệu suất của các mô hình AI
Một trong những bài học chính từ nghiên cứu này, được tài trợ bởi quỹ ENGAGE của IFCN, là tầm quan trọng của định dạng khi truyền tải các khái niệm phức tạp. Các mô hình cấu trúc thông tin theo cách dễ tiếp cận hơn cho trải nghiệm người dùng đã đạt được kết quả tốt hơn trong khảo sát ý kiến của người đọc tiềm năng. Các câu trả lời của Claude Opus được người dùng yêu thích nhất. Sau đó là Llama 3, Gemini 1.5 và các phản hồi được viết bởi con người. Ba mô hình được lựa chọn nhiều nhất đã sử dụng các dấu đầu dòng hoặc định dạng câu hỏi-trả lời khi viết lại văn bản.
Mặc dù GPT-4 đạt điểm cao hơn các mô hình khác trong đánh giá kỹ thuật, nhưng nó lại xếp hạng cuối cùng trong đánh giá của người dùng. Điều này có thể do nó giữ nguyên định dạng ban đầu của các đoạn văn khi viết lại văn bản. Trong đánh giá kỹ thuật, GPT-4 nổi bật với khả năng tôn trọng phong cách và định dạng của văn bản gốc, không thêm thông tin bổ sung hoặc tạo ra nội dung sai lệch. Claude Opus thỉnh thoảng thêm tóm tắt vào cuối văn bản gốc mà không được yêu cầu. Mặt khác, Llama và Gemini 1.5 gặp khó khăn trong việc duy trì phong cách và nguồn gốc ban đầu, và trong một số trường hợp, đã đưa ra thông tin mới không có trong văn bản gốc.
2. Kết quả đánh giá thủ công
Nhiệm vụ đầu tiên của chúng tôi là phân tích hiệu suất kỹ thuật của mỗi mô hình theo các chỉ số khác nhau:
- Tuân thủ nhiệm vụ: Mô hình có đơn giản hóa văn bản mà không làm mất thông tin liên quan?
- Không thêm thông tin mới: Mô hình có tránh đưa ra dữ liệu hoặc ý kiến không có trong bản gốc?
- Tôn trọng phong cách: Mô hình có duy trì ngữ điệu và phong cách của văn bản gốc?
- Tôn trọng định dạng: Mô hình có giữ nguyên cấu trúc của các đoạn văn và phần trong bản gốc?
- Duy trì nguồn: Mô hình có giữ nguyên trích dẫn và tham chiếu đến các nguồn bên ngoài?
Chúng tôi đã đánh giá hiệu suất trung bình của mỗi mô hình bằng hệ thống đèn giao thông (xanh/vàng/đỏ). Đánh giá cho thấy tất cả các mô hình đều tuân thủ nhiệm vụ.
GPT-4 đạt được kết quả tốt nhất trong đánh giá này, vì nó tôn trọng định dạng, phong cách và không thêm thông tin mới, mặc dù trong một số trường hợp, nó đã mất trích dẫn hoặc nguồn tham chiếu có trong văn bản gốc. Claude, mặc dù không thêm thông tin sai lệch, nhưng lại bao gồm các tóm tắt cuối cùng không được yêu cầu. Mặt khác, Claude là mô hình giữ nguyên trích dẫn và nguồn gốc ban đầu tốt nhất, mặc dù nó đã thay đổi định dạng một số lần để thêm danh sách và tiêu đề phụ, cũng như chia nhỏ thành các phần. Llama từ chối trả lời các câu hỏi về bầu cử trong một số bài kiểm tra. Tất cả các mô hình ngoại trừ GPT-4 đã tạo ra các định dạng mới với tiêu đề, câu hỏi, phần ngắn hơn và danh sách để dễ hiểu hơn, ngay cả trong các trường hợp nhiệm vụ bao gồm cụm từ Tôn trọng định dạng ban đầu.
3. Ưu tiên của người dùng
Sau khi hoàn thành đánh giá thủ công về hiệu suất kỹ thuật, chúng tôi đã tiến hành một cuộc khảo sát với sự tham gia của 15 người dùng trong 5 vòng, yêu cầu họ lựa chọn giữa hai phiên bản văn bản đơn giản hóa (hoặc tuyên bố hòa). Mỗi văn bản được tạo ra bởi một trong các mô hình hoặc bởi một nhà báo.
Kết quả cho thấy người trả lời có xu hướng ưa thích các định dạng được sửa đổi với danh sách dấu đầu dòng và các phần câu hỏi-trả lời. Điều này cho thấy định dạng đóng vai trò quan trọng như nội dung trong việc làm cho các khái niệm phức tạp dễ tiếp cận. Điều này có thể giải thích lý do tại sao GPT-4, mô hình tốt nhất về các tiêu chí đánh giá thủ công mà chúng tôi xác định, lại là mô hình ít được người dùng lựa chọn nhất.
Nếu chúng ta đánh giá kết quả theo định dạng của phản hồi, một mặt chúng ta có bộ ba Claude, Gemini và Llama, trong đó Claude dẫn đầu so với hai mô hình còn lại, mặc dù cả ba đều sử dụng định dạng tương tự, và mặt khác, chúng ta có phiên bản của con người và của GPT-4, những phiên bản tôn trọng định dạng ban đầu của văn bản. Phiên bản của con người được lựa chọn 54% so với 32% của GPT-4, xếp hạng cuối cùng.
4. Tiết kiệm thời gian
Trung bình, một người mất khoảng 3 phút để đơn giản hóa một đoạn văn 50 từ. Do đó, biến đổi một bài báo 500 từ sẽ mất khoảng 30 phút làm việc của con người. Mặc dù việc sử dụng các mô hình cho phép chúng ta nhanh chóng có được một phiên bản rõ ràng và định dạng tốt hơn, nhưng điều quan trọng là phải xem xét thời gian cần thiết để văn bản do AI tạo ra được xem xét và xác thực bởi một người trước khi xuất bản. Thời gian này có thể thay đổi tùy thuộc vào phản hồi nhận được và độ phức tạp yêu cầu giám sát của con người.
5. Những bài học chính
- **Định dạng là chìa khóa:** Chúng tôi đã học được rằng các mô hình sửa đổi định dạng ban đầu (thêm tiêu đề, danh sách, v.v.) đã tạo ra các văn bản rõ ràng và hấp dẫn hơn đối với người đọc. Mặc dù điều này làm cho việc so sánh kết quả trở nên khó khăn, nhưng đây là một bài học rất quan trọng cho công việc viết lách của chúng tôi: nếu chúng ta muốn truyền đạt tốt hơn các khái niệm phức tạp, định dạng đóng vai trò quan trọng như nội dung.
- **Quá trình quản lý lời nhắc:** Việc thực hiện một quá trình quản lý lời nhắc (hướng dẫn đưa ra cho các mô hình) trước khi đánh giá giúp tiết kiệm đáng kể thời gian và đáng để dành thời gian để quản lý và điều chỉnh hướng dẫn một cách tối ưu nhất cho các bài kiểm tra. Điều quan trọng là phải sử dụng một số lượng lời nhắc hạn chế để đánh giá, vì số lượng bài kiểm tra tăng lên đáng kể với mỗi lời nhắc được thêm vào.
- **Quan điểm của người đọc:** Quan điểm của người đọc tiềm năng hoặc người dùng cung cấp nhiều thông tin và sự rõ ràng cho quá trình này và cho phép chúng tôi hiểu rõ hơn những gì hiệu quả và tại sao trong môi trường ứng dụng thực tế của các chiến lược này.
6. Phương pháp luận
Để thực hiện thử nghiệm này, chúng tôi đã làm theo các bước sau:
- Chúng tôi đã chọn 6 đoạn trích từ các bài báo với các khái niệm phức tạp để sử dụng làm đầu vào thử nghiệm.
- Chúng tôi đã phát triển 3 lời nhắc để hướng dẫn các mô hình. Quá trình này bao gồm đánh giá các chiến lược lời nhắc khác nhau để đạt được kết quả tốt nhất có thể. Nếu bạn muốn tìm hiểu thêm về lời nhắc, chúng tôi khuyên bạn nên tham khảo hướng dẫn này. Lời nhắc tạo ra kết quả tốt nhất là:
- Bối cảnh: Hãy tưởng tượng bạn là một nhà báo dữ liệu chuyên về viết UX và kiểm tra thực tế.
- Nhiệm vụ: Tôn trọng định dạng ban đầu, viết lại văn bản sau theo cách dễ đọc, dễ tiếp cận và rõ ràng hơn, mà không làm mất bất kỳ thông tin nào trong bản gốc. Văn bản nên được hiểu bởi học sinh trung học.
- Văn bản: [Văn bản đầu vào cần đơn giản hóa]
- Sau khi kết hợp mỗi lời nhắc (điểm 2) với mỗi đoạn trích văn bản (từ điểm 1) với 4 mô hình được chọn cho đánh giá này, chúng tôi đã tạo ra 72 phản hồi về văn bản đơn giản hóa để so sánh.
- Thủ công, chúng tôi đã đánh giá sự tuân thủ nhiệm vụ, tính nhất quán, phong cách và định dạng cho mỗi phản hồi mà chúng tôi đã tạo ra và xây dựng thang điểm hiệu suất trong mỗi danh mục cho mỗi mô hình.
- Để thêm quan điểm về sự ưu tiên chủ quan của mọi người và ý kiến của họ về phiên bản đơn giản hóa nào rõ ràng hơn, chúng tôi đã tiến hành một cuộc khảo sát để hiểu rõ mô hình nào đáp ứng tốt hơn nhiệm vụ theo quan điểm của người đọc tiềm năng.
7. Kết luận
Chúng tôi đã phát triển thử nghiệm nhỏ này với ý tưởng tìm hiểu cách các mô hình AI có thể giúp chúng tôi đơn giản hóa các khái niệm phức tạp, nhưng cũng để hiểu, thông qua thực hành, làm thế nào chúng ta có thể xây dựng các chiến lược để đánh giá các mô hình này trong các nhiệm vụ mới.
Trong đánh giá thủ công, GPT-4 nổi bật với khả năng đáp ứng nhiệm vụ và tôn trọng định dạng và phong cách ban đầu, đồng thời không tạo ra thông tin bổ sung hoặc ảo giác, trong khi các mô hình khác gặp vấn đề và có xu hướng bao gồm các yếu tố bổ sung hoặc thay đổi phong cách của nội dung. Tuy nhiên, sở thích của người dùng cho thấy tầm quan trọng của định dạng và trình bày trực quan trong sự rõ ràng được cảm nhận. Các văn bản với dấu đầu dòng, phần câu hỏi-trả lời và các yếu tố trực quan khác liên tục được lựa chọn nhiều hơn, ngay cả khi chúng được tạo ra bởi các mô hình không hoàn toàn tuân thủ nhiệm vụ ban đầu.
Điều này cho thấy rằng khi đơn giản hóa các khái niệm phức tạp, chúng ta phải chú ý đến định dạng cũng như nội dung. Tóm lại, mặc dù việc xem xét của con người vẫn rất cần thiết, nhưng khả năng của các mô hình trong việc tạo ra các phiên bản đơn giản hóa và định dạng tốt có thể giúp giảm đáng kể thời gian dành cho nhiệm vụ này. Thách thức hiện tại là tiếp tục khám phá và tinh chỉnh các công cụ này trong các nhiệm vụ và thử thách mới cho phép chúng ta tiếp tục đưa công nghệ vào lĩnh vực kiểm tra thực tế để cải thiện công việc của mình.

0 comments Blogger 0 Facebook
Đăng nhận xét