Công cụ phiên âm Whisper của OpenAI bị "ảo giác". Bệnh viện vẫn đang sử dụng nó
Mục lục
- Whisper bị phát hiện "ảo giác" trong các bản ghi âm
- Nguy cơ trong lĩnh vực y tế
- Whisper "ảo giác" là do đâu?
- Cơ chế hoạt động của Whisper
- Dữ liệu huấn luyện
- Hiện tượng "quá khớp" (overfitting)
- Lời khuyên từ OpenAI
- Mối nguy hiểm tiềm ẩn
- Cần có quy định và chứng nhận cho AI trong y tế
1. Whisper bị phát hiện "ảo giác" trong các bản ghi âm
Một cuộc điều tra của Associated Press (AP) đã phát hiện ra rằng công cụ phiên âm Whisper của OpenAI tạo ra văn bản bịa đặt trong các bản ghi âm y tế và kinh doanh, bất chấp những cảnh báo chống lại việc sử dụng nó cho các mục đích này. AP đã phỏng vấn hơn 12 kỹ sư phần mềm, nhà phát triển và nhà nghiên cứu, những người đã phát hiện ra rằng mô hình thường xuyên sáng tạo ra văn bản mà người nói không bao giờ nói ra, một hiện tượng thường được gọi là "ảo giác" hoặc "bịa đặt" trong lĩnh vực AI.
Khi được phát hành vào năm 2022, OpenAI tuyên bố rằng Whisper đạt đến độ chính xác "gần như con người" trong phiên âm. Tuy nhiên, một nhà nghiên cứu tại Đại học Michigan cho biết Whisper đã tạo ra văn bản sai trong 80% các bản ghi âm cuộc họp công khai mà họ đã kiểm tra. Một nhà phát triển khác, giấu tên trong báo cáo của AP, tuyên bố đã tìm thấy nội dung bịa đặt trong gần như tất cả 26.000 bản ghi âm thử nghiệm của họ.
2. Nguy cơ trong lĩnh vực y tế
Những phát hiện này đặt ra những nguy cơ đặc biệt trong lĩnh vực y tế. Mặc dù OpenAI đã đưa ra cảnh báo chống lại việc sử dụng Whisper cho các "lĩnh vực nguy hiểm", nhưng hơn 30.000 nhân viên y tế hiện đang sử dụng các công cụ dựa trên Whisper để phiên âm các cuộc khám bệnh, theo báo cáo của AP. Phòng khám Mankato ở Minnesota và Bệnh viện Nhi đồng Los Angeles là hai trong số 40 hệ thống chăm sóc sức khỏe sử dụng dịch vụ AI copilot do công ty công nghệ y tế Nabla cung cấp, được hỗ trợ bởi Whisper và được tinh chỉnh dựa trên thuật ngữ y tế.
Nabla thừa nhận Whisper có thể "ảo giác", nhưng họ cũng xóa bản ghi âm gốc "vì lý do an toàn dữ liệu". Điều này có thể gây ra vấn đề bổ sung, vì bác sĩ không thể kiểm tra độ chính xác của bản ghi âm so với tài liệu nguồn. Bệnh nhân khiếm thính có thể bị ảnh hưởng nặng nề bởi bản ghi âm bị sai, vì họ không có cách nào biết bản ghi âm có chính xác hay không.
3. Whisper "ảo giác" là do đâu?
- Cơ chế hoạt động của Whisper
Whisper được dựa trên công nghệ được thiết kế để dự đoán "token" tiếp theo (một mẩu dữ liệu) có khả năng xuất hiện nhất sau một chuỗi "token" được cung cấp bởi người dùng. ChatGPT sử dụng "token" văn bản làm đầu vào, trong khi Whisper sử dụng dữ liệu âm thanh được "token hóa" làm đầu vào.
Kết quả phiên âm của Whisper là một dự đoán về khả năng cao nhất, chứ không phải là chính xác nhất. Độ chính xác trong kết quả của các mô hình Transformer thường tỷ lệ thuận với sự hiện diện của dữ liệu chính xác liên quan trong bộ dữ liệu huấn luyện, nhưng điều này không bao giờ được đảm bảo. Nếu có trường hợp thiếu thông tin ngữ cảnh trong mạng nơ-ron của Whisper để đưa ra dự đoán chính xác về cách phiên âm một đoạn âm thanh cụ thể, mô hình sẽ dựa vào những gì nó "biết" về mối quan hệ giữa âm thanh và từ ngữ mà nó đã học được từ dữ liệu huấn luyện.
- Dữ liệu huấn luyện
OpenAI cho biết vào năm 2022, Whisper đã học được những mối quan hệ thống kê đó từ "680.000 giờ dữ liệu giám sát đa ngôn ngữ và đa nhiệm thu thập từ web". Nhưng hiện nay chúng ta biết thêm một chút về nguồn gốc. Xét đến xu hướng quen thuộc của Whisper trong việc tạo ra các kết quả cụ thể như "cảm ơn bạn đã theo dõi", "thích và đăng ký" hoặc "viết bình luận trong phần bên dưới" khi được cung cấp đầu vào im lặng hoặc không rõ ràng, có khả năng OpenAI đã huấn luyện Whisper trên hàng nghìn giờ âm thanh có chú thích thu thập từ video YouTube. (Các nhà nghiên cứu cần âm thanh được ghép nối với chú thích hiện có để huấn luyện mô hình.)
- Hiện tượng "quá khớp" (overfitting)
Ngoài ra, còn có một hiện tượng được gọi là "quá khớp" trong các mô hình AI, trong đó thông tin (trong trường hợp này, văn bản được tìm thấy trong bản ghi âm) được gặp thường xuyên hơn trong dữ liệu huấn luyện có khả năng được tái tạo cao hơn trong kết quả. Trong trường hợp Whisper gặp phải âm thanh chất lượng kém trong ghi chú y tế, mô hình AI sẽ tạo ra những gì mạng nơ-ron dự đoán là kết quả có khả năng nhất, ngay cả khi kết quả đó không chính xác. Và kết quả có khả năng nhất đối với bất kỳ video YouTube nào, vì rất nhiều người nói điều đó, là "cảm ơn đã theo dõi".
Trong các trường hợp khác, Whisper dường như dựa vào ngữ cảnh của cuộc trò chuyện để điền vào những gì sẽ đến tiếp theo, điều này có thể dẫn đến vấn đề vì dữ liệu huấn luyện của nó có thể bao gồm bình luận phân biệt chủng tộc hoặc thông tin y tế không chính xác. Ví dụ, nếu nhiều ví dụ về dữ liệu huấn luyện có người nói cụm từ "tội phạm của tội phạm da đen", khi Whisper gặp phải một mẫu âm thanh "tội phạm của [âm thanh không rõ ràng] tội phạm", mô hình có khả năng điền vào bản ghi âm bằng "da đen".
Trong bản mô tả mô hình Whisper gốc, các nhà nghiên cứu của OpenAI đã viết về hiện tượng này: "Bởi vì các mô hình được huấn luyện theo cách giám sát yếu bằng cách sử dụng dữ liệu nhiễu quy mô lớn, các dự đoán có thể bao gồm văn bản không thực sự được nói trong đầu vào âm thanh (ví dụ: ảo giác). Chúng tôi giả định rằng điều này xảy ra bởi vì, dựa trên kiến thức chung về ngôn ngữ, các mô hình kết hợp việc cố gắng dự đoán từ tiếp theo trong âm thanh với việc cố gắng phiên âm chính xác âm thanh đó."
Vì vậy, theo nghĩa đó, Whisper "biết" một số điều về nội dung của những gì được nói và theo dõi ngữ cảnh của cuộc trò chuyện, điều này có thể dẫn đến các vấn đề như trường hợp Whisper xác định hai phụ nữ là người da đen mặc dù thông tin đó không có trong bản ghi âm gốc. Về lý thuyết, kịch bản sai sót này có thể được giảm thiểu bằng cách sử dụng một mô hình AI thứ hai được huấn luyện để chọn ra những khu vực âm thanh khó hiểu, nơi mô hình Whisper có khả năng "ảo giác" và gắn cờ bản ghi âm ở vị trí đó, để con người có thể kiểm tra độ chính xác của những trường hợp đó sau đó.
4. Lời khuyên từ OpenAI
Rõ ràng, lời khuyên của OpenAI là không sử dụng Whisper trong các lĩnh vực nguy hiểm, chẳng hạn như hồ sơ y tế quan trọng, là một lời khuyên tốt. Nhưng các công ty chăm sóc sức khỏe luôn bị thúc đẩy bởi nhu cầu giảm chi phí bằng cách sử dụng các công cụ AI dường như "đủ tốt" - như chúng ta đã thấy với Epic Systems sử dụng GPT-4 cho hồ sơ y tế và UnitedHealth sử dụng mô hình AI có lỗi cho quyết định bảo hiểm. Hoàn toàn có thể mọi người đã và đang phải chịu đựng những hậu quả tiêu cực do lỗi của AI, và việc khắc phục chúng có khả năng sẽ liên quan đến một số quy định và chứng nhận đối với các công cụ AI được sử dụng trong lĩnh vực y tế.
5. Mối nguy hiểm tiềm ẩn
Tác động của việc "ảo giác" của Whisper trong lĩnh vực y tế có thể rất nghiêm trọng. Một bản ghi âm sai có thể dẫn đến chẩn đoán sai, điều trị không phù hợp và thậm chí tử vong. Việc xóa bản ghi âm gốc cũng gây thêm khó khăn cho việc xác minh độ chính xác của bản ghi âm.
6. Cần có quy định và chứng nhận cho AI trong y tế
Những phát hiện này cho thấy việc sử dụng các công cụ AI trong các lĩnh vực nhạy cảm như y tế cần phải có sự thận trọng và kiểm soát chặt chẽ. Cần có những quy định và chứng nhận cho các công cụ AI được sử dụng trong y tế để đảm bảo độ chính xác và an toàn cho bệnh nhân.
Kết luận
Công cụ phiên âm Whisper của OpenAI, mặc dù có những tuyên bố ban đầu về độ chính xác cao, lại dễ bị "ảo giác" và tạo ra văn bản bịa đặt. Điều này đặc biệt đáng lo ngại trong lĩnh vực y tế, nơi độ chính xác là cực kỳ quan trọng. Cần có những biện pháp quản lý và chứng nhận chặt chẽ để đảm bảo an toàn và hiệu quả của các công cụ AI trong y tế.
0 comments Blogger 0 Facebook
Đăng nhận xét