Đánh giá AI đa phương thức trong chẩn đoán y tế: Tiềm năng và giới hạn
Mục lục
- Giới thiệu
- Bộ dữ liệu thử thách hình ảnh NEJM
- Khả năng phản hồi
- Độ chính xác
- Tính chọn lọc của GPT-4V trong việc trả lời câu hỏi
- Khả năng của AI trong chẩn đoán y tế
- Minh bạch và bối cảnh pháp lý của EU
- Thách thức đánh giá và hướng nghiên cứu trong tương lai
- Phương pháp
- Dữ liệu và biến số
- Mô hình đa phương thức và lời nhắc câu hỏi
- Phân tích thống kê
- Tuyên bố về AI tạo sinh và công nghệ hỗ trợ AI trong quy trình viết
- Tóm tắt báo cáo
- Khả dụng dữ liệu
- Khả dụng mã
- Tài liệu tham khảo
Bộ dữ liệu thử thách hình ảnh NEJM
Nghiên cứu này đánh giá độ chính xác và khả năng phản hồi của các mô hình AI đa phương thức trong việc trả lời các câu hỏi Thử thách hình ảnh NEJM, so sánh với trí thông minh tập thể của con người, nhấn mạnh tiềm năng và hạn chế hiện tại của AI trong chẩn đoán lâm sàng.
Dữ liệu cho thấy sự tham gia cao vào Thử thách hình ảnh NEJM bắt đầu vào ngày 13 tháng 10 năm 2005, lên đến đỉnh điểm là hơn 85 triệu phản hồi cho 945 trường hợp (tính đến ngày 13 tháng 12 năm 2023). Số lượng phản hồi trung bình cho mỗi câu hỏi là 90.679 (SD = 32.921; trung vị = 88.407; phạm vi = 13.120–233.419). Tỷ lệ phần trăm trung bình của các phiếu bầu trả lời đúng các trường hợp y tế là 49,4% (SD = 13,6%; trung vị = 49%; phạm vi = 16–88%), phản ánh mức độ khó đa dạng vốn có trong các câu hỏi tình huống. Độ dài của các câu hỏi dao động từ 4 đến 128 từ với trung bình là 28,5 từ, cho biết phạm vi đa dạng của thông tin lâm sàng bổ sung được cung cấp.
Các hình ảnh y tế được phân tích trong Thử thách hình ảnh NEJM thể hiện phạm vi phân giải rộng, với kích thước khác nhau từ 0,57 đến 5,95 megapixel. Trung bình, các hình ảnh là 2,02 megapixel, cho thấy sự đa dạng đáng kể về chi tiết và chất lượng hình ảnh được trình bày cho các mô hình AI và công chúng giải thích.
Khả năng phản hồi
Trong khi tất cả các mô hình nguồn mở ngoài các mô hình độc quyền của họ Claude 3 đều phản hồi tất cả các truy vấn, thì GPT-4 Vision Preview độc quyền (ví dụ: Tôi xin lỗi, tôi không thể cung cấp chẩn đoán y tế hoặc diễn giải hình ảnh y tế. […]) chỉ phản hồi 76% (n = 718) trường hợp. GPT-4 Vision Preview có xu hướng trả lời các câu hỏi dễ hơn được đo bằng độ chính xác trung bình của người tham gia (p = 0,033), cũng như các câu hỏi có kích thước hình ảnh nhỏ hơn (p <0,001) và văn bản câu hỏi dài hơn (p <0,001, Hình 1). Bard Gemini 1.0 Vision Pro chỉ không đưa ra câu trả lời cho một câu hỏi (0,11%) vì lý do không xác định (block_reason: OTHER).
Độ chính xác
Trong số các mô hình AI, các mô hình của Anthropic nổi bật, đạt được độ chính xác cao nhất (từ 58,8%, n = 556 trên 945 đến 59,8%, n = 565 trên 945 câu hỏi) vượt xa tỷ lệ bỏ phiếu trung bình của người tham gia (49,4%, p <0,001) khoảng 10%. Nghiên cứu quan sát thấy rằng quyết định tập thể của con người, được xác định bằng cách bỏ phiếu đa số với 7 phiếu hòa được tính là phản hồi không chính xác, đã trả lời đúng 90,8% (n = 858) trường hợp, cho thấy khả năng của trí thông minh bầy đàn trong chẩn đoán đa phương thức y tế và vượt qua tất cả các mô hình đa phương thức được thử nghiệm bởi một biên độ lớn (Hình 2). Phiếu bầu đa số mô hình đã xem xét bốn mô hình tốt nhất (tất cả các mô hình Claude 3 ngoài GPT-4 1106 Vision Preview) đã không cho thấy bất kỳ cải tiến nào (p = 0,96) so với mô hình tốt nhất Claude 3 Haiku. Điều thú vị là Haiku là mô hình nhỏ nhất và nhanh nhất trong dòng Claude 3 và đã trả lời đúng hơn sáu câu hỏi so với mô hình lớn nhất, có khả năng nhất là Opus, mặc dù sự khác biệt này không có ý nghĩa thống kê (p = 0,8).
Tính chọn lọc của GPT-4V trong việc trả lời câu hỏi
Sự nhận thức trong hành vi phản hồi của mô hình hàng đầu OpenAI này nhấn mạnh những hạn chế tiềm ẩn do các chính sách kiểm duyệt hạn chế áp đặt đối với các mô hình AI nguồn đóng. Tính chọn lọc như vậy, đặc biệt là khi hầu hết các câu hỏi lâm sàng đều nhận được phản hồi bất chấp sự kiểm duyệt, đặt ra câu hỏi về hiệu quả của các biện pháp hạn chế này và ảnh hưởng của chúng đối với đánh giá khoa học. Điều thú vị là hành vi này dường như có chọn lọc đối với những câu hỏi dễ hơn, những câu hỏi có hình ảnh nhỏ hơn và những câu hỏi có mô tả văn bản dài hơn. Để tăng cường tính minh bạch, các nhà phát triển nên trình bày rõ ràng lý do đằng sau việc không phản hồi một số câu hỏi nhất định (ví dụ: tài liệu hình ảnh không phù hợp hoặc lo ngại về quyền riêng tư đối với ảnh bệnh nhân không được ẩn danh hoặc đơn giản là sự liên kết của mô hình là không sai và thay vì không trả lời câu hỏi hơn là trả lời sai). Giới thiệu tài khoản chuyên biệt cho các nhà nghiên cứu có quyền truy cập mở rộng và ít mô hình hạn chế hơn có thể là một cách tiếp cận có lợi để hỗ trợ nghiên cứu trong lĩnh vực này, đồng thời đảm bảo tuân thủ các tiêu chuẩn về đạo đức và bảo mật.
Khả năng của AI trong chẩn đoán y tế
Tất cả các mô hình Claude 3 đều vượt qua GPT-4 Vision Preview của OpenAI về độ chính xác mà không phủ nhận bất kỳ câu hỏi nào, điều này có thể cho thấy các phương pháp đào tạo phù hợp hơn tại Anthropic. Nhìn chung, nghiên cứu đã chỉ ra rằng các mô hình mục đích chung rất phù hợp để trả lời các câu hỏi kiến thức y tế rất cụ thể và thậm chí vượt qua cả độ chính xác trung bình của người tham gia. Trong nghiên cứu này, Claude 3 Haiku đã đạt được độ chính xác cao nhất. Kết quả tương tự cũng được quan sát thấy trong một nghiên cứu khác, trong đó GPT-4 chỉ có văn bản hoạt động tốt hơn 99,98% người đọc mô phỏng — mặc dù chỉ bao gồm 38 trường hợp — trong chẩn đoán các trường hợp NEJM, một kết quả không được lặp lại trong phân tích thử thách hình ảnh đa phương thức bằng GPT-4 Vision Preview. Trí thông minh tập thể của con người đã vượt qua tất cả các mô hình AI với tỷ lệ chính xác 90,8%, phù hợp với các khái niệm do James Surowiecki đưa ra.
Nhìn chung, những phát hiện này rất hứa hẹn cho tương lai của AI trong chẩn đoán y tế, đặc biệt là trong các lĩnh vực như da liễu, nơi tự động hóa phát hiện ung thư đang cho thấy sự quan tâm ngày càng tăng của giới khoa học. Một phân tích tổng hợp được công bố gần đây đã chứng minh rằng độ chính xác của AI trong việc phát hiện ung thư da vượt trội hơn đáng kể so với các bác sĩ đa khoa và cho thấy hiệu suất tương đương với các bác sĩ da liễu có kinh nghiệm. Hơn nữa, một phân tích khác cho thấy độ chính xác hơn 90% trong phát hiện ung thư da có thể đạt được bằng cách sử dụng các mô hình AI. Những kết quả này cho thấy khả năng phân tích của AI đối với các nhiệm vụ chẩn đoán cụ thể, chẳng hạn như phát hiện ung thư da, vượt trội hơn đáng kể so với những gì quan sát được trong phân tích đa phương thức tổng quát hơn. Người ta đã chứng minh rằng các cơ chế an toàn được thiết kế để ngăn chặn việc tự chẩn đoán y tế bởi những người không chuyên nghiệp là không đủ do việc thực hiện không nhất quán. Những phát hiện từ nghiên cứu này và những nghiên cứu khác chỉ ra rằng mặc dù AI có thể hỗ trợ đáng kể cho chẩn đoán và đào tạo y tế và hợp lý hóa việc tiếp cận y tế, nhưng việc tích hợp nó vào thực hành lâm sàng đòi hỏi cách tiếp cận thận trọng, tận tâm và minh bạch với sự giám sát bắt buộc theo quy định.
Minh bạch và bối cảnh pháp lý của EU
Gần đây, Nghị viện EU đã thông qua Đạo luật AI của EU, một đạo luật mang tính bước ngoặt nhằm mục đích điều chỉnh trí tuệ nhân tạo bằng cách phân loại các ứng dụng AI dựa trên mức độ rủi ro của chúng. Đạo luật đặt ra những yêu cầu nghiêm ngặt đối với các hệ thống AI có rủi ro cao, bao gồm cả những hệ thống được sử dụng trong chăm sóc sức khỏe. Quy định này bắt buộc tính minh bạch, mạnh mẽ và giám sát của con người, đảm bảo rằng các hệ thống AI hoạt động an toàn và có đạo đức.
Đối với AI y tế, Đạo luật AI của EU nhấn mạnh sự cần thiết phải có tài liệu rõ ràng, truy xuất nguồn gốc và trách nhiệm giải trình của các quy trình ra quyết định của AI. Nó cũng nhấn mạnh tầm quan trọng của việc kiểm tra và xác nhận nghiêm ngặt để đáp ứng các tiêu chuẩn cao về độ chính xác và độ tin cậy. Các mô hình mở được phân tích trong nghiên cứu này có lợi thế rõ ràng ở đây vì chúng có trọng số mô hình có sẵn công khai và thường có tài liệu tốt về mã đào tạo và bộ dữ liệu được sử dụng, tạo điều kiện thuận lợi cho tính minh bạch và truy xuất nguồn gốc theo yêu cầu của Đạo luật AI của EU.
Thách thức đánh giá và hướng nghiên cứu trong tương lai
Các mô hình đa phương thức được đánh giá không được thiết kế tùy chỉnh cho các nhiệm vụ y tế và mặc dù hiệu suất của chúng rất hứa hẹn và khả năng học chuyển giao mạnh mẽ đã được thể hiện cho các mô hình mục đích chung, nhưng việc nghiên cứu các mô hình ngôn ngữ lớn được tinh chỉnh, chuyên biệt là điều cần thiết. Các thử nghiệm lâm sàng là điều cần thiết để xác nhận khả năng của AI đa phương thức trong các quy trình lâm sàng. Ngoài ra, các mô hình độc quyền thiếu đánh giá an toàn toàn diện do không thể truy cập được bộ dữ liệu đào tạo và kiến trúc mô hình. Việc thiếu minh bạch liên quan đến dữ liệu đào tạo của các mô hình độc quyền tạo ra sự không chắc chắn về việc liệu đánh giá này có đủ điều kiện là kịch bản không bắn thực sự hay không, cho thấy khả năng nhiễm bẩn bộ dữ liệu trong đó hình ảnh hoặc câu hỏi có thể đã được đưa vào bộ dữ liệu đào tạo của mô hình. Ngược lại, tính minh bạch của các mô hình nguồn mở có thể tạo điều kiện thuận lợi cho việc đánh giá an toàn mạnh mẽ hơn.
Hơn nữa, bản chất có cấu trúc của các định dạng trắc nghiệm có thể không nắm bắt đầy đủ sự phức tạp gặp phải trong môi trường lâm sàng thực tế, nơi các chẩn đoán không bị giới hạn trong các lựa chọn được xác định trước. Cuối cùng, điều đáng chú ý là một mô hình duy nhất, khi được định cấu hình với các tham số khác nhau, có thể mang lại những phản hồi khác nhau. Trong nghiên cứu này, mỗi mô hình được sử dụng mà không cần điều chỉnh bất kỳ tham số nào để đánh giá khả năng cơ bản.
Phương pháp
Nghiên cứu sử dụng dữ liệu từ thử thách hình ảnh của Tạp chí Y học New England (NEJM), một bài kiểm tra trên web hàng tuần có chứa hình ảnh, mô tả trường hợp ngắn tùy chọn, câu hỏi tương ứng và năm câu hỏi trắc nghiệm. Tất cả các trường hợp hình ảnh được xuất bản cho đến ngày 7 tháng 12 năm 2023 đã được đưa vào (n = 945). Ngoài câu hỏi trên, số phiếu bầu cho các lựa chọn khả dụng cũng thu được để so sánh các mô hình với trí thông minh tập thể của con người. Hai số liệu được lấy từ dữ liệu bỏ phiếu của người tham gia: giá trị trung bình của người tham gia, đại diện cho tỷ lệ phần trăm trung bình của những người trả lời đúng mỗi câu hỏi và số phiếu bầu của người tham gia, xác định xem hầu hết người tham gia có chọn câu trả lời đúng cho mỗi câu hỏi hay không, đóng vai trò là thước đo cho sự đồng thuận chung về tính đúng đắn của câu trả lời.
Dữ liệu và biến số
Dữ liệu được lấy từ thử thách hình ảnh của Tạp chí Y học New England (NEJM), một bài kiểm tra trên web hàng tuần có chứa hình ảnh, mô tả trường hợp ngắn tùy chọn, câu hỏi tương ứng và năm câu hỏi trắc nghiệm. Tất cả các trường hợp hình ảnh được xuất bản cho đến ngày 7 tháng 12 năm 2023 đã được đưa vào (n = 945). Ngoài câu hỏi trên, số phiếu bầu cho các lựa chọn khả dụng cũng thu được để so sánh các mô hình với trí thông minh tập thể của con người.
Mô hình đa phương thức và lời nhắc câu hỏi
Nghiên cứu hiện tại đánh giá chín mô hình AI đa phương thức: CogVLM Chat v1.1, LLaVA v1.5 13B, LLaVA v1.6 34B, InternVL-Chat-V1.5-Int8, GPT-4 Vision Preview v1106 của OpenAI và Gemini 1.0 Pro Vision của Google và Claude 3 Family Opus, Haiku và Sonnet của Anthropic. GPT-4 Vision Preview, Gemini 1.0 Pro Vision và Claude 3 độc quyền đã được sử dụng thông qua thư viện python của công ty. Trọng số mô hình của các mô hình mở đã được tải xuống từ Hugging Face vào ngày 18 tháng 12 năm 2024, ngoại trừ LLaVA v1.6 34B và InternVL-Chat-V1.5-Int8, được truy cập lần lượt vào ngày 12 và ngày 19 tháng 5 năm 2024. Cùng một mẫu câu hỏi đã được sử dụng cho tất cả chín mô hình đa phương thức.
Phân tích thống kê
Phân tích được thực hiện trên hệ thống Apple M1 Pro macOS 14.3.1, sử dụng Python 3.10.12. Nghiên cứu đã sử dụng một số thư viện Python để phân tích và hình dung dữ liệu: Pandas (v1.5.3) để thao tác dữ liệu, Seaborn (v0.11.2) và Matplotlib (v3.7.2) để tạo biểu đồ.
Tuyên bố về AI tạo sinh và công nghệ hỗ trợ AI trong quy trình viết
Grammarly (Grammarly, Inc.) và GPT-4 đã được sử dụng để cải thiện ngôn ngữ và sửa đổi bản thảo chung. Sau khi sử dụng các công cụ này, các tác giả đã xem xét và chỉnh sửa nội dung khi cần thiết và chịu trách nhiệm hoàn toàn về nội dung của ấn phẩm.
Tóm tắt báo cáo
Thông tin thêm về thiết kế nghiên cứu có sẵn trong Tóm tắt Báo cáo Danh mục Tự nhiên được liên kết với bài viết này.
Khả dụng dữ liệu
Tất cả các phản hồi của mô hình trong nghiên cứu này được ghi lại và tải lên dưới dạng tệp được phân cách bằng tab, đảm bảo tính minh bạch và khả năng tái tạo của các phát hiện (Dữ liệu bổ sung 1). Các trường hợp Thử thách hình ảnh NEJM có thể truy cập công khai mà không cần đăng nhập tại trang web Thử thách hình ảnh của Tạp chí Y học New England. Sự khả dụng công khai này của bộ dữ liệu thô đầy đủ hỗ trợ cho nghiên cứu và xem xét kỹ lưỡng hơn nữa của cộng đồng y tế và khoa học.
Khả dụng mã
Mã nguồn cho sổ ghi chép Jupyter Python tương tác được sử dụng trong phân tích nghiên cứu này có sẵn theo yêu cầu hợp lý. Yêu cầu truy cập hoặc làm rõ có thể được chuyển trực tiếp đến tác giả tương ứng.
Khi các mô hình AI phát triển nhanh chóng, chúng mang đến một lời hứa đáng kể trong việc tăng cường chẩn đoán y tế, mở rộng tiềm năng của chúng vượt ra ngoài các ứng dụng truyền thống lấy văn bản làm trung tâm để bao gồm các bộ dữ liệu đa phương thức. Tuy nhiên, phát hiện của chúng tôi tán thành sự lạc quan có chừng mực và kêu gọi đánh giá nuanced về khả năng của các công cụ này. Thiết lập các khuôn khổ mạnh mẽ để triển khai có trách nhiệm là rất quan trọng đối với sự an toàn của bệnh nhân. Tương lai của AI trong y học phụ thuộc vào nỗ lực hợp tác để nâng cao độ tin cậy và ứng dụng có đạo đức của nó, với mục tiêu bổ sung — thay vì thay thế — chuyên môn của con người.

0 comments Blogger 0 Facebook
Đăng nhận xét