ChatRWD: Vượt Qua Gã Khổng Lồ Công Nghệ, Dẫn Đầu Trong Lĩnh Vực Trả Lời Câu Hỏi Y Khoa
Mục lục:
- Thử nghiệm các hệ thống dựa trên mô hình ngôn ngữ lớn
- Nhu cầu về AI tạo sinh đáng tin cậy, đạt tiêu chuẩn lâm sàng
- Chuyển dịch từ tiện lợi sang tin cậy
- Cầu nối khoảng cách dữ liệu với ChatRWD
Trong cuộc đua phát triển trí tuệ nhân tạo (AI) y tế, những cái tên lớn nhất chưa chắc đã mang lại kết quả tốt nhất. Mới đây, một nghiên cứu tiền in đã chỉ ra rằng, khi nói đến độ chính xác lâm sàng và sự tin tưởng của bác sĩ, một ứng cử viên ít tiếng tăm hơn đang vượt qua các đối thủ nặng ký trong ngành.
Thử nghiệm các hệ thống dựa trên mô hình ngôn ngữ lớn
Nghiên cứu đã đánh giá khả năng cung cấp lời khuyên y tế đáng tin cậy và có tính khả thi của năm hệ thống AI thế hệ mới. Chín bác sĩ độc lập đã kiểm tra khả năng trả lời 50 câu hỏi lâm sàng của 5 hệ thống AI này dựa trên các tiêu chí: mức độ liên quan, độ tin cậy và tính khả thi.
Kết quả cho thấy các mô hình ngôn ngữ lớn (LLM) nổi tiếng như ChatGPT-4, Claude 3 Opus và Gemini Pro 1.5 gặp khó khăn trong việc đưa ra câu trả lời đáng tin cậy. Chúng chỉ có thể đưa ra câu trả lời liên quan và dựa trên bằng chứng cho 2% đến 10% số câu hỏi. Ngoài ra, các LLM này thường xuyên ảo tưởng về trích dẫn, với 25% đến 47% nguồn trích dẫn là hư cấu hoặc hoàn toàn không liên quan đến câu hỏi.
Trong khi hệ thống OpenEvidence dựa trên công nghệ tạo văn bản bổ sung truy xuất (RAG) hoạt động tốt hơn, thì ChatRWD, một ứng dụng trò chuyện-cơ sở dữ liệu hỗ trợ bởi AI từ Atropos Health, lại cho thấy kết quả khả quan nhất, đạt tỷ lệ thành công 58% trong việc cung cấp câu trả lời liên quan và dựa trên bằng chứng.
Nhu cầu về AI tạo sinh đáng tin cậy, đạt tiêu chuẩn lâm sàng
Tiến sĩ Brigham Hyde, Giám đốc điều hành của Atropos Health, nhà phát triển ChatRWD, chia sẻ: 'Tôi tin rằng toàn bộ lĩnh vực AI tạo sinh trong chăm sóc sức khỏe đang hướng tới chất lượng và sự tin tưởng, điều mà chúng tôi đã tập trung ngay từ đầu.'
Ông cho biết thêm, nhiều chuyên gia chăm sóc sức khỏe đã và đang khám phá các mô hình ngôn ngữ lớn có sẵn trong khoảng 6 tháng đến một năm qua. Vấn đề ảo tưởng là rất thực tế. Mục tiêu là tìm ra cách sử dụng LLM sao cho vừa thuận tiện, nhanh chóng vừa duy trì được sự tin tưởng và chính xác, đây chính là mục tiêu cuối cùng đối với các nhà cung cấp dịch vụ chăm sóc sức khỏe.
Hyde lưu ý rằng phiên bản ChatRWD được sử dụng trong nghiên cứu là phiên bản đầu tiên. 'Chúng tôi sẽ không [chính thức] ra mắt cho đến khi đạt được độ chính xác trong khoảng 90%. Và ngay cả khi đó, chúng tôi vẫn khuyến nghị các bác sĩ lâm sàng sử dụng nó như một công cụ để hỗ trợ đưa ra quyết định.' Ông nhấn mạnh tầm quan trọng của việc các bác sĩ lâm sàng sử dụng công nghệ này cần tham khảo ý kiến chuyên gia để được hỗ trợ trong việc ngữ cảnh hóa kết quả.
Chuyển dịch từ tiện lợi sang tin cậy
'Tôi nghĩ những gì đang diễn ra hiện nay là sự chuyển dịch từ tiện lợi sang tin cậy,' Hyde nói. 'Là bác sĩ, chúng tôi đang bị ngập trong các thông điệp từ các LLM này, và trong bối cảnh của chúng tôi, nơi chúng tôi đang tạo ra bằng chứng có thể ảnh hưởng đến quyết định điều trị cho bệnh nhân, chúng tôi đơn giản là không thể chấp nhận tỷ lệ lỗi 20%.'
Các công ty khác cũng đang nỗ lực phát triển các hệ thống AI chính xác hơn về mặt y tế. Một ví dụ là Med-PaLM 2 của Google, công cụ này đã cho thấy kết quả đầy hứa hẹn trong các kỳ thi y khoa và trả lời các câu hỏi sức khỏe của người tiêu dùng. Các công ty công nghệ khác như IBM và Microsoft cũng có những sáng kiến tương tự.
Cầu nối khoảng cách dữ liệu với ChatRWD
Điểm độc đáo của Atropos là tập trung vào việc cung cấp bằng chứng thực tế (RWE) chất lượng cao, nhanh chóng để hỗ trợ quá trình ra quyết định lâm sàng và nghiên cứu trong lĩnh vực chăm sóc sức khỏe.
Tiến sĩ Hyde giải thích: 'Ngay cả các thử nghiệm lâm sàng mà chúng tôi thực hiện thường loại trừ một phần đáng kể bệnh nhân - khoảng 70% - những người mắc nhiều bệnh lý nền. Và bạn đoán xem? Đó là khoảng 70% số bệnh nhân mà bác sĩ gặp hàng ngày.'
ChatRWD nhằm thu hẹp khoảng cách quan trọng này bằng cách cung cấp cho các bác sĩ lâm sàng quyền truy cập nhanh chóng vào bằng chứng thực tế. 'Sau khi [bác sĩ lâm sàng] nhập truy vấn của họ, chúng tôi sẽ trả về một nghiên cứu mới trong vòng chưa đầy ba phút,' Hyde giải thích. 'Điều này trái ngược với các phương pháp truyền thống, trong đó các nghiên cứu về hiệu quả so sánh như vậy có thể mất từ sáu đến tám tuần để thực hiện và thường yêu cầu nhiều nhóm lớn và nguồn lực đáng kể. Giờ đây, bạn đã có một người dùng cá nhân, không có khả năng lập trình, không có khả năng thống kê, chỉ cần đặt câu hỏi và được hướng dẫn qua các bước này,' ông nói thêm.

0 comments Blogger 0 Facebook
Đăng nhận xét