Mô hình ngôn ngữ lớn nhỏ hơn cho hình ảnh y tế: Lựa chọn bền vững cho tương lai
Các mô hình ngôn ngữ lớn (LLM) nhỏ hơn, được "tinh chỉnh" cho các ứng dụng hình ảnh y tế, mang lại tính bền vững cao hơn so với các LLM đa năng cỡ lớn, sử dụng ít năng lượng hơn mà không làm giảm độ chính xác.
Đây là kết quả nghiên cứu của nhóm do bác sĩ Florence Doo, thuộc Trung tâm Hình ảnh Y tế Thông minh Đại học Maryland (UM2ii) ở Baltimore dẫn đầu. Nhóm đã phát hiện ra rằng một LLM nhỏ, chuyên biệt với 7 tỷ tham số chỉ sử dụng 0,13 kilowatt giờ (kWh) so với 0,59 kWh của một LLM đa năng – chênh lệch 78%. Phát hiện của họ đã được công bố trên tạp chí Radiology vào ngày 27 tháng 8.
"Các bác sĩ X quang có thể tạo ra sự khác biệt bằng cách chọn mô hình AI 'tối ưu' cho một nhiệm vụ cụ thể – hay như một người thầy đã nói, bạn không cần dùng búa tạ để đóng đinh," bác sĩ Doo chia sẻ.
Theo bác sĩ Doo và các đồng nghiệp, năng lượng được sử dụng bởi LLM cho các ứng dụng y tế, bao gồm cả hình ảnh, góp phần tạo nên lượng khí thải carbon của toàn bộ hệ thống chăm sóc sức khỏe. Kích thước của LLM được xác định bởi số lượng "tham số" mà nó có; những tham số này "giống như các nơ-ron có trọng số trong não người," bác sĩ Doo và các đồng nghiệp giải thích, lưu ý rằng "kích thước của LLM đề cập đến độ phức tạp và khả năng học hỏi của nó, nhiều tham số hơn đồng nghĩa với việc mô hình có khả năng nhận ra các mẫu phức tạp hơn trong dữ liệu, điều này có thể chuyển thành độ chính xác cao hơn cho các nhiệm vụ như chẩn đoán bệnh từ phim X quang."
Do mức tiêu thụ năng lượng của LLM chưa được đo lường trước đây, nhóm của bác sĩ Doo đã nghiên cứu sự cân bằng giữa độ chính xác và mức sử dụng năng lượng cho các loại LLM khác nhau trong ứng dụng hình ảnh y tế, đặc biệt là X quang ngực. Nghiên cứu bao gồm dữ liệu từ 5 LLM mã nguồn mở với kích thước tham số tỷ (B) khác nhau (Meta's Llama 2 7B, 13B và 70B, tất cả đều là mô hình đa năng, và LMSYS Org's Vicuna v1.5 7B và 13B, được nhóm của bác sĩ Doo mô tả là "mô hình chuyên biệt, được tinh chỉnh"). Nghiên cứu đã sử dụng thông tin từ 3.665 báo cáo X quang ngực được lấy từ bộ sưu tập X quang ngực Đại học Indiana của Thư viện Y học Quốc gia.
Các nhà nghiên cứu đã thử nghiệm các mô hình bằng cách sử dụng "cụm tính toán" cục bộ với bộ xử lý đồ họa tính toán trực quan; mỗi mô hình được hướng dẫn bằng một câu lệnh đơn nhiệm vụ để xác nhận sự hiện diện hoặc vắng mặt của 13 nhãn bệnh CheXpert. (CheXpert là một bộ dữ liệu lớn về X quang ngực và cuộc thi về giải thích X quang ngực tự động do Jeremy Irvin, nghiên cứu sinh tiến sĩ của Đại học Stanford, và các đồng nghiệp phát triển vào năm 2019.) Họ đã đo mức sử dụng năng lượng của từng LLM bằng kilowatt giờ và đánh giá độ chính xác của chúng bằng cách sử dụng 13 nhãn bệnh CheXpert cho các phát hiện chẩn đoán trên phim X quang ngực (độ chính xác tổng thể là trung bình cộng của độ chính xác riêng lẻ của từng nhãn). Các nhà nghiên cứu cũng đã tính toán tỷ lệ hiệu quả của LLM (tức là độ chính xác trên mỗi kWh; giá trị càng cao thì hiệu quả càng cao).
Kết quả nghiên cứu:
Tiêu chí | Llama 2 7B | Llama 2 13B | Llama 2 70B | Vicuna 1.5 7B | Vicuna 1.5 13B |
---|---|---|---|---|---|
Tỷ lệ hiệu quả | 13.39 | 40.9 | 22.3 | 737.2 | 331.4 |
Độ chính xác tổng thể | 7.9% | 74% | 92.7% | 93.8% | 93% |
Năng lượng GPU tiêu thụ (kWh) | 0.59 | 1.81 | 4.16 | 0.13 | 0.28 |
Nhóm nghiên cứu nhấn mạnh rằng Vicuna 1.5 7B có tỷ lệ hiệu quả cao nhất, ở mức 737.2 so với 13.39 của Llama 2 7B, và báo cáo rằng mô hình Llama 2 70B sử dụng năng lượng nhiều hơn 7 lần so với phiên bản 7B (4.16 kWh so với 0.59 kWh) và có độ chính xác tổng thể thấp hơn so với các mô hình khác.
"Chúng tôi đã rất ngạc nhiên khi thấy các mô hình lớn hơn sử dụng nhiều năng lượng hơn như thế nào chỉ để đổi lấy một chút cải thiện về độ chính xác," bác sĩ Doo nói.
Theo bác sĩ Doo, lớn hơn không phải lúc nào cũng tốt hơn.
"Chúng ta không phải lúc nào cũng cần những mô hình AI lớn nhất, hào nhoáng nhất để đạt được kết quả tốt," bà chia sẻ. "Khi lựa chọn LLM hoặc các công cụ AI khác, chúng ta có thể xem xét tính bền vững và đưa ra những lựa chọn thông minh mang lại lợi ích cho cả bệnh nhân và hành tinh."
Kết luận:
Nghiên cứu này cho thấy rằng việc sử dụng LLM nhỏ hơn, chuyên biệt cho hình ảnh y tế có thể mang lại hiệu quả cao hơn về mặt năng lượng mà không làm giảm đáng kể độ chính xác. Đây là một yếu tố quan trọng cần xem xét khi phát triển và triển khai các ứng dụng AI trong lĩnh vực chăm sóc sức khỏe, đặc biệt là trong bối cảnh lo ngại ngày càng tăng về tác động môi trường của công nghệ. Việc lựa chọn LLM phù hợp có thể giúp giảm thiểu lượng khí thải carbon và góp phần xây dựng một hệ thống chăm sóc sức khỏe bền vững hơn.

0 comments Blogger 0 Facebook
Đăng nhận xét