Kvak, D., Chromcová, A., Ovesná, P., Dandár, J., Biroš, M., Hrubý, R., ... & Pajdaković, M. (2024). Detecting Pulmonary Lesions in Low-Prevalence Real-World Settings using Deep Learning. In: Su, R., Zhang, Y., Liu, H., F Frangi, A. (eds) Medical Imaging and Computer-Aided Diagnosis. MICAD2023. Lecture Notes in Electrical Engineering. Springer, Singapore.
Abstrakt:
Rychlý rozvoj umělé inteligence (AI) v lékařském zobrazování přinesl vzrušující vyhlídky na zvýšení přesnosti a efektivity diagnostiky. Jednou z aktivních oblastí výzkumu je využití algoritmů automatické detekce založených na hlubokém učení (DLAD) v rentgenografii hrudníku, které prokázaly obrovský potenciál při identifikaci různých nálezů, jako je tuberkulóza nebo plicní léze. Navzdory slibným výsledkům v kontrolovaných simulovaných podmínkách s vysokou prevalencí, které se obvykle vyskytují ve výzkumných prostředích, však existují obavy ohledně použití těchto aplikací v reálných scénářích. Pro naši studii jsme shromáždili 956 rentgenových snímků hrudníku (CXR) z každodenní klinické praxe v městské nemocnici. Dva ground truth čtenáři s přístupem k předchozím a následným vyšetřením pacienta dosáhli zaslepené shody u 901 snímků CXR, z nichž u 21 bylo vizuálně potvrzeno, že obsahují jednu nebo více plicních lézí (prevalence: 2,3 %), a u 880 nebylo zjištěno, že by obsahovaly plicní léze. Šest radiologů s různou úrovní zkušeností bylo požádáno, aby provedli retrospektivní analýzu těchto snímků. Následně byl výkon každého radiologa porovnán se základní pravdou a navrhovaným DLAD (2.0.20-v2.01). Navržený DLAD prokázal vyšší senzitivitu (Se 0,905 (0,715-0,978)) než senzitivita všech hodnocených radiologů (RAD 1 0,238 (0,103-0,448), p < 0,001, RAD 2 0,333 (0,170-0,544), p < 0,001, RAD 3 0. 524 (0,324-0,717), p < 0,001, RAD 4 0,619 (0,410-0,794), p < 0,001, RAD 5 0,667 (0,456-0,83), p < 0,001, RAD 6 0,619 (0,41-0,794), p < 0,001) a rozdíl byl statisticky významný. Specificita DLAD (Sp 0,893 (0,871-0,912)) byla významně nižší než u pěti srovnávaných radiologů (RAD 1 0,999 (0,994-1), p < 0,001, RAD 2 0,933 (0,915-0,948), p < 0,001, RAD 4 0,968 (0,955-0,978), p < 0,001, RAD 5 0. 991 (0,982-0,996), p < 0,001, RAD 6 0,989 (0,979-0,994), p < 0,001), s výjimkou jednoho, středně zkušeného radiologa, ale rozdíl nebyl statisticky významný (RAD 3 0,884 (0,861-0,904), p = 0,685). Výsledky této studie ukazují, že navrhovaný DLAD dosahuje vysoké úrovně senzitivity a poměrně spolehlivé úrovně specificity i při použití v reálných podmínkách s nízkou prevalencí. V důsledku toho lze navrhovaný DLAD považovat za přínosný jak pro mladší, tak pro zkušenější radiology.