Evaluating the Performance of Deep Learning Model and Junior Radiologists in Reading Major Pathologies on Chest X-Rays: A Population-Based, Multi-Reader Study

Rentgenový snímek hrudníku (CXR) je základním diagnostickým nástrojem při odhalování patologických stavů hrudníku. Přesnost interpretace se však může u jednotlivých radiologů, zejména těch méně zkušených, značně lišit. Jako slibné řešení pro zvýšení diagnostické přesnosti se ukázaly algoritmy automatické detekce založené na hlubokém učení (DLAD). Tato populační, multi-reader studie hodnotí výkon DLAD (Carebot AI CXR) při detekci čtyř hlavních hrudních patologií - atelektázy (ATE), konsolidace (CON), plicních lézí (LES) a pleurálních výpotků (EFF) - v porovnání s diagnostickou přesností šesti juniorních radiologů v reálném klinickém prostředí. Retrospektivně jsme analyzovali snímky CXR (n=999) ze středně velké nemocnice, které odrážejí reálnou prevalenci studovaných nálezů. Výkonnost DLAD byla hodnocena pomocí senzitivity (Se), specificity (Sp) a poměru pravděpodobnosti (PLR a NLR) a následně porovnána s hodnocením radiologů. Pro porovnání Se a Sp s intervaly spolehlivosti (CI) a p-hodnotami byl použit párový design. Navržený DLAD prokázal lepší Se u všech patologií s hodnotami 0.938 (CI: 0.832–0.979) pro ATE (n=48), 0.946 (0.852–0.981) pro CON (n=55), 0.940 (0.887–0.969) pro EFF (n=134) a 0.818 (0.680–0.905) for LES (n=44), kde DLAD dosáhl nižšího Se než dva posuzovaní radiologové ve studii s více čtenáři (RAD 3 a RAD 5), ale rozdíly nebyly statisticky významné. Ve všech nálezech však dosáhl nižší Sp ve srovnání s mladšími radiology, přičemž vykázal hodnoty 0,914 (0,894-0,931), 0,803 (0,775-0,829), 0,875 (0,852-0,895) a 0,879 (0,854-0,900). Výsledky zdůrazňují potenciál integrace DLAD do klinické praxe jako nástroje pro podporu rozhodování méně zkušených radiologů. Navrhovaný DLAD má schopnost zvýšit senzitivitu odečtu radiologů.

Doporučené články