Secondo uno studio recentemente pubblicato su Nature, l’algoritmo riuscirebbe a identificare le lesioni del cancro al seno nelle mammografie meglio dell’occhio umano
I ricercatori della divisione Deep Mind di Google hanno “addestrato” un modello di intelligenza artificiale (AI) a identificare il cancro al seno grazie a migliaia di immagini di mammografie, per poi testare le sue capacità su due set di dati. Lo studio, pubblicato il 1° gennaio 2020 sulla rivista Nature, ha dimostrato che in determinate condizioni l’AI è più efficiente dell’uomo nell’identificazione di lesioni precancerose o indicanti la presenza di cancro al seno. Pur non essendo un sistema infallibile, l’unione tra capacità umane e quelle del programma potrebbe portare a una riduzione degli errori di lettura delle immagini, specialmente per quanto riguarda il rilevamento di falsi positivi e di falsi negativi. I tassi di errore sono ad oggi piuttosto elevati nel caso dello screening mammografico.
Stando ai dati della World Health Organization (WHO), il cancro al seno è il più frequente tra le donne e ne colpisce più di 2 milioni ogni anno. È stato stimato che nel 2018 abbia causato 627.000 decessi, che corrispondono a circa il 15% del totale delle morti causate da cancro tra le donne. In Italia sono stati stimati più di 53.000 nuovi casi nel 2019 (“I numeri del cancro 2019”, rapporto dati AIRTUM e AIOM). I numeri sono rilevanti e in aumento. Per migliorare gli esiti della malattia, è fondamentale identificare il problema il prima possibile. Pur essendo un esame valido e utile nell’identificazione del cancro al seno, i tassi di sopravvivenza delle donne sottoposte a screening non variano in maniera significativa rispetto a quelle che non lo fanno. Una delle cause risiede proprio nella lettura delle mammografie.
L’algoritmo, ancora in fase di studio, rientra nei progetti di Google dedicati alla medicina del futuro: non solo cancro al seno ma, tra gli altri, anche carcinoma polmonare e patologie dell’occhio legate al diabete. Si tratta in realtà di un sistema, cioè dell’insieme di tre modelli di “deep learning” (apprendimento profondo, una forma di apprendimento automatico basato su reti neurali artificiali che lavorano a più strati in modo da elaborare l’informazione in maniera completa, N.d.R.), ciascuno operante a un diverso livello di analisi, la “somma” dei quali permette di avere un risultato finale. L’idea deriva dal fatto che i numeri legati al cancro al seno sono importanti e la lettura dei referti radiografici è un’operazione delicata e complessa, che spesso porta a una conclusione errata. Il modello è stato “addestrato” utilizzando dati provenienti da mammografie di più di 76.000 donne inglesi e più di 15.000 americane. Successivamente è stato testato sui due gruppi di dati più piccoli per valutarne efficacia e accuratezza, paragonando i risultati con quelli ricavati dall’occhio umano. Per fare questo, sono stati coinvolti 6 radiologi non specializzati nella lettura delle mammografie, che hanno dovuto esprimere il loro giudizio in merito a 500 immagini.
I dati utilizzati in questa analisi provengono da due centri di screening del Regno Unito e da un centro medico accademico statunitense. Il set inglese consiste di immagini raccolte tra il 2012 e il 2015 da 25.856 donne (il 10% del totale delle donne sottoposte a mammografia in quel periodo di tempo) e include 785 donne che erano state sottoposte a biopsia e 414 con diagnosi confermata entro 39 mesi dallo screening. Al contrario del Regno Unito, il dataset degli Stati Uniti non riflette la popolazione generale, essendo formato da immagini raccolte da 3.097 donne tra il 2001 e il 2018 in un solo centro medico accademico. I dati includono le immagini di 1.511 donne che sono state sottoposte a biopsia in quel periodo, di cui 686 con diagnosi confermata di cancro entro 27 mesi, e un sottoinsieme casuale di donne mai sottoposte a questa pratica medica. La durata del follow-up dello studio è diversa tra i due gruppi ed è stata scelta in base alla durata dell’intervallo di screening, che negli Stati Uniti è di 1-2 anni, mentre nel Regno Unito è di 3 anni.
Nel Regno Unito, dove le mammografie vengono osservate da due radiologi (in caso di dubbio è interpellato anche un terzo lettore), il sistema di AI ha dimostrato una precisione superiore al primo lettore umano, ma non ha superato la performance della doppia lettura da parte di radiologi. Negli USA l’algoritmo ha dimostrato sensibilità superiore a quella umana. Parlando di numeri, nella valutazione complessiva dell’algoritmo, è stata registrata una riduzione del 5.7% dei falsi positivi negli Stati Uniti e una riduzione dell’1.2% nel Regno Unito. Per comprendere se fosse applicabile anche ad altri sistemi sanitari, il modello è stato “addestrato” solo con i dati delle donne del Regno Unito e valutato utilizzando solo i dati degli Stati Uniti. In questo caso la riduzione dei falsi positivi è stata del 3.5%, mentre quella dei falsi negativi dell’8.1%, dimostrando la sua applicabilità anche in contesti diversi dai dati di “allenamento”.
Secondo i ricercatori, si potrebbero migliorare i dati di lettura e si potrebbe ovviare alla doppia lettura dei referti nell’88% dei casi in Regno Unito, con un livello di accuratezza simile a quello del protocollo standard. Questo potrebbe essere utile nei Paesi in cui le mammografie da analizzare sono molte, ma sono pochi i radiologi a disposizione. A livello teorico è tutto molto bello, ma serviranno altri studi per capire fino a che punto questa tecnologia può essere davvero utile per i pazienti.
Bisogna fare alcune considerazioni per inquadrare meglio la complessità del discorso. Innanzitutto, mentre il radiologo ha la cartella clinica del paziente a disposizione, l’algoritmo valuta solo quell’unica mammografia. Questo vuol dire che i medici, di fronte a determinati esami, possono richiedere approfondimenti per comprendere meglio la situazione ed evitare trattamenti inutili. Il sistema, infatti, potrebbe anche amplificare le problematiche già esistenti legate agli eccessi di test, diagnosi e trattamenti non necessari. Lo screening con mammografia è già da qualche anno un argomento controverso: è importante sottolineare che non tutti i tumori rilevati sono destinati a diventare pericolosi per il paziente, anche se attualmente è quasi impossibile sapere se una lesione identificata allo stadio iniziale diventerà un cancro. Il problema di sovrastimare il numero di diagnosi, si potrebbe tradurre in un eccessivo numero di trattamenti non necessari, con le inevitabili conseguenze per i pazienti e i sistemi sanitari. Come spiegato nel position paper della WHO sullo screening mammografico, “Sebbene l'associazione tra lo screening del cancro al seno e l'eccesso di diagnosi è stato dimostrato in modo coerente in tutti gli studi, ed è probabile che sia supportato da prove di alta qualità, vi è una significativa incertezza sulle stime quantitative nelle diverse fasce d'età; quindi questa evidenza è di qualità da bassa a molto bassa a causa del suo essere poco affidabile”.
L’AI, come descritto nello studio “The ethical, legal and social implications of using artificial intelligence systems in breast cancer care”, ci pone di fronte a sfide etiche, legali e sociali, non solo tecniche. Sebbene i recenti progressi ci facciano sperare nel suo utilizzo fruttuoso in moltissimi campi, bisogna fare le dovute considerazioni. L’intelligenza artificiale è una creazione dell’uomo e il futuro dell’applicazione in medicina – e non solo – dipenderà dal suo utilizzo: se l’uomo porrà il quesito nel modo sbagliato, la macchina fallirà nel suo compito.