Uno studio ha testato due diversi modelli di GPT per la selezione dei pazienti in un trial sui tumori della testa e del collo. I risultati sono buoni ma ci sono ancora dei nodi da sciogliere
La selezione dei pazienti per l’arruolamento negli studi clinici è un passaggio cruciale, ma anche uno dei più onerosi: richiede tempo, personale specializzato e un’analisi dettagliata delle cartelle cliniche. Secondo una ricerca statunitense del 2022, fino al 20% delle sperimentazioni affiliate al National Cancer Institute (NCI) fallisce a causa del basso numero di partecipanti. Questo non solo aumenta i costi e ritarda i risultati, ma compromette anche l'affidabilità dei nuovi trattamenti. Un nuovo studio, pubblicato a luglio sulla rivista accademica Machine Learning, ha mostrato che ChatGPT può accelerare lo screening dei pazienti per le sperimentazioni cliniche.
Tradizionalmente, lo screening dei pazienti per l’arruolamento negli studi clinici si basa sulla revisione manuale dei dati contenuti nelle cartelle elettroniche, un processo che può richiedere anche 30-45 minuti per singolo paziente. Parte del problema è che le preziose informazioni sui pazienti contenute nelle cartelle cliniche elettroniche sono spesso nascoste in testo non strutturato, come le note dei medici, che i tradizionali software di apprendimento automatico faticano a decifrare. Di conseguenza, molti pazienti idonei vengono trascurati perché semplicemente non c'è abbastanza capacità per esaminare ogni caso. Questo contribuisce a bassi tassi di arruolamento, ritardi nelle sperimentazioni e persino annullamenti, rallentando in ultima analisi l'accesso a nuove terapie. Uno dei risultati è che molte sperimentazioni – anche nell’ambito delle malattie rare - faticano ad arruolare un numero sufficiente di partecipanti.
LO STUDIO: GPT A CONFRONTO CON LA REVISIONE MANUALE
Lo studio è stato condotto da un team multidisciplinare che ha riunito esperti in oncologia ed esperti nell’ambito dell’intelligenza artificiale, provenienti dal UT Southwestern Medical Center di Dallas (Stati Uniti) e dalla Catholic University of Korea di Seul (Corea). I ricercatori hanno valutato due grandi modelli linguistici (LLM) - GPT-3.5 e GPT-4 testandoli direttamente su testi non strutturati delle cartelle cliniche – note del medico, referti di anatomia patologica e di imaging – per verificare l’eleggibilità dei pazienti a un trial di Fase II per tumori della testa e del collo.
I sistemi hanno esaminato i dati di 74 pazienti (35 candidabili e 39 non candidabili), confrontando le performance dei due modelli in relazione a 14 criteri di eleggibilità, tra cui stadio della malattia, istologia e trattamenti pregressi. Sono stati testati tre metodi per sollecitare l'intelligenza artificiale (AI): l’Output Strutturato (Structured output, SO), che richiede risposte in un formato predefinito, la Catena di Pensiero (Chain of Thought, CoT), ossia chiedere al modello di spiegare il proprio ragionamento e, infine, il metodo Self-Discover (SD) che prevede di lasciare che sia il modello a capire cosa cercare.
I risultati sono stati promettenti. I tempi di screening fra i due modelli variavano da 1,4 a 12,4 minuti per paziente, con costi compresi tra 0,02 e 0,27 dollari. GPT-4 si è rivelato più accurato del GPT-3.5, sebbene leggermente più lento e costoso: fino a 12 minuti per paziente contro 1-3 minuti con GPT-3.5) e costi maggiori (0,27 dollari contro 0,02).
IL PRIMO NODO: SCEGLIERE LE PRIORITÀ
Il limite principale riguarda la capacità dei modelli di verificare la totalità dei criteri richiesti: anche piccoli errori su singoli punti finiscono per escludere pazienti potenzialmente idonei. Non a caso, l’approccio “proporzionale” – che valuta la quota di criteri soddisfatti anziché un rispetto rigido di tutti – si è rivelato più efficace per lo screening preliminare. Con questa strategia, GPT-4 ha raggiunto risultati molto buoni.
IL SECONDO NODO: BIAS E COMPLESSITÀ DEI CASI
Nonostante le performance incoraggianti, restano diversi ostacoli. Entrambi i modelli hanno faticato a interpretare correttamente informazioni temporali, come per esempio l’indicatore “nessun intervallo libero da malattia inferiore a tre anni” o criteri che richiedevano un contesto clinico più complesso, come l’assenza di fattori di alto rischio. Inoltre, la documentazione sanitaria varia molto da un’istituzione all’altra, sollevando interrogativi sulla generalizzabilità dei risultati.
IL TERZO NODO: LA TRASPARENZA
C’è poi il tema della trasparenza: GPT-3.5 e GPT-4 sono sistemi chiusi, lavorano come scatole nere, ossia ci restituiscono un output ma non è sempre agile provare a ripercorrere il procedimento che l’ha generato. Come altri strumenti di intelligenza artificiale, inoltre, restano esposti al rischio di bias, un problema particolarmente delicato quando si tratta di accesso a studi clinici.
UNO STRUMENTO DI SUPPORTO, NON UN SOSTITUTO
Non è il primo studio che porta a risultati simili. Alla fine del 2024, Osservatorio Terapie Avanzate aveva illustrato le potenzialità di TrialGPT un algoritmo in grado di analizzare la corrispondenza tra i criteri di inclusioni delle sperimentazioni cliniche e i pazienti candidati, rendendo il processo più rapido ed efficiente, anch’esso tuttavia non esente da problematiche. Anche una lettera apparsa su JAMA lo scorso aprile ha evidenziato come l’intelligenza artificiale possa velocizzare in modo significativo l’individuazione dei pazienti eleggibili per i trial clinici. Al centro della lettera c’era RECTIFIER, un sistema di screening basato su modelli linguistici di grandi dimensioni (LLM), capace di ridurre sensibilmente i tempi di valutazione e, di conseguenza, favorire un maggiore arruolamento.
Insomma: questi modelli linguistici non sostituiscono per il momento la revisione manuale, ma possono ridurre drasticamente il carico di lavoro creando una lista preliminare di candidati ad alta probabilità di eleggibilità. In questo modo, il personale clinico può concentrarsi sui casi più promettenti, velocizzando il reclutamento e riducendo i costi. L’obiettivo futuro potrebbe dunque essere quello di integrare queste tecnologie in flussi di lavoro ibridi, che combinino l’analisi automatica dei LLM con la validazione umana, e sfruttare sistemi specificamente addestrati sul linguaggio clinico per superare i limiti dei modelli generalisti come GTP.





