Gli algoritmi di machine learning sono in grado di prevedere come la cellula riparerà la molecola di DNA dopo essere stata sottoposta a editing con CRISPR/Cas9
Il meccanismo di azione di CRISPR/Cas9 si basa sulla proteina Cas9 - una nucleasi, cioè un enzima in grado di tagliare la sequenza di DNA – che, una volta programmata, taglia la doppia elica nel punto indicato dall’RNA guida. In assenza di un modello da replicare, cioè di un segmento di RNA che funge da stampo per la riparazione precisa del danno, si riteneva che la cellula aggiustasse la molecola di DNA in modo casuale e imprevedibile. Grazie all’intelligenza artificiale è stato dimostrato che la modifica inserita dal “kit di riparazione” della cellula è prevedibile. Le correzioni fatte dai meccanismi di riparazione cellulare non sono casuali, ma dipendono dalla sequenza di DNA che fiancheggia la mutazione target. Le mutazioni generate da Cas9 derivano dall’azione imperfetta delle vie di riparazione del DNA, che vengono attivate in caso di rottura della doppia elica.
I principali meccanismi di riparazione prevedono di unire semplicemente le due estremità del taglio, generando errori di pochi nucleotidi (i mattoncini che compongono la molecola di DNA); oppure ci sono delezioni più grandi a causa del riconoscimento di piccole sequenze omologhe ripetute nel DNA. La scelta dipende da più fattori, ad esempio in che fase del ciclo cellulare si trovano le cellule e l’attività dei meccanismi di riparazione. Sebbene questi ultimi siano stati ampiamente descritti, non è stato ancora compreso il meccanismo che favorisce l’inserimento di una mutazione al posto di un’altra durante il processo di correzione del danno.
In uno studio del Massachusetts Institute of Technology (MIT) pubblicato qualche mese fa sulla prestigiosa rivista scientifica Nature è stato descritto un algoritmo di machine learning - cioè un insieme di meccanismi che permettono a una macchina di migliorare le proprie capacità e prestazioni nel tempo (in poche parole è in grado di apprendere basandosi su set di dati) - capace di prevedere con precisione i risultati dei meccanismi di riparazione cellulare in seguito al taglio fatto da Cas9. L’algoritmo, chiamato inDelphi, è stato “addestrato” basandosi su dati sperimentali derivati da 1872 sequenze, tipiche del genoma umano, tagliate e ricucite in linee cellulari umane e di topo, analizzando poi il tipo di mutazione inserita. I risultati suggeriscono che il 28-47% degli RNA guida che hanno come obiettivo il genoma umano inducono un singolo genotipo di riparazione prevedibile in oltre il 30% dei casi e il 5-11% lo produce in oltre il 50% dei casi. In poche parole, le modifiche sono tutt’altro che casuali. Basandosi su questo concetto, inDelphi è stato utilizzato per la progettazione di 14 RNA guida per l’editing ad alta precisione senza sequenza modello e ha prodotto buoni risultati in sequenze rilevanti su cellule umane. Inoltre, l’algoritmo ha permesso di analizzare nuovi obiettivi per l’editing genomico con fini terapeutici, grazie all’identificazione di mutazioni patogene adatte a questo tipo di editing con CRISPR.
Separatamente, al Sanger Institute (Regno Unito) è stato creato un altro algoritmo per fare la stessa cosa: FORECasT (Favored Outcomes of Repair Events at Cas9 Targets) è basato su una libreria di risultati di oltre 40.000 RNA guida su segmenti di DNA sintetici. Il modello ha mostrato che nella maggior parte dei casi - con studi fatti su più di un miliardo di riparazioni in vari tipi cellulari - si tratta di singole inserzioni di base, piccole delezioni o delezioni più estese a causa della presenza di sequenze omologhe. L’algoritmo è stato in grado di utilizzare le sequenze che determinano ciascun tipo di riparazione per predire i risultati dell’editing genomico con CRISPR/Cas9. I risultati, pubblicati su Nature Biotechnology, confermano quelli ottenuti con inDelphi, ma il set di dati utilizzati è più ampio e, di conseguenza, le conclusioni più solide. La tecnologia va ancora affinata, ma stando alle conoscenze attuali potrebbe essere molto utile sfruttare l’intelligenza artificiale per rendere più precise le tecniche di editing genomico. Pronostici accurati dei risultati dei processi di riparazione dei tagli fatti da Cas9 potrebbero consentire ai ricercatori di predire in modo computazionale, utilizzando algoritmi e computer, gli RNA guida che riprodurranno mutazioni specifiche nelle cellule umane. Portando così allo sviluppo di modelli di ricerca migliori per lo studio delle malattie genetiche.