La mappa del DNA del Human Genome Project è una delle risorse più utilizzate nella genomica, ma gli scienziati sono al lavoro per realizzare una versione più inclusiva della diversità umana
Nel 2020 un team internazionale di ricercatori identificò più di 120mila sequenze di DNA - che nel complesso contano circa 18 milioni di unità, o coppie di basi - che non erano presenti nel genoma di riferimento umano standard, noto come GRCh38 . Un grande limite del Human Genome Project (HGP) è che il 93% della sua sequenza proviene da soli 11 individui e il 70% da un solo uomo. Ora, per aggiungere tutti i tasselli al puzzle del genoma umano, un gruppo di scienziati si è posto come obiettivo quello di costruire un pangenoma, ovvero un catalogo delle sequenze di DNA in grado di catturare il più possibile la diversità genetica della specie umana. Il progetto è stato recentemente illustrato sulle pagine di Nature.
Raccogliere le varianti genetiche rappresentative di tutte le popolazioni umane è un’impresa a dir poco titanica, ma è con questo proposito che è stato finanziato lo Human Pangenome Project, un progetto internazionale lanciato nel 2019 dal National Human Genome Research Institute (NHGRI, il dipartimento dei National Institutes of Health statunitensi che si occupa di ricerca genomica) e basato sulla collaborazione di un team multidisciplinare di genetisti, biologi computazionali, esperti di policy e di etica. Il progetto punta a creare un genoma di riferimento umano più completo di quello attuale, non solo in termini di rappresentazione della variabilità genetica globale (come già anticipato, il 70% delle sequenze del genoma GRCh38 proviene da un solo individuo), ma anche con l’intento di “tappare” i buchi e correggere gli errori presenti nell’attuale sequenza genomica.
I primi pangenomi furono realizzati all’inizio del millennio per organismi semplici e facili da sequenziare come i batteri, uno di questi è lo Streptococcus agalactiae (un batterio molto diffuso e responsabile di infezioni terribili nei neonati). La mappatura genetica ha permesso ai ricercatori di comprendere ancora meglio le differenze, in termini di patogenicità, virulenza e resistenza ai farmaci, fra un ceppo batterico e l’altro. I pangenomi di piante e animali sono molto più complessi da studiare rispetto a quelli dei batteri, a causa sia delle notevoli dimensioni dei loro genomi sia della significativa quantità di DNA “non codificante” - quella parte di DNA che non contiene le informazioni per costruire proteine - che nella specie umana costituisce circa il 98% di tutto il genoma. Proprio il componente più abbondante del DNA non codificante è rappresentato da quelle sequenze di molte coppie di basi ripetute che, oltre ad avere implicazioni biologiche sull’espressione dei geni, sono state escluse dagli standard analitici e interpretativi della genomica, lasciandoci una fotografia del nostro genoma con diverse zone d’ombra. Fotografia che è stata solo recentemente resa più nitida.
Negli ultimi anni, grazie al miglioramento dell’efficienza delle tecnologie di sequenziamento, la comunità scientifica è stata in grado di assemblare sequenze di DNA centinaia di volte più lunghe delle sequenze “brevi” (100-250 coppie di basi), riuscendo a sequenziare frammenti che superano anche il milione di basi con un’accuratezza del 99.9%. La possibilità di sequenziare frammenti molto lunghi di DNA consente non solo di mappare le sequenze ripetute, ottenendo una ricostruzione più completa di ciascun cromosoma, ma anche di allineare con maggiore precisione una variante genetica di interesse al genoma di riferimento. Infatti, uno dei vantaggi di analizzare il pangenoma umano consiste nel poter identificare varianti genetiche che sono assenti o difficili da allineare all’attuale genoma di riferimento, per poi capire se queste varianti possono causare o prevenire una certa malattia.
I genetisti dello Human Pangenome Project devono ancora completare il sequenziamento dei 350 genomi selezionati per rappresentare la diversità umana, ma i loro colleghi biologi computazionali sono già al lavoro per cercare di capire come visualizzare al meglio questa variabilità. Finora il metodo convenzionale per riprodurre graficamente il genoma di riferimento umano standard consisteva nel rappresentare con una struttura lineare la sequenza di riferimento e, in una banca dati separata, le varianti genetiche elencate in base alla posizione occupata nel genoma. Tuttavia, per rendere più intuitiva e inclusiva la stessa rappresentazione grafica del genoma umano, è necessario cambiare visualizzazione: la sequenza genomica di riferimento potrebbe essere rappresentata in maniera più efficace da una grafica che ricordi la mappa delle linee di una metropolitana piuttosto che una cartina autostradale, in modo da non dare per scontato la presenza di un genoma di default.
L’approccio di studio alla base di questa iniziativa di big science punta a superare i limiti - non solo scientifici ma anche culturali, etici e sociali - dello Human Genome Project. A questo scopo, nel team di esperti che lavorano allo Human Pangenome Project sono state inserite anche figure professionali in grado di ponderare le implicazioni etiche, legali e sociali derivanti dall’utilizzo di dati genetici provenienti da minoranze etniche e popolazioni marginalizzate, come le comunità indigene. A differenza di altri grandi progetti di sequenziamento, in cui un solo comitato di revisione istituzionale esaminava le decisioni prese dagli scienziati, nello Human Pangenome Project gli esperti in bioetica sono integrati in tutto il processo decisionale e il loro parere sarà richiesto in maniera costante e continuativa. Il rischio da scongiurare è calpestare i diritti di chi ha acconsentito a donare i propri dati genetici per la realizzazione del pangenoma umano, un errore già commesso in passato.
Quello sul pangenoma umano è un progetto ambizioso, che permetterà di colmare anche una parte delle lacune che offuscano, ancora oggi, le cause genetiche di molte malattie. Sarà sufficiente a rispondere a tutte le domande della genomica e della genetica? Probabilmente no, ma finché sarà realizzato in modo da riflettere la diversità genomica e biogeografica della specie umana, sarà una risorsa di cui non potremo fare a meno per molto tempo.