Genoma
Il g. costituisce l'insieme delle informazioni genetiche e il materiale ereditario propri di un organismo. È contenuto nel DNA o, per alcuni virus, nell'RNA. A partire dagli anni Ottanta del 20° sec., il g. umano è stato oggetto di dettagliate indagini, che hanno costituito l'attività fondamentale di un programma internazionale di analisi genetica che ha preso il nome di Progetto Genoma Umano. Il progetto ha raggiunto nel 2003 il suo obiettivo principale, rappresentato dalla decodifica della sequenza completa del g. umano, costituito da 3 miliardi di lettere, chiamate nucleotidi.
Storia del Progetto Genoma Umano
Alla fine degli anni Novanta del 20° sec. il Progetto Genoma Umano è entrato nella sua fase finale, sfruttando il lavoro preliminare di 'mappatura' portato avanti negli anni precedenti. Innanzi tutto è stata completata l'opera di suddivisione di tutto il g. umano in frammenti 'maneggevoli' (cloni) usando come vettori prima gli YAC (Yeast Artificial Chromosomes), successivamente i BAC (Bacterial Artificial Chromosomes) e i PAC (P1-derived Artificial Chromosomes). L'ordine corretto di questi frammenti, cromosoma per cromosoma, è stato consentito dalla contemporanea identificazione di marcatori molecolari (STS, Sequence Tagged Sites) localizzati a distanze più o meno regolari nel g. e rappresentanti una sorta di pietre miliari. Utilizzando questa strategia, è stato completamente sequenziato, per la prima volta, il g. di un organismo multicellulare, ossia il nematode Caenorhabditis elegans. Si tratta di un organismo molto usato nella comunità scientifica internazionale soprattutto come modello per lo studio del sistema nervoso. Tornando all'uomo, è stato annunciato il sequenziamento completo dei due cromosomi umani più piccoli, vale a dire il cromosoma 22 e il cromosoma 21, rispettivamente nel dicembre del 1999 e nel maggio del 2000, pari il primo a circa l'1,6-1,8% e il secondo all'1-1,5% dell'intero g. umano. Il sequenziamento completo di questi due cromosomi ha fornito la prima visione d'insieme di estese regioni del g. umano e ha fornito importantissime informazioni sulla loro composizione e contenuto genico. Inoltre, tanto il cromosoma 21 quanto il cromosoma 22 hanno una notevole importanza dal punto di vista biomedico, in quanto entrambi sono frequentemente coinvolti nell'insorgenza di alterazioni cromosomiche. In particolare, la presenza nel g. di una copia in eccesso del cromosoma 21, in termini tecnici la trisomia del cromosoma 21, è alla base della sindrome di Down, una delle patologie cromosomiche più frequenti nell'uomo. L'identificazione di tutti i geni localizzati sul cromosoma 21 ha permesso di effettuare studi mirati al riconoscimento dei meccanismi biologici che sono alla base di questa grave patologia. Contemporaneamente si è verificato anche un notevole miglioramento delle tecnologie di sequenziamento e, in particolare, si sono resi disponibili nuovi modelli di sequenziatori automatici, i quali consentono una maggiore velocità nei processi di sequenziamento. Questo progresso tecnologico ha favorito il ritorno in auge di una tecnica di sequenziamento, che è denominata shotgun sequencing, già usata per il sequenziamento di piccoli genomi tra i quali quello del batterio Haemophilus influenzae, e la sua applicazione al sequenziamento di g. complessi incluso quello umano. A differenza del metodo basato sulla suddivisione del g. in cloni, questo prevede la frammentazione del g. in pezzi molto più piccoli e un assemblaggio diretto senza la previa costituzione di una mappa di marcatori molecolari che fungano da punti di riferimento. Il primo successo ottenuto da questa tecnologia è stato rappresentato, nel 2000, dal sequenziamento completo del g. del moscerino della frutta (Drosophila melanogaster), effettuato da un consorzio pubblico-privato coordinato dalla University of California a Berkeley e dalla società privata statunitense Celera Genomics di Washington. Questo risultato costituisce un altro traguardo storico nell'ambito della ricerca genetica e genomica, dal momento che la Drosophila rappresenta un organismo modello fondamentale nel campo della genetica. Proprio grazie a essa nei primi anni del 20° sec. furono gettate le basi per la comprensione della struttura dei cromosomi e dei geni e proprio in questo organismo è stata inaugurata la ricerca genomica propriamente detta. I primi studi di identificazione genica in organismi multicellulari sono stati condotti nel moscerino della frutta sfruttando la facile manipolabilità del suo g. e la possibilità di inserire, tramite agenti fisici e chimici, cambi strutturali (mutazioni) nei geni che si traducevano nella generazione di animali con specifiche anomalie fisiche e comportamentali (fenotipi alterati). Grazie a questi studi pioneristici, la Drosophila ha costituito, fino all'inizio degli anni Novanta del Novecento, l'organismo preferito per identificare sia i geni sia le relative proteine, e ha consentito anche l'isolamento di geni aventi ruoli fondamentali nel controllo e nella regolazione dello sviluppo, come, per fare qualche esempio, i geni Homeobox e i geni Pax. Sulla scia del successo ottenuto con il sequenziamento della Drosophila, la Celera Genomics ha intrapreso, tra il 1999 e il 2000, il sequenziamento completo del g. umano in parallelo rispetto al Progetto Genoma Umano, utilizzando però un approccio di shotgun sequencing su g. intero.
Le migliorate tecnologie di sequenziamento hanno consentito una notevole accelerazione dei tempi previsti e hanno fatto sì che le due parallele iniziative, il Progetto Genoma Umano internazionale (a finanziamento pubblico) e quella a guida commerciale, nel giugno del 2000, abbiano annunciato contemporaneamente e poi pubblicato, poco meno di un anno dopo, il completamento di una prima bozza del g. umano, con più di un anno di anticipo rispetto alle previsioni. Si tratta di una bozza di sequenza quasi completa di tutti i 24 cromosomi umani che rappresenta senza dubbio una conquista storica per il sapere scientifico, aprendo la strada al riconoscimento di tutti i geni umani. Tuttavia, il Progetto Genoma Umano, a questo punto, non poteva ancora considerarsi concluso: la sequenza ottenuta equivaleva a circa il 94% del totale, e conteneva ancora numerose lacune che impedivano una lettura completa e ininterrotta del libro della vita. L'obiettivo finale era rappresentato dall'ottenimento di una sequenza allo stato completo dell'intero g. umano. L'obiettivo è stato preceduto dal completamento progressivo del sequenziamento di tutti i cromosomi umani, primi fra tutti i cromosomi 5, 16, 19, 20, 14, Y, 7, 6, 13, 19, 10, 9, 5 e X. Nel 2003, il Consorzio Internazionale del Sequenziamento del Genoma Umano ha annunciato il passaggio dello stato della sequenza dalla forma di bozza (draft) alla sua forma finale che copre più del 99% del g. umano e con un numero di errori che non supera una lettera ogni 10.000. Con questo risultato si può considerare conclusa, con ben due anni di anticipo rispetto alle previsioni originarie, la prima fase del Progetto, mentre continua l'analisi dell'immensa massa di dati da esso generata e comincia la fase della cosiddetta ricerca postgenomica. Tale fatto non ha determinato, tuttavia, la cessazione dell'attività di sequenziamento rispetto ad altri g. complessi. Per la suddetta attività, lo shotgun sequencing su g. interi rappresenta la strategia più usata grazie alla sua maggiore rapidità rispetto al metodo del sequenziamento basato sui cloni, nonostante la maggiore difficoltà nell'ottenimento di un assemblaggio finale. Tuttavia, contrariamente al caso dell'uomo, anche l'ottenimento di una sequenza allo stato di bozza e non completo secondo i parametri utilizzati per il g. umano, viene considerato di grande utilità per gli studi comparativi ed evoluzionistici. Nell'ambito dei progetti di sequenziamento di grandi g. non-umani, i primi risultati sono stati ottenuti nel 2002: innanzi tutto, è stata pubblicata la sequenza di una prima bozza pari a circa il 95% del g. di topo (Mus musculus), il secondo mammifero a essere completamente sequenziato nonché l'organismo che, dalla metà degli anni Ottanta del 20° sec., rappresenta il modello di riferimento per l'analisi in vivo della funzione dei geni umani, e soprattutto di quelli direttamente coinvolti in patologie. Sempre nel 2002, è stata pubblicata la bozza della sequenza genomica del pesce palla giapponese o fugu (Fugu rubripes), organismo con uno dei g. più piccoli e 'compatti' tra i vertebrati. Il g. di fugu si definisce compatto in quanto la sua dimensione è circa il 10% di quelle del g. di uomo e di topo, pur avendo un numero paragonabile di geni, con una notevole riduzione della quota di DNA che non entra a far parte della struttura dei geni, quello cioè a funzione completamente ignota che viene comunemente indicato come DNA spazzatura (junk DNA) e che costituisce la percentuale preponderante del g. umano. Queste caratteristiche rendono il fugu un organismo ideale per l'identificazione del set completo di geni albergato nel suo g. e questo dato si rivela molto utile per identificare, tramite studi di comparazione di sequenza, circa 1000 geni umani che non erano stati individuati dopo una prima analisi del g. umano. All'inizo del 21° sec. sono innumerevoli i progetti di sequenziamento genomico in corso. La tabella riassume i risultati di tutti questi progetti, indicando il numero di organismi divisi per gruppi il cui g. è stato sequenziato oppure è in corso di sequenziamento. In particolare, sono anche da segnalare l'iniziativa multicentrica internazionale (Progetto Genomico dei Mammiferi) la quale prevede il sequenziamento di un notevole numero di g. di mammifero, il sequenziamento, in fase molto avanzata, del g. di scimpanzé, il cui g. è il più simile al g. umano, oltre che il sequenziamento quasi completo dei g. di pollo (Gallus gallus), di zebrafish (Danio rerio, un pesce che è diventato un organismo molto gradito ai genetisti per studi di funzione genica), di ratto e di cane. Inoltre, anche il numero di piccoli g. (vale a dire di virus, batteri, funghi oppure protozoi) che si è reso disponibile è notevolmente aumentato dalla fine del 20° secolo. Tra questi piccoli g., si sono preferenzialmente scelti quelli di organismi che avessero la maggiore rilevanza sia in campo biomedico e biotecnologico a causa del loro coinvolgimento in patologie umane, infettive e non, sia per il loro possibile utilizzo nello sviluppo di nuovi agenti farmacologici. Infine, è opportuno segnalare anche l'attività di sequenziamento del g. di organismi vegetali, il primo dei quali a essere completato è stato quello della Arabidopsis thaliana, una piccola pianta che, sebbene non presenti alcuna particolare importanza agronomica, è molto studiata in quanto utilizzata come organismo modello per le scienze vegetali. Successivamente, sono stati iniziati dei progetti di sequenziamento dei g. di altri organismi vegetali, come il riso (Oryza sativa) e il mais (Zea mays), che rivestono, invece, un altissimo interesse di tipo agronomico e biotecnologico. La notevole mole di informazioni derivata da tutti questi progetti di sequenziamento gnomico, che può costituire l'insieme delle nozioni fondamentali di una nuova disciplina che va sotto il nome di biologia genomica, ha avuto bisogno, per un suo corretto utilizzo da parte della comunità scientifica internazionale, dello sviluppo di una serie di banche dati relazionali liberamente accessibili tramite Internet. Tra queste banche dati, le più comunemente usate sono le statunitensi National Center for Biotechnology Information (NCBI) e Genome Bioinformatics Site alla University of California Santa Cruz (UCSC), e la britannica Ensembl. Tramite queste banche dati, è possibile ottenere e visualizzare in forma grafica tutti i dati ottenuti dai vari progetti genomici nonché effettuare vere e proprie analisi e studi di queste sequenze utilizzando metodiche bioinformatiche. In parallelo rispetto ai progetti di sequenziamento genomici, sono anche progrediti i progetti di sequenziamento diretto di prodotti genici, sia tramite sequenziamento completo di frammenti (cloni) di RNA messaggero derivato da vari tessuti e retrotrascritto in cDNA, sia tramite sequenziamento terminale dei cloni e generazione di EST (Expressed Sequence Tags). Al luglio del 2005, erano disponibili nelle banche dati del NCBI più di 6.000.000 di EST umane e 4.300.000 EST di topo, che rappresentano un'ampia porzione del set totale di geni appartenenti a questi due organismi. La disponibilità di queste EST ha costituito una grossa risorsa ai fini dei processi di identificazione del corredo dei geni umani e murini tramite procedure bioinformatiche. Usando una strategia basata sull'impiego di EST e sul sequenziamento di cDNA, il FANTOM3, consorzio internazionale a guida giapponese, ha identificato un buon numero di diversi tipi di RNA e ha determinato che gli RNA non-codificanti per proteine sono una frazione molto significativa di tutti i trascritti presenti nelle cellule dei mammiferi.
Analisi del genoma umano e sua comparazione con i genomi di altre specie
Dimensioni del genoma. - La sequenza 'finita' del g. umano è costituita da 2.851.330.913 nucleotidi (lettere), i quali cadono quasi interamente all'interno della porzione eucromatica del g., vale a dire quella che ospita la stragrande maggioranza dei geni e che è più attiva dal punto di vista trascrizionale. Al contrario, la porzione eterocromatica del g., ossia quella più densamente 'impacchettata' e quasi del tutto priva di geni, non è stata sequenziata a causa di maggiori difficoltà tecniche dovute alla presenza di sequenze altamente ripetitive, e si è calcolato che la sua lunghezza sia di circa 200.000.000 di lettere. La sequenza correntemente disponibile del g. umano è interrotta soltanto da 341 lacune (gaps), 33 delle quali, con lunghezza stimata di circa 198.000.000 di basi, ricadono nella porzione eterocromatica del g., e le rimanenti 308, che assommano a circa 28.000.000 di basi, sono localizzate all'interno di regioni eucromatiche. In generale, la lunghezza totale del g., includendo sia la porzione eucromatica sia quella eterocromatica, è di circa 3.080.000.000 di lettere. La presenza di alcune lacune residue (pari a circa l'1 per mille) presenti nella porzione eucromatica del g. non rappresenta tuttavia un insuccesso del Progetto Genoma Umano, in quanto non inficia il suo obiettivo principale che era rappresentato dal sequenziamento di almeno il 99% della porzione eucromatica.
Analisi del contenuto genico. - Uno degli obiettivi principali del Progetto Genoma Umano era costituito dall'identificazione di tutti i geni codificanti per prodotti proteici e questo ha rappresentato uno dei primi esercizi operati dai genetisti sia sulla 'bozza' sia sulla sequenza 'finita' del g. umano. L'analisi ha rivelato che il numero reale di geni codificanti per proteine si aggira tra i 20.000 e i 25.000 ed è molto inferiore rispetto alle previsioni che suggerivano, fino alla fine degli anni Novanta del 20° sec., un numero oscillante tra i 50.000 e i 100.000. La lunghezza totale del g. occupato da geni codificanti per proteine equivale a circa 55.000.000 di basi, corrispondente a circa l'1,9% dell'intero genoma. Ne consegue che più del 98% del g. è occupato da DNA non contenente informazioni geniche (junk DNA). È da sottolineare il fatto che nel calcolo dei geni presenti nel g. umano non sono inclusi i geni non codificanti per proteine, come, per es., gli RNA di trasporto (transfer RNA), gli RNA ribosomiali, i piccoli RNA nucleolari (snoRNA), i microRNA e lunghi RNA non codificanti (come, per es., XIST, H19 e AIR). In ogni caso, risulta sorprendente il fatto che la differenza nel numero di geni tra uomo e mammiferi in genere (anche nel topo il numero stimato di geni è paragonabile a quello riscontrato nell'uomo) rispetto a specie molto più distanti e meno complesse, quali la Drosophila melanogaster (che ne possiede 13.600), il nematode Caenorhabditis elegans (che ne possiede 19.600) o addirittura la piccola pianta Arabidopsis thaliana (che possiede un numero di geni molto simile, se non addirittura superiore, a quello dell'uomo, cioè 25.000) non sia affatto rilevante. Da ciò emerge chiaramente la constatazione che non è il numero di geni in sé a determinare la complessità di un dato organismo vivente. Vi sono diverse possibili ipotesi per spiegare questo apparente paradosso, nessuna delle quali, però, può essere pienamente confermata. La prima possibilità è che nei g. di specie più complesse il fenomeno del cosiddetto splicing alternativo, tramite il quale da uno stesso gene possono derivare vari tipi di RNA messaggeri, tra loro differenti per l'assenza o per l'inclusione di alcuni frammenti (esoni), e conseguentemente di altrettanti tipi diversi di proteine, possa essere più attivo che in altri genomi. Tramite analisi della banca dati di EST umane e di topo, per es., e, soprattutto, grazie ai risultati del progetto FANTOM 3, è stato suggerito che in queste due specie il numero di geni soggetto a splicing alternativo costituisce più del 50% del totale e può dare luogo a un numero molto più alto dei 25.000 tipi diversi di RNA messaggeri e proteine. Come conseguenza, uno dei dogmi della genetica molecolare, cioè 'un gene=una proteina', deve essere rivisto almeno per i g. di organismi superiori. Si deve ancora dimostrare che il grado di splicing alternativo nel g. umano sia maggiore in confronto a g. di invertebrati e piante. In secondo luogo, la maggiore complessità dei g. superiori può essere sottesa dall'intervento di un maggior numero di RNA 'atipici', ossia RNA non codificanti ad attività regolatoria, primi fra tutti i microRNA, RNA molto corti la cui forma attiva è lunga non più di 20-25 nucleotidi e che sono in grado di regolare i livelli di espressione di un buon numero di RNA messaggeri (fino ad alcune centinaia) tramite appaiamento di sequenza. Il processopuò determinare, specie, in cellule vegetali, completa degradazione dell'RNA messaggero legato o, più spesso, in cellule animali, una inibizione della sua capacità di essere tradotto in proteina. Così la variazione dei livelli di un microRNA in una cellula è capace di regolare le quantità di molti geni al contempo. Si può ipotizzare che i g. complessi abbiano un numero più alto di microRNA o di altri tipi di RNA non codificanti con funzione regolatoria rispetto ad altre specie; studi di comparazione di sequenze genomiche e studi di tipo funzionale sono necessari per dimostrare questa ipotesi.
Analisi comparativa di sequenze umane rispetto ad altre specie. - Il confronto tra sequenze genomiche e di cDNA da specie diverse e anche molto distanti da un punto di vista evolutivo ha sempre più costituito, a partire dalla metà degli anni Ottanta del 20° sec., un mezzo molto efficace per identificare elementi di sequenza funzionalmente rilevanti. Un tratto di sequenza che presenti un'alta percentuale di identità tra specie diverse possiede in genere una maggiore probabilità di svolgere un ruolo biologico importante rispetto a tratti di sequenze con bassi livelli di identità. Tale probabilità è tanto più alta quanto maggiore è la distanza evolutiva tra le specie considerate, a indicare che, nel corso dell'evoluzione, c'è stata una pressione a mantenere quanto più simili (conservati) elementi del g. con fondamentali ruoli biologici. Tra questi elementi funzionali, i geni che sono implicati nella regolazione di processi biologici di base, largamente condivisi tra specie diverse (per es., sviluppo, differenziamento, metabolismo ecc.), sono stati i primi a beneficiare di queste analisi comparative. Era nozione già acquisita che le sequenze dei geni, in particolare per quanto concerne gli elementi codificanti, sono molto conservate, anche in specie piuttosto distanti tra loro nel corso dell'evoluzione, e ciò è stato anche sfruttato in passato per l'identificazione di nuovi geni, avvalendosi di metodiche tanto sperimentali quanto di tipo bioinformatico. A maggior ragione, la disponibilità delle sequenze complete del g. umano così come quello di altre specie, prime fra tutte il topo, ha permesso di effettuare in modo ancora più efficace analisi comparative globali per identificare ulteriori elementi genomici dotati di attività funzionale. Le analisi comparative più dettagliate sono state eseguite confrontando i g. umani e di topo a causa della maggiore completezza di questi due genomi. Innanzi tutto, è stato evidenziato che il 99% dei geni umani presenta una controparte anche nel topo e che quindi solo l'1% dei geni dei due organismi è specificamente presente in una delle due specie. Sorprendentemente, però, l'allineamento globale tra le due sequenze ha rivelato che soltanto un terzo delle sequenze altamente conservate tra uomo e topo corrisponde a sequenze geniche, mentre la rimanente frazione corrisponde a sequenze non geniche localizzate in quella parte del g. che veniva denominato DNA spazzatura a causa della sua funzione ignota. Tale risultato è stato ulteriormente approfondito da altri studi che hanno evidenziato la presenza di elementi di sequenza di lunghezza superiore alle 100 basi con una percentuale di identità superiore al 75% rispetto al g. di topo. Più della metà di questi elementi, che sono stati variamente denominati sequenze conservate non-codificanti o CNS (Conserved Noncoding Sequences), o anche sequenze conservate non-geniche o CNG (Conserved Nongenic Sequences), non corrispondono a elementi genici. È stato dimostrato che un gran numero di queste sequenze a funzione ignota è conservato anche nei g. di altri vertebrati non mammiferi (come il pollo) e di pesci (come fugu e zebrafish).
Esperimenti preliminari suggeriscono che almeno alcune di queste sequenze rappresentino elementi di controllo della funzione dei geni, vale a dire contribuiscano a specificare quando e in quali tessuti dell'organismo un certo gene debba iniziare a funzionare, cioè fungano da quelli che in termini tecnici vengono definiti promotori e/o enhancer. Un'altra ipotesi prevede che questi stessi possano avere invece un ruolo strutturale, contribuendo alla corretta morfologia dei cromosomi. Anche per chiarire la funzione di tali elementi saranno necessari ulteriori studi nell'ambito della ricerca postgenomica. In sintesi, la disponibilità di sequenze genomiche permette più facilmente l'identificazione di elementi molto conservati e altamente condivisi nel corso dell'evoluzione e che quindi sono importanti per l'espletamento di funzioni biologiche di base necessarie alla sopravvivenza di specie anche diverse tra loro (alcuni geni sono addirittura conservati tra batteri e uomo). D'altro canto, però, questa stessa analisi può essere usata anche in senso opposto, ossia per riconoscere gli elementi di sequenza che sono specificamente presenti in alcune specie e assenti in altre e che quindi potrebbero contribuire a rendere una particolare specie diversa da tutte le altre. A tale proposito, acquisisce molto interesse l'identificazione di quegli elementi che caratterizzano precipuamente la specie umana e le sue funzioni superiori. Il confronto in corso tra il g. dell'uomo e del suo parente più prossimo, lo scimpanzé, che presenta solamente 40.000.000 di lettere diverse rispetto all'uomo, pari a circa l'1% del g., dovrebbe essere illuminante in questo senso. I primi studi indicano che sono pochissimi i geni che non sono conservati in entrambe le specie, e che, invece, il 17% dei geni presenta almeno una differenza importante nella composizione delle lettere, cioè differenze di sequenza. Un'altra caratteristica che sta emergendo dalla comparazione dei due g. riguarda la distribuzione e il numero dei moduli di sequenze ripetute localizzate all'interno del cosiddetto DNA spazzatura, che risultano essere notevolmente diversi tra le due specie. Il completamento dell'analisi comparativa tra questi due g., con in aggiunta quello di altri primati, ancora in corso, dovrebbe contribuire a confermare se entrambi questi tipi di differenze abbiano giocato o meno un ruolo nell'evoluzione della specie umana.
Grado di diversità della sequenza del genoma all'interno della popolazione umana. - Oltre agli studi di comparazione con altre specie, la disponibilità di sequenze genomiche umane rende più facile anche la valutazione del grado di diversità di sequenza normalmente presente tra individui diversi all'interno della specie umana. Gli studi di genetica molecolare si sono basati a partire fin dall'inizio sull'utilizzo dei cosiddetti tratti polimorfici, ossia regioni di DNA che possono presentare differenze di sequenza nella popolazione umana senza che apparentemente questo determini la comparsa di alterazioni patologiche (nel qual caso invece si parla di mutazioni). Poiché nell'ambito del Progetto Genoma si è sviluppata anche un'attività di sequenziamento di piccoli frammenti di DNA genomico (STS) e di geni (EST) derivati da un gran numero di individui diversi, è stato possibile analizzare i gradi di variazione normalmente presenti all'interno della specie umana nonché i tipi diversi di polimorfismo più diffusi. Il tipo di polimorfismo più frequente è il cosiddetto polimorfismo da singolo nucleotide (SNP, Single Nucleotide Polymorphism). È stato stimato che se si confrontassero i g. completi di due individui diversi, si osserverebbe una lettera diversa ogni mille analizzate, da cui si desume che in media ogni individuo sia diverso da un altro per circa 3.000.000 di lettere. Esistono numerose banche dati (tra i quali il dbSNP al NCBI) in cui sono raccolte le informazioni sul numero sempre più crescente di polimorfismi da singolo nucleotide che vengono identificati nel corso di tali analisi, e che possono essere utilizzati dai genetisti secondo le modalità descritte più avanti. Accanto a questi tipi semplici di polimorfismi, ne sono stati individuati altri più sorprendenti e di natura più complessa, come le variazioni a carico di grosse regioni di DNA con perdite (delezioni) o, al contrario, ripetizioni (duplicazioni) di tratti di DNA lunghi fino a varie centinaia di migliaia di lettere. Per definizione, tutti i polimorfismi presenti nel g. umano non sono chiaramente associati a patologie conclamate quali sono, per fare un esempio, le malattie genetiche semplici (quelle monogeniche o mendeliane), in quanto si riscontrano anche nella popolazione normale. Nella pratica genetica essi sono stati usati come marcatori per determinare la localizzazione di geni responsabili di malattie genetiche semplici, cioè causate da alterazioni di un singolo gene come la distrofia muscolare o la fibrosi cistica. Successivamente, però, è cominciato il loro massivo utilizzo per lo studio di malattie più frequenti e più complesse, le cosiddette malattie multifattoriali (malattie cardiovascolari, diabete, obesità ecc.), in cui vi è la compartecipazione di più fattori genetici oltre che di fattori ambientali.
In questi casi, si presuppone che i fattori genetici non siano delle mutazioni vere e proprie, ma polimorfismi che determinano una funzione leggermente alterata del gene e della proteina corrispondenti, alterazione che normalmente può essere ben tollerata ma che, se associata a variazioni in altri geni che svolgano una simile funzione, o a fattori di rischio ambientali, può determinare una maggiore suscettibilità per una certa patologia. Pertanto, negli studi riguardanti le malattie genetiche complesse, i polimorfismi a singolo nucleotide, oltre che funzionare come marcatori così come avviene nello studio delle malattie genetiche semplici, possono essere usati direttamente per rivelare le alterazioni geniche che danno luogo a predisposizione alla malattia.
Ricerca postgenomica
Il completamento del sequenziamento del g. umano e quello dei numerosi altri g. sopra citati rappresenta non solo un formidabile risultato della ricerca genomica, ma costituisce anche il punto di partenza di una nuova disciplina che è la cosiddetta postgenomica. Mentre la ricerca genomica ha eminentemente una valenza descrittiva e si propone di identificare gli elementi di sequenza fondamentali presenti nel g. umano, vale a dire geni codificanti per proteine, RNA non codificanti, elementi regolatori ecc., la postgenomica ha, invece, una valenza eminentemente funzionale e ha come obiettivo principale quello di decifrare la funzione dei costituenti fondamentali del g. umano, siano essi geni o elementi localizzati nella porzione nongenica. Si tratta di un obiettivo ambizioso per la cui realizzazione sono previsti tempi molto lunghi. Saranno qui descritti principalmente i primi risultati e le direttive principali su cui si sta al momento indirizzando questa disciplina soprattutto per quanto concerne gli studi sulla funzione dei geni.
Studi di espressione genica. - Una delle caratteristiche fondamentali di uno specifico gene, che può dare indicazioni preziose sulla sua funzione, è rappresentata dalle modalità di espressione del gene stesso. Sebbene la composizione del g. in uno stesso individuo sia uguale in tutte le sue cellule e tessuti, il corredo di geni attivo è diverso da tessuto a tessuto. In altre parole, vi sono geni che sono attivi (accesi o 'espressi' in gergo tecnico) in tutte le cellule di un organismo poiché svolgono funzioni biologiche di base che sono necessarie alla sopravvivenza di tutti i tipi di cellule (per es., i geni implicati nella sintesi proteica, nel metabolismo energetico cellulare ecc.), mentre vi sono geni che sono attivi soltanto in alcuni tessuti perché svolgono ruoli biologici specifici per quei particolari tessuti (per es., i geni che partecipano alla funzione visiva sono attivi solamente nelle cellule della retina). Pertanto sapere dove (in quale tessuto) e quando (in quale fase o dello sviluppo embrionale o della vita postnatale) un certo gene è attivo può dare indicazioni molto preziose sulla sua funzione. Per studiare le modalità di espressione di un gene è possibile utilizzare due diverse modalità generali, una tesa al riscontro dell'RNA messaggero corrispondente e l'altra al riconoscimento della proteina da esso generata. Gli studi di espressione genica basati sul riconoscimento degli RNA messaggeri sono più semplici e più comunemente usati. Si avvalgono di due metodologie principali, la prima è basata sull'utilizzo di microchip di vetro su cui vengono immobilizzati in posizioni note, tramite procedure di nanotecnologia, tutti i geni che sono al momento conosciuti. Tali microchip vengono successivamente testati (ibridati) con RNA estratti da tessuti diversi ed è possibile, tramite reazioni di fluorescenza, verificare quali sono i geni accesi o meno nel tessuto analizzato. Numerosi esperimenti di questo tipo sono stati effettuati utilizzando RNA estratti da un numero notevole di tessuti e i dati corrispondenti sono accessibili tramite le stesse banche dati genomiche precentemente descritte. Questa metodica è molto rapida e facilmente applicabile all'analisi contemporanea di migliaia di geni, ma non consente di stabilire esattamente in quali cellule all'interno di un dato tessuto un determinato gene sia acceso oppure no.
La seconda metodologia si basa sulla cosiddetta ibridazione in situ tramite RNA che è proceduralmente più complessa rispetto ai microchip, ma consente di visualizzare come su un atlante, direttamente su fettine di tessuto, le cellule in cui un certo gene è 'acceso' o meno. Utilizzando quest'ultima metodica, è stato possibile costruire l'atlante di espressione di tutti i geni localizzati sul cromosoma umano 21 che, come già accennato, è alla base di una delle alterazioni cromosomiche più frequenti, vale a dire la sindrome di Down. Simili atlanti di espressione per altri cromosomi o eventualmente per tutto il g., ancora in corso di attuazione, forniranno dati molto preziosi sulla funzione genica e potenzialmente molto utili anche per una migliore comprensione dei meccanismi alla base di molte malattie genetiche. Infine, è anche possibile effettuare studi di espressione genica tramite il riscontro di proteine. Questi studi si basano sulla sintesi di anticorpi specifici per ogni proteina da analizzare e sono senza dubbio più complessi degli studi effettuati su RNA, ma forniscono dati aggiuntivi fondamentali poiché, a differenza degli RNA messaggeri, le proteine possono essere trasportate in tessuti diversi rispetto a quelli in cui sono prodotte ed esercitare lì la loro funzione. Pertanto, per una corretta ed esauriente interpretazione dei dati di espressione genica, sarà necessario integrare le informazioni derivanti dall'analisi a livello sia di RNA messaggero sia di proteina.
Identificazione di proteine coinvolte in funzioni comuni (reti proteiche). - Quasi tutte le proteine interagiscono tramite legami chimici con altre proteine per svolgere la propria funzione. L'identificazione di tutte le proteine che interagiscono a vicenda per espletare correttamente una data funzione è un altro obiettivo importante della ricerca postgenomica. Per raggiungere tale obiettivo, è possibile utilizzare delle metodiche sperimentali che consentono di isolare simultaneamente proteine che si leghino tra loro, quali la tecnica del doppio ibrido. Tale metodica è stata applicata sistematicamente a ognuna delle proteine codificate dal g. di lievito (Saccharomyces cerevisiae) per identificare tutti i potenziali partner, e i risultati di questi esperimenti sono accessibili in banche dati pubbliche. Simili studi sono applicati anche in g. più complessi, quale, per es., quello umano. Un'altra metodica utilizzata allo scopo di identificare proteine forse coinvolte in funzioni simili oppure correlate è rappresentata dall'isolamento, tramite una tecnica denominata spettrometria di massa, di tutte le proteine poste in uno stesso organello cellulare o compartimento funzionale in una stessa cellula (compartimento subcellulare). Le proteine estratte sono poi frammentate in piccoli peptidi che sono sottoposti a sequenziamento proteico: dal momento che le sequenze di tutte le proteine sono note, è possibile riconoscere l'identità di una proteina semplicemente ottenendo la sequenza di un numero assai ridotto di frammenti (un paio di frammenti di non più di dieci amminoacidi). La metodica è stata usata per identificare proteine umane in organelli subcellulari specializzati quali il mitocondrio e il centrosoma.
Inattivazione funzionale dei geni in organismi modello. - Uno dei metodi più usati dai genetisti per comprendere la funzione di un gene, a cominciare dagli studi pioneristici in Drosophila, è rappresentato dalla sua inattivazione specifica all'interno di un organismo modello e dalla conseguente osservazione dei suoi effetti sull'organismo vivente. I risultati della ricerca genomica permettono di poter effettuare questi studi sistematicamente su tutti i geni. Anche in questo caso, il lievito Saccharomyces cerevisiae è stato il primo organismo sul quale un procedimento di inattivazione funzionale è stato applicato per ognuno dei suoi circa 6000 geni. In questo modo è stato possibile classificare i geni di lievito in varie categorie funzionali, a partire da quelli la cui inattivazione è incompatibile con la vita fino ad arrivare a quelli coinvolti in funzioni più specifiche la cui inattivazione può dar luogo ad anomalie visibili solamente allorquando l'organismo è sottoposto a stimoli ambientali particolari. Simili approcci sono in corso di attuazione anche in organismi molto più complessi del lievito, quali, per fare qualche esempio, la Drosophila e anche in alcuni vertebrati quali i pesci zebrafish e medaka (Oryzias latipes), e soprattutto nel topo. Come già accennato in precedenza, il topo ha rappresentato l'organismo di prima scelta tra i genetisti per lo studio della funzione in vivo dei geni umani. Una gran parte dei circa 2000 geni umani responsabili di malattie genetiche sono stati già inattivati nel topo utilizzando la metodica della cosiddetta ricombinazione omologa e le conseguenze sull'organismo vivente analizzate in dettaglio. La virtuale conoscenza di tutti i geni sia umani sia di topo permette di effettuare questi studi sistematicamente su tutti i geni, anche su quelli per i quali, al momento, tramite analisi di sequenza, non è possibile avanzare alcuna ipotesi circa la loro funzione. Sono in corso, sia negli Stati Uniti sia in Europa, vari approcci indipendenti, portati avanti da diversi consorzi di istituti di ricerca, che si propongono di inattivare funzionalmente tutti i geni di topo e di correlarne gli effetti con i corrispettivi geni umani. Si può facilmente prevedere che questi studi avranno una notevole importanza per quanto attiene a una migliore comprensione delle cause delle patologie umane, siano esse malattie genetiche semplici che complesse.
Applicazioni biotecnologiche. - La biotecnologia, vale a dire la disciplina che si avvale di materiale e di informazioni biologiche al fine di generare prodotti che risultino utili all'uomo, sta traendo notevole giovamento dalle informazioni generate dai progetti di sequenziamento genomici. Prodotti di tipo biotecnologico possono essere rappresentati, tra gli altri, da molecole con effetto terapeutico (per es., insulina) che sono prodotte da batteri oppure piante (come il mais) che, in seguito all'introduzione nel loro g. di appropriati geni batterici, possano diventare resistenti a parassiti. Tuttavia, è da rilevare come vi siano molte opinioni contrastanti, anche nell'ambito della comunità scientifica stessa, su alcune applicazioni biotecnologiche e sul loro possibile impatto sull'ambiente e sulla salute pubblica.
bibliografia
M.D. Adams, S.E. Celniker, R.A. Holt et al., The genome sequence of Drosophila melanogaster, in Science, 2000, 287, pp. 2185-95.
Arabidopsis Genome Initiative, Analysis of the genome sequence of the flowering plant Arabidopsis thaliana, in Nature, 2000, 408, pp. 796-815.
A.J. Brookes, HGBASE - A unified human SNP database, in Trends in genetics, 2001, 17, 4, p. 229.
T. Ito, T. Chiba, R. Ozawa et al., A comprehensive two-hybrid analysis to explore the yeast protein interactome, in Proceedings of the national academy of sciences of the United States of America, 2001, 98, 8, pp. 4277-78.
E.S. Lander, L.M. Linton, B. Birren et al., Initial sequencing and analysis of the human genome, in Nature, 2001, 409, pp. 860-921.
J.C. Venter, M.D. Adams, E.W. Myers et al., The sequence of the human genome, in Science, 2001, 291, pp. 1304-51.
G. Giaever, A.M. Chu, L. Ni et al., Functional profiling of the Saccharomyces cerevisiae genome, in Nature, 2002, 418, pp. 387-91.
A. Reymond, V. Marigo, M.B. Yaylaoglu et al., Human chromosome 21 gene expression atlas in the mouse, in Nature, 2002, 420, pp. 582-86.
R.H. Waterston, K. Lindblad-Toh, E. Birney et al., Initial sequencing and comparative analysis of the mouse genome, in Nature, 2002, 420, pp. 520-62.
J.S. Andersen, C.J.Wilkinson, T. Mayor et al., Proteomic characterization of the human centrosome by protein correlation profiling, in Nature, 2003, 426, pp. 570-74.
International Human Genome Sequencing Consortium, Finishing the euchromatic sequence of the human genome, in Nature, 2004, 431, pp. 931-45.
P. Carninci, T. Kasukawa, S. Katayama et al., The transcriptional landscape of the mammalian genome, in Science, 2005, 309, pp. 1559-63.
E.T. Dermitzakis, A. Reymond, S.E. Antonarakis, Conserved non-genic sequences - An unexpected feature of mammalian genomes, in Nature reviews genetics, 2005, 6, 2, pp. 151-57.