Genoma
L'elica che ci condiziona
Il Progetto Genoma
di Edoardo Boncinelli
26 giugno
Il presidente degli Stati Uniti Bill Clinton annuncia in videoconferenza mondiale dalla East Room della Casa Bianca che è stato completato al 97% il sequenziamento della mappa del genoma umano. Accanto a Clinton sono i principali protagonisti del lavoro: Francis Collins, direttore dello Human Genome Project, e Craig Venter, presidente della società Celera Genomics. Sul video della Casa Bianca compare la scritta: "Decodificazione del libro della vita, una pietra miliare per l'umanità".
Gli obiettivi e i metodi
Il decennio 1990-2000 è coinciso con l'avvio, l'esecuzione e la conclusione del cosiddetto Progetto Genoma (o Progetto Genoma Umano). Con il termine genoma s'intende il patrimonio genetico di una specie, cioè l'insieme di tutte le informazioni biologiche necessarie per la sopravvivenza degli organismi corrispondenti. In ognuna delle nostre cellule, per es., sono racchiuse le informazioni per costruire un essere umano, per tenerlo in vita e per farlo riprodurre. Queste informazioni sono contenute nei 46 cromosomi presenti nel nucleo della cellula e sono portate da altrettante molecole di DNA. Ciascuna molecola di DNA è costituita da due filamenti complementari, ma questi portano sostanzialmente le stesse informazioni ed è quindi sufficiente considerarne uno solo per cromosoma.
Ogni filamento di DNA è una successione di componenti elementari, detti nucleotidi o basi, scelti da un repertorio di quattro possibilità, A, G, C o T, che significano rispettivamente adenina, guanina, citosina e timina. Il nostro patrimonio genetico consiste complessivamente in una successione di circa 3 miliardi di nucleotidi, corrispondenti più o meno all'informazione di 1 gigabyte, ovvero a mezzo milione di pagine dattiloscritte. Questi 3 miliardi (3 x 109) di nucleotidi possono essere mentalmente suddivisi in circa 100.000 unità significanti, dette geni. Ogni gene porta l'informazione per almeno una funzione biologica elementare, specificando la struttura di una catena proteica. I geni si trovano allineati uno dopo l'altro sui vari cromosomi. Il Progetto Genoma si è posto originariamente l'obiettivo di catalogare tutti i geni della specie umana e di posizionarli, almeno approssimativamente, sui vari cromosomi. Per raggiungere questo scopo si è costruita prima una mappa a grana grossa, ma sostanzialmente fedele, dei vari cromosomi umani e successivamente ci si è imbarcati nell'impresa di determinare l'intera sequenza dei 3 miliardi di nucleotidi che compongono il DNA della nostra specie. Ciò che si sta per raggiungere è appunto la determinazione di questa intera sequenza.
Per affinare i procedimenti necessari a portare a termine questo gigantesco sforzo ci si è cimentati prima con genomi più piccoli, appartenenti a specie che presentassero qualche interesse ma non le stesse difficoltà del genoma umano. Si è così determinata la sequenza di nucleotidi dei genomi di un certo numero di batteri (qualche milione di nucleotidi corrispondenti a qualche migliaio di geni), del lievito della birra Saccharomyces cerevisiae (di 12 milioni di nucleotidi corrispondenti a 7000 geni), della pianta Arabidopsis thaliana (di 140 milioni di nucleotidi corrispondenti a 27.000 geni), del nematode Caenorhabditis elegans (di 97 milioni di nucleoti
di corrispondenti a 20.000 geni) e del moscerino della frutta Drosophila melanogaster (di 180 milioni di nucleotidi corrispondenti più o meno a 13.500 geni). In parte perché queste analisi hanno fornito informazioni molto interessanti, in parte perché ci si è accorti che l'impresa era possibile anche per genomi di maggiori proporzioni, si è deciso di non limitare alla specie umana la determinazione della sequenza dell'intero genoma, ma di estendere questo progetto ad altre specie di grande interesse scientifico, come per es. il topo di laboratorio, il ratto, il pollo, un tipo di ranocchio (Xenopus tropicalis) o il pesce zebra (Brachydanio rerio). In questo momento si deve quindi intendere il Progetto Genoma come lo sforzo di individuare la sequenza dei nucleotidi che compongono il genoma di un certo numero, ancora da determinare, di specie, tra le quali, per ovvi motivi, spicca quella umana. Per raggiungere tale obiettivo è stato necessario sensibilizzare molti governi ed enti erogatori di fondi per la ricerca in vari paesi. È nato così un Consorzio internazionale che ha iniziato i suoi lavori dopo un primo periodo di assestamento, avendo dovuto affrontare e risolvere un certo numero di problemi preliminari. Si è discusso molto sulla strategia sperimentale e sulla gestione informatica delle informazioni genetiche via via acquisite. Vi sono stati vari ripensamenti, ma alla fine si è pervenuti a un protocollo sperimentale comune e accettato da tutti. Il lato positivo di questo periodo, che si potrebbe definire di prova, è stato che la velocità di determinazione e di accumulazione delle sequenze di DNA è andata sempre aumentando e il costo unitario per singolo nucleotide sempre diminuendo. Durante questo periodo alcuni ricercatori hanno preferito abbandonare il Consorzio internazionale e mettersi in proprio, fondando piccole compagnie biotecnologiche finanziate con capitale privato. Alcune di queste hanno avuto particolare successo e si sono poste addirittura come concorrenti del Progetto Genoma pubblico. In particolare, la Celera Genomics Corporation, fondata e diretta dal ricercatore americano Craig Venter, si è piazzata in testa a questa vera e propria 'corsa al genoma', venendo a costituire una minaccia per il prestigio del progetto pubblico, ma anche uno stimolo per quest'ultimo e, alla fine dei conti, un elemento di controllo che garantirà una maggiore sicurezza. Ci si è avviati in questo modo al completamento di quest'immane opera che si presenta allo stesso tempo come il coronamento di decenni di ricerca biologica e come l'inizio di una nuova era della medicina e della biologia, un'era che è già stata definita 'post-genomica'.
Storia delle scoperte
Per comprendere a pieno il significato dell'impresa occorre introdurre qualche concetto e fare un po' di storia. Lo sviluppo della genetica e della biologia molecolare di questi ultimi decenni è stato estremamente rapido e non sempre lineare. Via via che si registravano nuovi successi e che l'imprenditoria e la grande industria si rendevano conto che la biologia poteva produrre ricchezza, i ricercatori si sono posti mete sempre più ambiziose e si sono imbarcati in imprese sempre più audaci. Tutto è cominciato negli anni intorno alla Seconda guerra mondiale, quando si è ottenuta la prima dimostrazione che anche lo studio dei viventi può essere affrontato con metodologie quantitative tipiche delle scienze esatte. Con l'aiuto di strumenti sempre più raffinati e facendo tesoro degli avanzamenti di altre scienze, come la fisica e la chimica, si registrarono in quegli anni i primi successi della nuova biologia, che venne ribattezzata biologia molecolare perché per la prima volta ragionava e si esprimeva in termini di molecole, fosse pure di grandi dimensioni come quelle del DNA.
Nei venti anni successivi vennero fatti molti studi sulla genetica e la biologia molecolare dei batteri e dei loro virus, chiamati batteriofagi o fagi. Si svelarono in questa fase pionieristica, e in un certo senso eroica, molti meccanismi della trasmissione ereditaria dei caratteri biologici, della biochimica del metabolismo cellulare e della regolazione dei fenomeni biologici. Si afferma, in particolare, in quest'epoca in maniera definitiva il concetto di gene come tratto di DNA che codifica l'informazione per la sintesi di una specifica proteina, o meglio di una specifica catena proteica. Per catena proteica, o polipeptidica, si intende una successione lineare di aminoacidi legati chimicamente fra di loro. La struttura e la funzione di una catena proteica sono determinate dalla sequenza degli aminoacidi che la compongono. Poiché un gene specifica in maniera non ambigua questa sequenza, si trova automaticamente a determinarne anche la struttura, la conformazione spaziale e la funzione. La catena proteica specificata da un dato gene può avere una funzione di per sé o può combinarsi con altre catene per formare una proteina funzionante. Una generica proteina può quindi essere formata da una singola catena proteica o da più catene. Nel primo caso è specificata da un solo gene, nel secondo caso da tanti geni diversi quante sono le diverse catene proteiche che la compongono. L'emoglobina, per es., è costituita da quattro catene proteiche, due di alfa-globina e due di beta-globina, combinate fra loro e legate a un gruppo chimico contenente ferro, chiamato eme. Non esiste quindi il gene per l'emoglobina, ma esistono il gene per la alfa-globina e quello per la beta-globina (più un certo numero di geni che specificano le proteine necessarie per la sintesi e il montaggio del gruppo eme).
Che un gene sia presente nel DNA di una cellula, sia essa un batterio unicellulare o una delle numerosissime cellule che compongono un organismo pluricellulare, non vuol dire di per sé molto. Ciò che conta è invece se quel gene è attivo o non lo è, in quella data cellula e in quel dato momento. La serie di meccanismi e di eventi biologici che determinano lo stato di attività o di quiescenza di un gene prende il nome di regolazione genica. Conoscere la sequenza nucleotidica e quindi la funzione di un gene costituisce solo una parte delle informazioni necessarie per comprenderne il ruolo biologico; per poter dire di conoscerlo veramente occorre anche conoscere i dettagli della sua regolazione. Questa si realizza solitamente attraverso un meccanismo abbastanza ben studiato: a monte, ma a volte anche a valle, del gene vero e proprio si trovano delle sequenze di DNA che sono necessarie per la sua regolazione e che sono dette appunto sequenze regolative; perché il gene sia attivato occorre che a queste sequenze regolative si leghino alcune proteine nucleari specifiche, che vengono chiamate fattori trascrizionali o di trascrizione. La regolazione di un gene è quindi una questione di fattori trascrizionali presenti o assenti in quella data cellula in quel momento e disponibili o meno a legarsi alle sue sequenze regolative.
Per quanto possa sembrare paradossale, fino alla metà degli anni Sessanta del 20° secolo non si conosceva il meccanismo della codificazione del messaggio genetico, anche se si sapeva che il DNA è costituito di quattro nucleotidi e che codifica la composizione delle proteine che sono costituite di venti aminoacidi. In quegli anni si ebbe la decifrazione definitiva del codice genetico e si appurò che ogni tre nucleotidi viene codificato, in maniera specifica e non ambigua, un certo aminoacido. Così un tratto di DNA di 300 nucleotidi codifica un dominio proteico lungo 100 aminoacidi. La tabellina costituita di 64 caselle che fa corrispondere a ogni gruppo di tre nucleotidi, detto codone o tripletta, un dato aminoacido prende il nome appunto di codice genetico.
Il codice genetico è quindi una tabella e non può venire alterato o modificato, anche se spesso la stampa usa il termine codice genetico come sinonimo di messaggio genetico per indicare, per es., la sequenza di uno specifico tratto di DNA che, al contrario del codice, può essere alterato e modificato. Precisazioni terminologiche a parte, la decifrazione del codice genetico ha rappresentato un primo eccezionale successo della biologia molecolare e ha proiettato la sua luce su tutte le ricerche e le scoperte che sono seguite, anche se al giorno d'oggi ci appare come una nozione relativamente scontata.
Il decennio successivo, dalla metà degli anni Sessanta a quella degli anni Settanta, è stato un periodo di conferma e di consolidamento delle precedenti conquiste, ma anche di relativa stagnazione. Le tecniche disponibili a quell'epoca permettevano di studiare in pratica solo i batteri. Studiare la biologia di un organismo superiore era un'impresa titanica, riservata a pochi gruppi e limitata a pochi argomenti. Verso la metà degli anni Settanta si affermò una metodica che rivoluzionò il campo della biologia e che inaugurò l'era della cosiddetta ingegneria genetica. Si tratta del clonaggio molecolare o clonaggio tout-court. Mediante questa tecnica è possibile isolare un frammento di DNA di un genoma da tutti gli altri, allo scopo di studiarlo ed eventualmente modificarlo. Senza questa tecnica non sarebbero stati possibili i grandi avanzamenti degli ultimi anni. Non si possono infatti studiare 100.000 geni contemporaneamente, mentre se ne può studiare uno alla volta.
Si tratta in sostanza di suddividere il DNA dell'organismo da studiare in centinaia di migliaia di frammenti diversi e di isolare questi frammenti l'uno dall'altro, inserendo ciascuno di essi in un ceppo batterico diverso. I batteri, si sa, crescono con una velocità incredibile e forniscono così, si direbbe automaticamente, un gran numero di copie esatte del frammento di DNA che portano in sé, appartenente all'organismo che ci interessa. Possiamo allora disporre idealmente, ma spesso anche praticamente, di un casellario di centinaia di migliaia di cassettini, in ciascuno dei quali è contenuto il DNA di uno specifico gene, e di quello solo, che può essere umano oppure di topo oppure di moscerino e così via. In un cassettino si troverà il gene della beta-globina, in un altro quello dell'alfa-globina, in un altro ancora quello della tirosinasi, quello dell'insulina e così via. L'insieme dei frammenti di DNA isolati (spessissimo si dice clonati) di una data specie prende il nome di banca o genoteca o libreria genomica. Se si è partiti da DNA umano, si sarà costruita una banca genomica umana; se si è partiti da DNA di pollo, si sarà costruita una banca genomica di pollo.
Di ciascun frammento di DNA isolato si possono allora determinare la sequenza nucleotidica, la funzione e la regolazione. Ci si possono porre in sostanza tutte le domande per le quali vorremmo conoscere una risposta. E molte domande sono state poste e molte risposte ottenute a proposito dei geni più diversi operanti negli organismi più diversi. Non è nemmeno pensabile riassumere ciò che è stato trovato in questi anni, ma meritano di essere menzionati almeno due argomenti: la causa biologica dei tumori e i geni regolatori dello sviluppo corporeo. In concomitanza con queste nuove scoperte si è verificato anche un continuo aumento del numero dei laboratori e dei ricercatori impegnati nella ricerca biologica e si è registrata una progressiva crescita dell'interesse dell'industria, con il sorgere di grandi e piccole compagnie con una notevole componente biotecnologica.
Per tutti questi motivi diviene via via sempre più difficile rintracciare le varie linee di sviluppo della ricerca biologica e forse vale la pena di concentrarsi soltanto su alcuni avanzamenti di natura metodologica. In questa ottica occorre ricordare che le tecniche di clonaggio divengono sempre più spedite ed efficaci e permettono di isolare frammenti di DNA sempre più lunghi: si è andati dalle poche centinaia di nucleotidi iniziali alle centinaia di migliaia degli ultimi anni. Isolare un frammento di DNA piuttosto lungo è scomodo se se ne vuole fare un'analisi fine, ma fornisce un'enorme quantità di informazioni per quanto riguarda la posizione reciproca dei geni che vi sono contenuti. Sono stati messi a punto e perfezionati in parallelo metodiche sempre più efficienti e sempre meno costose per la determinazione della sequenza nucleotidica dei vari frammenti di DNA e strumenti di indagine sempre più potenti per scoprire la funzione di un gene, o almeno la sua funzione preminente. Ci stiamo riferendo alla produzione dei cosiddetti organismi transgenici, che possono essere piante o animali, e in quest'ultimo caso soprattutto topi di laboratorio. La funzione di un gene può essere infatti chiarita producendo un ceppo di topi privo di questo gene. Per fare questo occorre eliminare in maniera mirata il gene in questione dal genoma oppure lasciarlo al suo posto ma introducendovi in modo mirato una determinata alterazione.
La produzione di topi transgenici portanti un'alterazione nei geni più diversi è divenuta ultimamente una vera e propria industria e ha portato allo sviluppo di molti cosiddetti modelli animali di malattie, ereditarie e non. Se si scopre che una determinata malattia umana è causata o facilitata dall'alterazione di un determinato gene, si può costruire un ceppo di topi transgenici portatori di tale alterazione e osservare così con tutta calma i dettagli dell'insorgere della malattia e nello stesso tempo saggiare su questi animali l'efficacia dei vari strumenti terapeutici. La metodologia dei topi transgenici rientra a sua volta in una linea di ricerca, il cosiddetto clonaggio posizionale, che si è andata sempre più affermando negli ultimi anni e che ha, per così dire, reso inevitabile il Progetto Genoma.
L'individuazione del gene umano implicato in una determinata patologia può avvenire, ed è avvenuta negli anni, seguendo diverse strategie. Una di queste è appunto il clonaggio posizionale: si individua con una certa approssimazione la localizzazione cromosomica del gene in questione e si isolano tutti i geni - due, cinque, venti o cinquanta - che si trovano allineati in quella specifica regione. Si determina la struttura di ciascuno di questi geni e se ne saggia separatamente la funzione, producendo un ceppo di topi transgenici per ciascuno di questi e chiedendosi se nelle persone affette dalla malattia in questione si possono riscontrare delle alterazioni in quello specifico gene. Dalla convergenza di queste linee di analisi si giunge poi all'identificazione del gene implicato nella malattia. Con questa strategia sono state individuate negli ultimi anni le cause biologiche e genetiche di un numero crescente di patologie.
A seguito di tutti questi avanzamenti, la comunità scientifica ha preso progressivamente coraggio e coscienza delle proprie forze ed è arrivata verso la fine degli anni Ottanta a concepire l'idea di clonare l'intero genoma di una specie, per es. la nostra, e di determinarne la sequenza nucleotidica nella sua interezza. Si è trattato di un progetto audace, molto audace, ma non irrealizzabile, come gli eventi successivi hanno dimostrato. Lo scopo dell'impresa è stato quello di determinare una volta per sempre la sequenza di tutto il DNA che costituisce il nostro patrimonio genetico e quindi di tutti i geni presenti su di esso, delle loro regioni regolative e magari anche di quelle regioni di DNA localizzate fra un gene e l'altro, che chiamiamo intergeniche. Dal punto di vista del biologo e del genetista molecolare, ma anche del genetista medico, questo significa non dover mai più determinare la sequenza nucleotidica di un gene umano (o di ogni altra specie di interesse). Ogni volta che questo sarà necessario, basterà andare a cercare nella banca dati del genoma la sequenza del frammento di DNA corrispondente e copiarla.
Questo può sembrare un obiettivo molto limitato, niente di più di un ausilio pratico al lavoro del ricercatore che sarà sempre e comunque la fonte della conoscenza vera e propria. In primo luogo, tuttavia, non è mai successo che un nuovo strumento, per quanto elementare, non abbia cambiato il corso di un'impresa, se non della storia nel suo complesso. L'esecuzione di questo progetto ha infatti già prodotto una messe di avanzamenti tecnici che potranno essere utilizzati in futuro per qualsiasi ricerca di tipo biologico e nello stesso tempo per applicazioni biotecnologiche. In secondo luogo, lo svolgimento del Progetto Genoma ha stimolato la riflessione sulla natura stessa dell'informazione biologica e della sua possibile decifrazione e ha costretto, per es., a chiederci che cosa ci dobbiamo attendere dal completamento dell'impresa stessa, sia sul piano teorico sia su quello pratico.
Le conseguenze e le prospettive
Che cosa dobbiamo attenderci da questa impresa dal punto di vista conoscitivo? Possiamo immaginarci almeno tre grandi capitoli del romanzo della decifrazione dell'informazione genetica contenuta nel genoma, tre capitoli che corrispondono all'analisi del contenuto di tre grandi compartimenti ideali nei quali possiamo ripartire il DNA del nostro genoma: i geni di cui già conosciamo qualcosa, quelli dei quali non sappiamo niente ma dei quali riusciamo a immaginare l'esistenza e, infine, quelli che non riusciamo al momento neppure a immaginare.
In prima battuta si tratterà di completare l'inventario e la caratterizzazione dei geni che conosciamo abbastanza bene e di quelli che sono con loro strettamente imparentati. I primi geni di cui a suo tempo si è saputo qualcosa sono quelli che possono causare malattie ereditarie gravi, come la talassemia, l'emofilia e le deficienze immunitarie, o molto meno gravi, come l'albinismo o il daltonismo. Questi disturbi si presentano ovviamente quando il gene è difettoso e porta quindi una mutazione. Si tratta di disordini ereditari abbastanza diffusi che dipendono dalla disfunzione di un solo gene e che sono chiamati perciò monofattoriali. Scoprire la causa genetica di molti di questi disordini è stato relativamente semplice. È stata poi la volta dei geni che possono portare a malattie ereditarie più rare o rarissime. Sono stati infine individuati alcuni geni ai quali non corrisponde alcuna malattia ereditaria nota al momento, ma che sono stati identificati come responsabili di alcune funzioni biologiche fondamentali, quali la replicazione cellulare, la respirazione, la digestione ecc. Procedendo in questa maniera siamo arrivati a identificare diverse centinaia di geni, anche se non di tutti conosciamo in dettaglio la funzione. A questi è possibile aggiungere quelli che hanno una struttura simile, anche se non è detto che abbiano anche una funzione simile, e altri ancora che si presume che esistano, dal momento che sono stati già individuati in altre specie viventi. In tal modo si raggiunge e si supera probabilmente la metà del totale dei geni presenti nel nostro genoma e che appartengono a quello che abbiamo chiamato il primo compartimento, cioè quello dei geni a noi più familiari.
È utile osservare a questo proposito che i nostri geni non sono lì per portarci sventure e malanni. I geni esistono al contrario per farci stare bene, per farci crescere e condurre una vita normale. Qualcuno di essi qualche volta non funziona a dovere e solo in frangenti del genere causa una malattia o ci predispone a qualche altra. Insomma, il nostro genoma non è un repertorio di afflizioni e di disgrazie, ma un insieme di funzioni vitali, necessarie e sufficienti per farci vivere una vita sana e attiva. È la prospettiva storica che ci porta a nominare molti di questi geni sulla base delle malattie che possono causare. Questi geni sono stati infatti individuati nel passato partendo dall'osservazione dei danni generati da una loro alterazione. A quell'epoca non sarebbe stato possibile identificare un gene se non era portatore di qualche mutazione. Oggi non è chiaramente più così e si possono studiare i geni nella loro fisiologia e non soltanto nella loro patologia. Non tutti i disturbi genetici e non tutte le nostre caratteristiche biologiche, patologiche o meno, dipendono dall'azione di un singolo gene. Anzi, la stragrande maggioranza delle nostre caratteristiche personali (dall'altezza alla forma del naso e degli orecchi, dal ritmo cardiaco alla pressione sanguigna, dall'intelligenza alla perseveranza) dipende dall'azione combinata di molti geni - cinque, cinquanta, cinquecento o anche più - e dalla loro interazione con l'ambiente in cui viviamo. Il secondo capitolo della saga del genoma riguarderà appunto l'individuazione di quanti e quali geni cooperano alla determinazione di ciascuno di questi tratti biologici, detti multifattoriali per distinguerli da quelli più propriamente monofattoriali. Non sarà un'impresa semplice e non potrà essere portata avanti in maniera più o meno automatizzata, come è stato per la determinazione della sequenza del genoma. Richiederà anzi molto impegno e una grande inventiva. Per questa enorme massa di geni che agiscono di concerto non si potranno ripetere le operazioni che sono state messe a punto per i geni del primo tipo: sono troppi e ciascuno di loro esplica un'azione molto sottile.
Il progetto implicante la definizione della base genetica dei tratti multifattoriali è solo all'inizio ma presto si svilupperà fino a dare frutti che riusciamo appena a immaginare. Si tratterà in sostanza di dare corpo alle ombre, di materializzare l'impalpabile, di nominare ciò che oggi è perfino innominato. Consideriamo anche soltanto quale esaltante impresa sarà fare l'inventario dei geni che sono alla base del nostro linguaggio e della sua acquisizione nei primi anni della nostra vita! Non sappiamo assolutamente che cosa troveremo, ma la storia del passato ci dice che qualcosa scopriremo e riusciremo a capire.
A scanso di equivoci, è bene aggiungere che i due compartimenti genomici di cui abbiamo appena parlato non sono mutuamente esclusivi. Niente impedisce a un gene del primo tipo di comportarsi come uno dei geni che determinano collettivamente una caratteristica biologica multifattoriale. Anzi, questa è probabilmente la regola, perché i due tipi di geni non hanno niente di diverso. È per nostra comodità logica che siamo indotti a distinguere i due compartimenti sulla base dei loro effetti, prevalentemente patologici. Va anzi detto che è altamente improbabile che una determinata caratteristica biologica, sia essa normale o patologica, venga determinata esclusivamente e al cento per cento da un solo gene. Nessun gene in sostanza agisce in completo isolamento, anche se per alcuni caratteri questa osservazione è più pertinente che per altri.
Ma non è ancora tutto. È quasi certo che nel nostro genoma non vi sono solo i geni di cui abbiamo parlato finora. Vi sarà verosimilmente dell'altro che non riusciamo neppure a immaginare e che per questo al primo impatto neppure sapremo vedere. Vi saranno altri tipi di geni, organizzati in modo diverso e forse anche scritti in modo diverso. Il completamento della sequenza del cromosoma 21 ha rivelato, per es., che questo contiene solo la metà dei geni che ci si sarebbe aspettati. Sembra quindi un cromosoma semivuoto. Questo non è in verità del tutto sorprendente. Nessun altro cromosoma umano è compatibile con la vita se presente in triplice copia nelle cellule di un individuo. Negli individui affetti da sindrome di Down, invece, si registra, come è noto, la presenza di tre copie del cromosoma 21. Il fatto che il cromosoma 21 sia l'unico che può comparire in triplice copia in un essere umano vivente, anche se sofferente, ci dice che si tratta di un cromosoma non particolarmente ricco di informazione biologica. Può però anche darsi che le regioni del cromosoma 21, o di altri cromosomi, che a noi appaiono oggi prive di geni siano in realtà piene di qualcos'altro che non conosciamo. Possiamo speculare, ma senza alcuna base sperimentale, che quel qualcosa in più sia necessario per mettere in atto una regia di livello superiore degli avvenimenti che hanno luogo durante lo sviluppo embrionale oppure nel processo di codificazione e di ricupero dei ricordi. È molto probabile che, alla distanza, questa si riveli la parte più interessante della saga della decifrazione del nostro genoma, cioè della nostra natura e delle nostre origini.Su un piano puramente conoscitivo, la determinazione della sequenza del nostro genoma costituisce un passo gigantesco verso la comprensione dei fenomeni vitali, dalle regole dello sviluppo dell'embrione e della crescita del bambino fino al funzionamento del cervello, della mente e dei nostri fantasmi interiori, tutte cose delle quali per ora si può parlare solo utilizzando metafore, per quanto affascinanti possano essere. Si tratta dell'inizio del disvelamento della nostra identità biologica, che è poi il presupposto essenziale, anche se non unico, della nostra identità tout-court. Si tratta di un evento che avrà certamente ricadute pratiche, anche immediate, ma soprattutto che proietterà una luce duratura sui secoli futuri.
Veniamo ora alle applicazioni pratiche. Come conseguenza logica di quanto abbiamo detto sopra, i disturbi che cadranno per primi sotto la scure della nuova genetica saranno le malattie ereditarie monofattoriali. Di molte di queste si conosce già il gene implicato e spesso anche i tipi di mutazione che lo interessano più comunemente. Di altre il gene non è ancora conosciuto e di quasi tutte non sono noti tutti i dettagli che si vorrebbero sapere sul modo di operare e sulla regolazione dei corrispondenti geni. Si tratta quindi di un'impresa ben avviata ma tutt'altro che terminata e il cui completamento costituirà il primo risultato pratico prevedibile del Progetto Genoma. Tutto ciò significherà strumenti di diagnosi sempre più efficaci, sicuri e pronti e magari la possibilità di una correzione del difetto genico stesso nelle cellule dove questo fa sentire maggiormente i suoi effetti.
Le malattie ereditarie monofattoriali sono foriere di dolore e di morte, ma sono fortunatamente rare. Nel loro complesso, dalle più comuni alle più rare, dalle più gravi alle più lievi, da quelle di carattere più prettamente fisico a quelle di carattere prevalentemente intellettivo, non costituiscono che l'1-1,5% nei nati vivi. Esistono però molte altre malattie dal carattere genetico più sfumato - tra le quali il diabete, il ritardo mentale, la labilità psicologica, l'emicrania, l'epilessia, la disposizione alle malattie cardiocircolatorie, allo sviluppo di allergie di vario tipo, al decadimento senile e ai vari tipi di tumori - che si presentano molto più diffuse. Sono quelle che abbiamo definito multifattoriali. Della stragrande maggioranza di queste malattie non si conoscono ancora i geni responsabili. Questi dovranno essere individuati e per far ciò la disponibilità della sequenza dell'intero genoma sarà essenziale. A tale proposito è facilmente prevedibile che la genetica umana di domani sarà prevalentemente una genetica dei caratteri multifattoriali.
Non vi è dubbio quindi che gli obiettivi pratici più prossimi e verosimili siano da ricercare nel campo della diagnosi, della prevenzione ed eventualmente della terapia di malattie chiaramente ereditarie o aventi una certa componente ereditaria. Tra i traguardi che possiamo almeno vagamente intravedere esiste inoltre la possibilità di una certa estensione della lunghezza della nostra vita e soprattutto di un prolungamento della stagione della giovinezza. È stato già individuato un certo numero di geni correlati con l'invecchiamento e la senescenza e si è appreso così che noi invecchiamo per almeno un paio di ragioni diverse. Da una parte i nostri tessuti e i nostri organi vanno incontro a un processo di logoramento e di usura, proprio come le parti di una qualsiasi macchina. A differenza di queste ultime, però, noi possediamo dei meccanismi biologici capaci di un certo grado di riparazione dei guasti e di sostituzione almeno parziale di alcune parti. Questi meccanismi sono ovviamente controllati da altrettanti geni, i quali funzionano perfettamente durante l'infanzia e l'adolescenza, accettabilmente nell'età adulta e con sempre minor efficacia con il progredire dell'età. D'altro canto noi non invecchiamo solamente perché ci logoriamo, ma anche perché esistono nel nostro genoma alcuni geni che 'tengono il tempo' e che controllano quindi la durata di molti dei nostri processi biologici e di conseguenza della nostra stessa vita. La conoscenza sempre più approfondita di geni di questo tipo porterà informazioni preziose e potrebbe fornire anche insperate opportunità per quanto concerne la durata e la qualità complessiva della nostra vita, intervenendo in qualche maniera sul loro funzionamento. Due sono le prospettive pratiche che svettano fra gli esiti del Progetto Genoma e che possono ragionevolmente previste: quella di avere in futuro una medicina individualizzata e quella di diagnosticare i tumori in maniera così pronta ed efficace da renderli praticamente inoffensivi. Una medicina centrata sulle esigenze di ogni singolo paziente è sempre stata l'obiettivo di ogni medico coscienzioso. Si sa che un certo farmaco può essere efficace per qualcuno, quasi inutile per altri o addirittura dannoso per qualcun altro. Analogamente, uno stile di vita o un'abitudine alimentare possono sortire effetti diversi su persone diverse, perché noi siamo tutti diversi, in primo luogo per ragioni genetiche e in secondo luogo per la varietà dei casi della vita a cui ciascuno di noi è andato incontro. Questo non significa che siamo tutti diversi in tutto. Una tale affermazione non avrebbe senso. Esistono caratteristiche biologiche più uniformi e altre più variabili da persona a persona; inoltre un soggetto può essere perfettamente nella norma per quasi tutti i suoi caratteri e presentare peculiarità o idiosincrasie per certi aspetti della sua biologia o della sua maniera di reagire a certi farmaci. Poter tenere conto costruttivamente di tutto ciò è appunto l'obiettivo di una medicina centrata sull'individuo. Se un domani, non vicinissimo ma facilmente prevedibile, si conoscessero le peculiarità genetiche, o più in generale biologiche, di ognuno, si potrebbe adottare una strategia preventiva o anche terapeutica diversa per ciascun individuo, che risultasse fatta su misura per lui o per lei.
Infine i tumori. Questi sono sempre esistiti e non sono eliminabili, come per es. gli agenti infettivi, perché rappresentano essenzialmente l'altra faccia della vita: non vi può essere vita senza moltiplicazione delle cellule e i tumori non sono altro che disfunzioni di alcuni dei meccanismi che regolano questo processo. La probabilità che tali meccanismi si alterino, e che quindi si sviluppi un tumore, aumenta progressivamente con l'aumentare degli anni. Con l'allungamento della vita verificatosi di recente i tumori sono quindi venuti sempre più alla ribalta e tutto lascia pensare che rappresenteranno il nemico numero uno di domani. Ogni tumore però nasce piccolo e inoffensivo: è costituito prima da una singola cellula 'impazzita', cioè tumorale, che dà luogo a due, poi a quattro, poi a otto cellule tumorali e così via. Con il passare del tempo, anni o decenni, il tumore viene a contenere milioni di cellule tumorali e diventa grande e pericoloso. Fino a una ventina d'anni fa ci si poteva accorgere dell'esistenza di un tumore solo quando era già grosso e minaccioso. Oggi esistono metodi di indagine che permettono spesso di diagnosticare i tumori quando non sono ancora di dimensioni preoccupanti, ma si è al momento ben lontani dall'obiettivo di diagnosticarli quando sono di dimensioni trascurabili. È mia convinzione che questo obiettivo possa essere raggiunto tramite la combinazione di sonde biologiche opportune e di strumenti ingegneristici potentissimi capaci di amplificare enormemente un piccolo segnale. Nessun tumore sarebbe allora pericoloso perché potrebbe essere rimosso in una fase molto precoce della sua crescita. Per avvicinarci a questo traguardo è necessario portare a termine l'inventario dei geni che possono dar luogo a un tumore nei diversi tessuti e quello di tutti i modi con i quali questi geni possono essere alterati e condurre così a una crescita tumorale. Il completamento del Progetto Genoma rappresenta certamente un passo fondamentale lungo questa via, anche se occorrerà poi progettare e mettere a punto gli strumenti per un'analisi strumentale vera e propria.
Quando il genoma dell'individuo umano medio sarà completamente determinato, si potrà passare, forse, alla determinazione dei genomi dei singoli individui che ne facciano richiesta. Questa prospettiva è però estremamente remota, come remote sono le preoccupazioni sui possibili usi e abusi di tali informazioni, private quanto altre mai, e non è sensato abbandonarsi oggi a speculazioni su un mondo così di là da venire e che sarà certamente diverso da tutto ciò che possiamo attualmente immaginare.
repertorio
Le tappe del Progetto Genoma
1984: il Dipartimento dell'energia degli Stati Uniti (DOE, U.S. Department of energy) durante una conferenza ad Alta, nello Utah, sottolinea la crescente importanza del ruolo delle tecnologie del DNA ricombinante nella ricerca sul genoma umano.
1986: prende l'avvio, sotto l'egida del Dipartimento dell'energia degli Stati Uniti, l'ipotesi di sequenziare il genoma umano a scopi di ricerca biomedica.
1987: il Dipartimento dell'energia degli Stati Uniti elabora un programma di lavoro multidisciplinare, scientifico e tecnologico, della durata di 15 anni, destinato a mappare e sequenziare il genoma umano. Il Dipartimento identifica anche i centri nei quali sarà svolto il lavoro.
1988: viene istituita la Human Genome Organization (HUGO), con il compito di coordinare il programma a livello internazionale.
1990: il Dipartimento dell'energia e il National institute of health presentano al Congresso degli Stati Uniti un progetto di legge congiunto per il sequenziamento del genoma umano. Il Progetto Genoma Umano ha il suo inizio ufficiale.
1995: viene completato il sequenziamento del primo genoma non virale, quello del batterio Haemophilus influenzae.
1996: un gruppo di lavoro internazionale completa la sequenza del genoma del lievito Saccharomyces cerevisiae e quella del batterio Methanococcus jannaschii.
1997: l'UNESCO adotta una Dichiarazione universale sul genoma e sui diritti umani. Vengono completate le mappe ad alta risoluzione dei cromosomi X e 7. È ultimato il sequenziamento del genoma del batterio Escherichia coli.
1998: viene istituita la società privata Celera Genomics, con lo scopo di sequenziare la maggior parte del genoma umano nell'arco di 3 anni. Sono ultimati il sequenziamento del batterio Mycobacterium tuberculosis e quello di Caenorhabditis elegans, un verme microscopico.
1999: per la prima volta viene completamente sequenziato un cromosoma umano, il cromosoma 22.
2000: un gruppo di lavoro internazionale pubblica il genoma del moscerino della frutta Drosophila melanogaster, il più grande organismo vivente sequenziato fino a questo momento. Il Dipartimento dell'energia degli Stati Uniti annuncia il completamento delle sequenze dei cromosomi 5, 16 e 19. È pubblicato il genoma del cromosoma 21, il più piccolo cromosoma umano, responsabile della genesi della trisomia 21 o sindrome di Down. Il presidente degli Stati Uniti Bill Clinton e i dirigenti del Progetto Genoma annunciano il completamento al 97% della sequenza del DNA del genoma umano.
Glossario
acidi nucleici
Composti chimici presenti in tutti gli organismi viventi, procarioti ed eucarioti, virus inclusi. Vengono distinti in due classi: l'acido desossiribonucleico (DNA) e gli acidi ribonucleici (RNA). Il DNA è il depositario dei caratteri ereditari contenuti nelle cellule e viene trasmesso alle cellule figlie per mezzo di un processo di autoduplicazione. Gli acidi ribonucleici, distinti a loro volta in tre tipi, hanno invece la funzione di tradurre morfologicamente l'informazione genetica contenuta nel DNA. Da un punto di vista chimico, gli acidi nucleici sono formati da basi puriniche (adenina e guanina) e pirimidiniche (citosina, timina e uracile), da un carboidrato a 5 atomi di carbonio (ribosio o desossiribosio) e da acido ortofosforico. Le due classi di acidi nucleici si caratterizzano per il fatto che il DNA contiene desossiribosio, mentre l'RNA contiene ribosio. Inoltre, nel DNA è presente la timina, mentre nell'RNA, al posto della timina, si trova l'uracile. In alcuni tipi di DNA e di RNA, oltre alle basi già citate, possono essere presenti dei derivati metilati. L'unità fondamentale degli acidi nucleici è il nucleotide, che è formato dall'unione di una base azotata con il pentosio, il quale a sua volta è esterificato dall'acido fosforico. Gli acidi nucleici sono dei polinucleotidi: i vari nucleotidi sono attaccati l'uno all'altro mediante il radicale fosforico che si lega a una funzione alcolica del carboidrato del nucleotide adiacente con il legame tipico degli esteri. Le posizioni del pentosio coinvolte nel legame suddetto con il radicale fosforico sono quelle corrispondenti agli atomi di carbonio 3' e 5'; l'atomo di carbonio in posizione 1' è impegnato, invece, nel legame con la base azotata.
Struttura del DNA. - Mediante studi condotti attraverso diffrazione dei raggi X, J.D. Watson e F.H.G. Crick hanno descritto nel 1953 la struttura tridimensionale del DNA, meritando per queste ricerche il Nobel per la fisiologia o la medicina nel 1962. A eccezione di alcuni virus nei quali il DNA è formato da un'unica catena, in tutti gli altri organismi esso è costituito da due catene di polinucleotidi che formano insieme una doppia elica. Queste catene hanno polarità opposta, sono cioè antiparallele; il loro scheletro è rappresentato da residui di desossiribosio alternati a residui fosforici, mentre le basi azotate, affacciate all'interno della catena perpendicolarmente all'asse, contribuiscono a mantenere rigida questa struttura mediante la formazione di legami idrofobici tra i nuclei delle purine e delle pirimidine e di legami idrogeno. Di questi ultimi, se ne stabiliscono due tra l'adenina e la timina e tre fra la citosina e la guanina. Questo specifico accoppiamento di basi costituisce la caratteristica principale della struttura tridimensionale del DNA. La doppia elica è una struttura regolare: contiene dieci coppie di basi per ogni spira, per una lunghezza di 34 Å, in modo tale che tra due successive coppie di basi vi è una distanza di 3,4 Å. Lo scheletro formato da molecole di desossiribosio e da radicali fosforici dista dall'asse dell'elica 10 Å. Il peso molecolare del DNA si aggira intorno ai 6-12 milioni, valore corrispondente alla presenza di 20.000-40.000 nucleotidi. A eccezione di alcuni virus che contengono solo RNA, il DNA è presente in tutte le cellule ed è localizzato nel nucleo, dove, in associazione con RNA e proteine, forma i cromosomi. Nei batteri e in alcune alghe, in cui è assente un vero e proprio nucleo, il materiale cromosomico si trova nel citoplasma. Anche nei cloroplasti delle piante verdi e nei mitocondri è presente DNA. Esso ha una composizione in basi diversa da quella del corrispondente DNA del nucleo e costituisce il materiale genetico proprio dell'organello.
Acidi ribonucleici. - In base alla loro composizione caratteristica, alle loro proprietà funzionali e alla loro localizzazione nella cellula possono essere distinti in tre classi: RNA ribosomiale, RNA messaggero, RNA solubile o RNA transfer. L'RNA ribosomiale, o RNAr, strettamente associato a una componente proteica, costituisce i ribosomi, corpuscoli subcellulari su cui ha luogo la sintesi proteica; rappresenta il 45-50% del peso secco dei ribosomi dei Mammiferi. L'RNA messaggero, o RNAm, viene sintetizzato nel nucleo sullo stampo del DNA, ma esplica la sua funzione nel citoplasma; ha una composizione in basi complementare a quella del DNA della stessa cellula, ma è formato da un'unica catena polinucleotidica; ha la funzione di raccogliere l'informazione per la struttura primaria di una proteina, contenuta in un tratto di DNA, e di trasferirla nel citoplasma sulla sede della sintesi proteica. L'RNA solubile è, tra gli acidi ribonucleici, il più piccolo e il meglio caratterizzato; il nome di solubile deriva da precedenti osservazioni secondo cui una frazione di RNA rimaneva solubile nel sopranatante, dopo che l'ultracentrifugazione di una sospensione di cellule rotte aveva precipitato gli organelli e la maggior parte dell'RNA cellulare; di uso più comune è la dizione RNA transfer, o RNAt, nome legato alla sua funzione: il trasferimento degli aminoacidi presenti nel citoplasma cellulare sui ribosomi; l'RNAt è distribuito principalmente nel citoplasma delle cellule e ha un peso molecolare di circa 30.000.
allele
Ciascuno dei due o più stati alternativi di un gene che occupano la stessa posizione (locus) su cromosomi omologhi e che controllano variazioni dello stesso carattere. Anche se gli alleli di un gene riguardano lo stesso carattere, il prodotto di un allele può differire quantitativamente o qualitativamente da quello codificato da altri alleli dello stesso gene. Rispetto a uno stesso gene gli organismi possono essere omozigoti, se i due alleli sono geneticamente identici, o eterozigoti, se i due alleli sono diversi.
aminoacido
Composto organico caratterizzato dalla presenza nella molecola di un gruppo acido, carbossilico, 'COOH e di un gruppo basico, aminico, 'NH2. Gli aminoacidi isolati da fonti naturali sono oltre 300 e si ritrovano allo stato libero nei tessuti e nei liquidi dell'organismo, oppure legati in peptidi a basso peso molecolare, di grande importanza dal punto di vista biologico. Soprattutto però gli aminoacidi si trovano in natura come costituenti delle proteine, uniti l'uno all'altro con un legame amidico, detto legame peptidico, che si forma per reazione fra il gruppo carbossilico di un aminoacido e il gruppo aminico di quello successivo, con liberazione di una molecola d'acqua; si vengono così a formare dei peptidi che danno luogo a lunghi polimeri lineari chiamati catene polipeptidiche. Queste possono contenere centinaia di unità di aminoacidi e più di una catena polipeptidica può essere contenuta in una molecola proteica. Gli aminoacidi costituenti le proteine possono essere raggruppati in due categorie: la prima comprende i 20 aminoacidi per i quali è noto il codice genetico di sintesi delle proteine; la seconda include gli aminoacidi derivati da alcuni dei precedenti per trasformazione enzimatica che ha luogo quando già sono stati incorporati nella catena polipeptidica. Negli aminoacidi sono inoltre sempre presenti le catene laterali che hanno una fondamentale importanza biologica, in quanto è attraverso queste catene che i singoli aminoacidi vengono riconosciuti all'atto della loro incorporazione nella proteina e che, una volta incorporati, determinano le proprietà funzionali e strutturali delle proteine stesse. Gli aminoacidi sono componenti indispensabili nella dieta di tutti gli animali, uomo compreso. La principale sorgente di aminoacidi per i Mammiferi è rappresentata dalle proteine che vengono idrolizzate in piccoli peptidi dagli enzimi proteolitici dello stomaco e dell'intestino. Dopo che gli aminoacidi hanno raggiunto i vari tessuti, subiscono una serie di reazioni metaboliche che si possono così riassumere: deaminazione; sintesi di composti azotati non proteici particolari (ormoni, vitamine ecc.); biosintesi delle proteine.
base
Con il termine basi (o nucleotidi) si intendono comunemente i costituenti degli acidi nucleici che determinano la natura del patrimonio genetico di un organismo. Dal punto di vista chimico, le basi presenti negli acidi nucleici si distinguono in purine e pirimidine. Alle prime appartengono l'adenina (A) e la guanina (G), contenute sia nel DNA sia nell'RNA, alle seconde la citosina (C), ugualmente contenuta in entrambi gli acidi nucleici, la timina (T), contenuta soltanto nel DNA, e l'uracile (U), presente unicamente nella molecola dell'RNA.
codice genetico
È il codice attraverso cui avviene la traduzione dell'informazione genetica necessaria per lo sviluppo di un organismo. Tale informazione, contenuta in ogni cellula, è codificata nella sequenza di nucleotidi delle molecole polinucleotidiche della cellula stessa e viene trasmessa da una generazione all'altra attraverso le interazioni di appaiamento di basi complementari; si esprime tramite la traduzione della sequenza lineare dei nucleotidi del DNA nella sequenza colineare degli aminoacidi delle proteine. Inizialmente un tratto di DNA, denominato cistrone o gene, viene trascritto in un filamento complementare di RNA messaggero che viene poi tradotto in una proteina mediante una reazione catalizzata al livello dei ribosomi. Gli aminoacidi destinati alla sintesi della proteina specifica per quel tratto di DNA vengono trasportati da una famiglia di piccole molecole di RNA transfer o solubile, ciascuna delle quali riconosce, mediante l'appaiamento di basi complementari, un gruppo di 3 nucleotidi dell'RNA messaggero. La sequenza dei nucleotidi dell'RNA messaggero viene letta da un estremo all'altro in gruppi di 3, in base a un codice genetico valido per tutti gli organismi viventi. La traduzione, quindi, della sequenza nucleotidica dell'RNA messaggero in quella aminoacidica della proteina si fonda sull'appaiamento delle basi complementari fra una tripletta (codone) dell'RNA messaggero e la corrispondente tripletta complementare (anticodone) dell'RNA transfer che trasporta uno specifico aminoacido. Il codice genetico è stato definito universale in quanto in tutti gli organismi studiati, dai virus all'uomo, non è stata raccolta alcuna prova di qualche modificazione evolutiva nel significato dei 64 codoni possibili. L'universalità del codice genetico rimane quindi una delle prove più importanti della continuità genetica fra tutti gli organismi presenti sulla Terra.
cromosoma
Nome dato da W. Waldeyer nel 1888 (ted. Chromosom) ai corpiccioli intensamente colorabili, in genere di forma bastoncellare, visibili nel nucleo della cellula durante la divisione cellulare o mitosi. Durante l'interfase i cromosomi non sono individuabili, ma nel nucleo sono presenti zolle di cromatina, che è la sostanza che li costituisce. Ogni cromosoma durante la mitosi si divide longitudinalmente in due elementi, i cromatidi, ciascuno dei quali va in una cellula figlia. Il fatto che il materiale cromosomico sia così equamente ripartito tra le due cellule figlie ha fatto pensare fin dall'inizio che essi siano i portatori dei geni, teoria che è stata in seguito suffragata da numerosissime prove sperimentali. Chimicamente infatti il cromosoma è costituito da acido desossiribonucleico (DNA), proteine basiche e acide e acido ribonucleico (RNA); nella sequenza di basi del DNA è scritta tutta l'informazione genetica di una cellula sotto forma di codificazione per la formazione di proteine; una sequenza di basi, che codifica una proteina o meglio una catena polipetidica, prende il nome di gene. Quando il DNA si duplica, durante l'interfase del ciclo cellulare, l'informazione genetica viene riprodotta fedelmente ed è trasmessa alle cellule figlie. Al momento della mitosi il DNA è quindi già duplicato e il cromosoma appare diviso in due elementi, i cromatidi, uniti a livello del centromero. Quando si completa la divisione cellulare ognuna delle cellule figlie riceve uno dei due cromatidi, che una volta separati anche a livello del centromero acquistano la loro individualità di cromosomi. I cromatidi sono costituiti da un'unica molecola di DNA a doppia elica molto spiralizzata, in modo da poter essere contenuta nel nucleo delle cellule. La spiralizzazione di questa molecola si realizza mediante stretti avvolgimenti intorno alle proteine istoniche in strutture fondamentali chiamate nucleosomi. La morfologia dei cromosomi è particolarmente evidente durante la metafase mitotica, quando sono molto spiralizzati; in questa fase i cromosomi appaiono al microscopio ottico ben divisi nei due cromatidi ed è possibile studiare e individuare ogni singolo cromosoma. Il numero e la forma dei cromosomi sono costanti per ogni specie di animali e di piante; negli organismi diploidi il corredo cromosomico completo diploide (indicato con il simbolo 2n) è rappresentato da due serie di cromosomi identici tra loro due a due, detti omologhi; per es., l'uomo ha 2n = 46 cromosomi (23 coppie); il moscerino della frutta Drosophila melanogaster 2n = 8 (4 coppie); il granturco Zea mais 2n = 20 (10 coppie); il topo 2n = 40 (20 coppie) e così via. L'informazione genetica dei cromosomi omologhi deriva per metà dal gamete maschile e per metà dal gamete femminile. Durante la formazione dei gameti (negli organismi a riproduzione sessuale) il numero diploide 2n dei cromosomi viene, attraverso un processo denominato meiosi (o gametogenesi), dimezzato a n cromosomi (numero aploide). All'atto della fecondazione tra i due gameti si ricostituisce nello zigote il numero diploide, cioè la serie di coppie di cromosomi omologhi dei quali uno avrà origine paterna e l'altro materna; lo zigote diploide darà origine attraverso successive divisioni mitotiche alle cellule somatiche dell'intero organismo, che sono tutte diploidi.
gene
Termine introdotto da W.L. Johannsen nel 1909 per indicare l'unità ereditaria, la cui scoperta si deve a G. Mendel. Ogni gene controlla uno o più caratteri: per es., il colore degli occhi e dei capelli, la velocità di coagulazione del sangue e i caratteri a essa correlati ecc. Dopo la riscoperta delle leggi mendeliane (1900) si concepirono i geni come particelle materiali situate nel nucleo delle cellule. In seguito, per opera di Th.H. Morgan e dei suoi collaboratori, si dimostrò (1910-1920) che i geni sono localizzati in un ordine lineare costante sui cromosomi. In ogni organismo la sequenza delle basi sulla molecola del DNA è specifica in ogni suo segmento. Il gene a questo punto si può configurare come un tratto ben definito della lunga molecola filamentosa del DNA, suddiviso in unità di ordine inferiore, dette cistroni, a loro volta suddivise in numerosi siti, ciascuno costituito da un certo numero di nucleotidi (da alcune centinaia ad alcune migliaia di coppie di basi). L'informazione genetica è scritta sul DNA secondo un codice a triplette basato sulla sequenza delle quattro basi. Per quanto riguarda la funzione del gene, già nel 1909 A.E. Garrod aveva provato che i geni sono responsabili della produzione di proteine enzimatiche. Le proteine sono quindi il prodotto immediato dei geni; esse sono macromolecole costituite da uno o più polipeptidi, cioè catene di aminoacidi la cui sequenza (detta struttura primaria) determina la specificità della proteina. Ogni aminoacido è codificato sul DNA da una sequenza di tre basi (codone). L'espressione del gene non avviene direttamente, ma attraverso un processo molecolare i cui punti fondamentali sono: trascrizione dell'informazione del DNA in una molecola di RNA nucleare; modificazione, negli eucarioti, di questi RNA nucleari (trascritti primari) in RNA messaggeri (RNAm) maturi, citoplasmatici; traduzione della sequenza nucleotidica degli RNAm nelle sequenze aminoacidiche delle proteine che essi codificano. Oltre alle sequenze di DNA che codificano la struttura primaria della proteina (e vengono pertanto dette geni strutturali), esistono altre sequenze di DNA, dette geni regolatori, responsabili della regolazione dell'espressione dell'informazione contenuta nel gene strutturale. Ricerche recenti hanno messo in luce che i geni possiedono alcune sequenze di basi in eccesso rispetto a quelle necessarie per codificare la struttura primaria delle proteine; tali sequenze si trovano sia a lato sia all'interno dei singoli geni strutturali e vengono trascritte nelle molecole di RNA nucleare precursore dell'RNA citoplasmatico maturo; in quest'ultimo le extrasequenze vengono rimosse mediante un processo detto splicing. Il gene ha quindi struttura frazionata, composta da introni (le sequenze di DNA che si trovano tra le sequenze codificanti) ed esoni, che corrispondono alle sequenze di RNAm maturo. Tale struttura frazionata del gene ha verosimilmente un significato nella regolazione dell'attività genica, in quanto potrebbe rendere più o meno efficace la ricombinazione genetica, oppure assorbire mutazioni o infine modulare l'espressione del gene stesso a livello trascrizionale o post-trascrizionale; non è da escludere un significato evolutivo in quanto i geni frammentati hanno maggiori possibilità di ricombinazione rispetto ai geni in cui le sequenze codificanti sono contigue.
genoma
Il corredo cromosomico di una cellula aploide, cioè con una copia di ciascun cromosoma, con i geni in essa contenuti. Si può anche definire come patrimonio genetico.
sequenziamento
In biologia molecolare e biochimica, la determinazione della sequenza di nucleotidi caratteristica di una molecola di acido nucleico, o anche della sequenza di aminoacidi di una proteina, attraverso appropriate tecniche. La prima proteina sequenziata è stata l'insulina. La pubblicazione, a opera di F. Sanger nel 1953, di tale sequenza è storicamente importante, perché ha fatto intuire l'esistenza di un meccanismo di sintesi proteica così preciso da assicurare una corrispondenza univoca fra sequenza aminoacidica delle proteine e sequenza nucleotidica del DNA. Tutti i metodi utilizzati per la determinazione delle sequenze nucleotidiche del DNA impiegano enzimi di restrizione, i quali procurano specifici punti di riferimento per la determinazione della sequenza in quanto riconoscono e tagliano il DNA in corrispondenza di corti oligonucleotidi specifici. Si origina in tal modo una serie di frammenti di restrizione, lunghi 100-200 nucleotidi, costituiti da DNA a singolo filamento, dei quali è possibile successivamente determinare la sequenza. Tutte le tecniche comunemente usate si basano sulla produzione di gruppi di frammenti a filamento singolo di dimensioni crescenti. I frammenti, marcati con isotopi radioattivi, vengono separati, in base alla lunghezza, per mezzo dell'elettroforesi e successivamente osservati mediante autoradiografia del gel elettroforetico. I due principali metodi adottati per sequenziare il DNA variano soprattutto per quanto riguarda il modo con cui il DNA viene marcato e il modo con cui sono prodotti frammenti di dimensioni crescenti. La prima tecnica, sviluppata da A. Maxam e W. Gilbert, utilizza specifiche reazioni chimiche per creare gruppi di frammenti di dimensioni crescenti, che terminano con uno specifico nucleotide all'estremità 3´, adenina, citosina, guanina, timina, e sono tutti marcati all'estremità 5´. La posizione di ciascun frammento dei quattro gruppi si può individuare mettendo a contatto il gel radioattivo con una pellicola per raggi X ed esponendola opportunamente. Sviluppata la pellicola, si osserva una serie di bande, ciascuna delle quali rappresenta un particolare frammento di una certa dimensione; la sequenza del frammento può essere letta direttamente dalla pellicola partendo dall'estremità 5´. La seconda tecnica, sviluppata da F. Sanger, prevede l'uso di un processo di sintesi enzimatica di una nuova catena di DNA, utilizzando un'elica di DNA come stampo. I frammenti di diversa lunghezza si formano in quanto vengono aggiunti didesossiribonucleotidi alla miscela di reazione; questi nucleotidi sono analoghi ai quattro corrispondenti desossiribonucleotidi ma, a causa della loro composizione chimica, bloccano la sintesi dei nuovi filamenti di DNA. Con l'aggiunta dei quattro tipi diversi di didesossiribonucleotidi si blocca pertanto la sintesi dei nuovi frammenti in tutte le possibili posizioni e si formano frammenti con nucleotidi terminali diversi, che vengono poi osservati con la metodica sopra descritta.
trascrizione
La sintesi enzimatica di RNA su uno stampo di DNA. Nelle cellule di tutti gli organismi viventi, la trascrizione dell'RNA è una tappa obbligatoria per la sintesi delle proteine e consiste in una reazione di polimerizzazione catalizzata dall'enzima RNA-polimerasi DNA-dipendente, in cui i singoli nucleotidi che costituiscono l'RNA vengono legati l'uno all'altro per formare un filamento polinucleotidico complementare al DNA. La reazione richiede ioni magnesio o manganese, i quattro nucleotidi dell'RNA in forma trifosfata (ATP, GTP, CTP e UTP) e un tratto di DNA di stampo. La sequenza dei nucleotidi dell'RNA è specificata dalla sequenza dei nucleotidi del DNA di stampo, secondo l'appaiamento citosina-guanina, adenina-uracile, timina-adenina. Solo uno dei due filamenti del DNA viene trascritto (filamento codificante) e l'RNA-polimerasi può catalizzare la trascrizione soltanto in una direzione. I diversi tipi di RNA trascritti sono: RNA messaggero (RNAm), RNA ribosomiale (RNAr) e RNA transfer (RNAt). I procarioti possiedono un'unica RNA-polimerasi che trascrive tutti e tre gli RNA, mentre gli eucarioti hanno tre tipi di RNA-polimerasi. Nel DNA sono presenti alcune brevi sequenze di nucleotidi, i promotori, che indicano dove e quando la sintesi dell'RNA deve avvenire, in quanto costituiscono il sito di riconoscimento delle RNA-polimerasi. I promotori di geni diversi hanno alcuni nucleotidi in comune ma differiscono per altri; le differenze nella sequenza sono riconosciute da specifiche proteine nucleari chiamate fattori di trascrizione, necessarie per l'espressione diversificata dei geni nelle diverse cellule di un organismo. La trascrizione procede attraverso tre fasi distinte.
1) Fase di inizio: l'RNA-polimerasi si lega al promotore e i fattori di inizio determinano un'efficiente interazione fra il promotore e l'enzima. In seguito al riconoscimento, l'RNA-polimerasi separa per un breve tratto i due filamenti di DNA e inserisce il primo nucleotide dell'RNA.
2) Fase di allungamento: l'RNA-polimerasi si muove lungo il filamento di DNA e continua ad aggiungere ribonucleotidi trifosfati alla estremità 3' della catena di RNA nascente. L'energia per la reazione di polimerizzazione e la formazione del legame fosfodiesterico è fornita dall'idrolisi dei nucleosidi trifosfati. Alcune proteine (fattori di allungamento) accelerano la reazione legandosi all'RNA-polimerasi. Il DNA si srotola e si riavvolge continuamente a livello del sito di trascrizione, lasciando una zona centrale in cui si forma una breve catena ibrida DNA-RNA.
3) Fase di terminazione: specifiche sequenze di DNA segnalano la fine della regione che deve essere trascritta. Si verifica pertanto l'arresto della reazione di polimerizzazione e il distacco dell'enzima e dell'RNA neosintetizzato. Fattori proteici di terminazione e sequenze di DNA con struttura secondaria a forcina contribuiscono alla destabilizzazione del complesso enzimatico causando la terminazione della trascrizione.
tripletta
Unità d'informazione del codice genetico, detta anche codone. È costituita da una tripletta di nucleotidi contigui nel DNA e nell'RNA messaggero. Ogni tripletta codifica un particolare aminoacido, tranne le tre triplette di terminazione che determinano la fine della catena proteica nascente.