Codice genetico
La traduzione dell'informazione genetica contenuta nel DNA (v. acidi nucleici) avviene attraverso un codice genetico universale, un codice cioè valido per tutti gli organismi viventi indipendentemente dal loro grado di complessità. Esso specifica a quale sequenza di basi nell'RNA messaggero (mRNA) corrisponde ciascun aminoacido (v. aminoacidi) e consente di tradurre il messaggio genetico dal linguaggio a quattro lettere degli acidi nucleici, costituito dalle basi azotate adenina (A), guanina (G), timina (T) e citosina (C), al linguaggio a 20 lettere (aminoacidi) delle proteine nella sintesi proteica. Già all'inizio degli anni Sessanta fu chiaro che dovevano essere necessari tre residui nucleotidici per codificare ciascun aminoacido. Infatti, prese singolarmente le quattro basi avrebbero potuto codificare solo quattro aminoacidi, mentre una sequenza di due basi in tutte le loro combinazioni possibili avrebbe potuto codificare 42=16 aminoacidi soltanto, cioè un numero ancora insufficiente. Solo triplette di basi (43=64 combinazioni) erano, dunque, sufficienti per codificare i 20 aminoacidi naturali che sono presenti nelle proteine.
I primi esperimenti genetici dimostrarono che nell'mRNA (RNA messaggero) le triplette, o codoni, non sono sovrapposte né separate da nucleotidi non codificanti, per cui la sequenza di una proteina è definita da una sequenza continua di triplette contigue nell'mRNA corrispondente. Gli esperimenti che condussero negli anni Sessanta a comprendere la specifica corrispondenza tra ciascuna tripletta e ciascun aminoacido sono dovuti soprattutto a M.W. Nirenberg che, insieme ai suoi collaboratori, ideò una serie di esperimenti in vitro che contribuirono a chiarire diversi aspetti del codice genetico; i primi risultati vennero ottenuti da Nirenberg e H. Matthaei nel 1961. Essi utilizzarono un estratto da cellule di Escherichia coli (cell free extract) che conteneva tutti gli ingredienti necessari per la sintesi proteica: il DNA, i tRNA (RNA di trasporto), i ribosomi e gli enzimi necessari (v. acidi nucleici). Questo estratto venne esposto a un mRNA artificiale e ai 20 aminoacidi naturali, dei quali uno solo per volta era marcato radioattivamente. Il primo mRNA artificiale usato fu l'acido poliuridilico (poli U), ottenuto dall'uridina 5'-difosfato con una reazione di polimerizzazione catalizzata dall'enzima polinucleotide fosforilasi. Secondo l'ipotesi di Nirenberg, l'acido poliuridilico avrebbe dovuto agire come un mRNA costituito da un unico nucleotide ripetuto, in cui le triplette erano tutte uguali (UUU) e avrebbero codificato un solo aminoacido. Dopo l'incubazione dell'acido poliuridilico con le 20 diverse miscele, contenenti ciascuna un solo aminoacido radioattivo, e la successiva filtrazione per separare l'eventuale proteina (o meglio la catena omo-polipeptidica), si osservò che l'unica miscela che aveva dato luogo a una proteina radioattiva era quella in cui l'aminoacido marcato radioattivamente era la fenilalanina: si era infatti formata poli-fenilalanina. La tripletta UUU fu così il primo codone a essere identificato. Con la stessa procedura il gruppo di Nirenberg assegnò i codoni per gli altri aminoacidi: vennero utilizzati svariati messaggeri artificiali come polinucleotidi sintetici contenenti un unico nucleotide, cioè il poli A e il poli C (il poli G non diede allora alcun risultato utile per ragioni steriche), oppure polinucleotidi con sequenze casuali ottenuti da opportune miscele di due o più nucleosidi 5'-difosfato. Con questi messaggeri artificiali fu possibile stabilire la composizione delle triplette che codificano i 20 aminoacidi naturali.
Per stabilire anche la sequenza dei nucleotidi all'interno delle triplette, Nirenberg ideò altri esperimenti che sfruttavano la possibilità di legare ai ribosomi isolati di Escherichia coli il tRNA caricato con un determinato aminoacido (per es. il fenilalanil-tRNA), quando era anche presente il corrispondente mRNA sintetico (in questo caso poli U). Anziché usare poli U, Nirenberg usò il trinucleotide UUU e ottenne il risultato atteso: solo il fenilalanil-tRNA si legò ai ribosomi in presenza della tripletta UUU. L'esperimento fu ripetuto utilizzando tutte le 64 triplette sintetizzate a partire dalle quattro basi nucleotidiche. Si riuscì così a stabilire la corrispondenza tra più di 50 triplette e i 20 aminoacidi. Fu subito evidente che triplette diverse potevano codificare per lo stesso aminoacido e che alcune triplette non consentivano il legame di alcun tRNA ai ribosomi. Il biochimico G.H. Khorana ottenne altri messaggeri sintetici a sequenza nota formati da due o più nucleotidi, grazie ai quali si poté definitivamente chiarire la relazione tra le 64 triplette e i 20 aminoacidi. Si ottenne, quindi, un dizionario 'nucleico-proteico', in cui a 61 delle 64 triplette possibili corrispondevano i 20 aminoacidi; tre triplette infatti non codificano alcun aminoacido, ma presentano un significato diverso (v. oltre).
Questo dizionario è appunto il codice genetico, il cui chiarimento, completato nel 1966, costituisce certamente la scoperta scientifica più importante e significativa di quel periodo, che segue quella della doppia elica del DNA all'inizio degli anni Cinquanta. Tranne gli aminoacidi metionina e triptofano, ciascuno codificato da una singola tripletta (rispettivamente AUG e UGG ), tutti gli altri aminoacidi vengono codificati da due o più codoni sinonimi, fino a sei per la leucina, la serina e l'arginina: per questo motivo il codice genetico è detto degenerato. Gli aminoacidi che sono codificati dal maggior numero di codoni sono anche quelli che appaiono più frequentemente nelle sequenze proteiche. Un'altra interessante caratteristica del codice genetico è che le triplette che codificano lo stesso aminoacido differiscono generalmente solo nella terza base, quella all'estremità 3' del codone. È stato, inoltre, dimostrato che più codoni che differiscono nella terza base possono in alcuni casi essere 'letti' (cioè formare legami di idrogeno complementari) da diversi tRNA, a seconda della natura della prima base (quella all'estremità 5') dell'anticodone nel tRNA. F. Crick esaminò tutti i possibili appaiamenti codone-anticodone e, sulla base di modelli molecolari, concluse che mentre le prime due basi del codone si appaiano secondo le note regole della complementarità (A con U e G con C), la terza base può appaiarsi con differenti basi nell'anticodone, come se potesse 'oscillare' (ipotesi dell'oscillamento della terza base, wobble). Sia la ridotta specificità della terza base del codone sia le proprietà simili degli aminoacidi (come leucina, isoleucina e valina che presentano tutti carattere idrofobico) codificati da codoni simili (diversi per una sola base) sono stati interpretati come un modo per ridurre l'effetto delle mutazioni e quindi gli errori nella trasmissione dell'informazione genetica. In tal modo, infatti, una singola mutazione casuale può o non modificare affatto l'aminoacido codificato o provocare la sostituzione di quell'aminoacido con uno molto simile.
Il codone AUG, che come si è detto è la tripletta che codifica la metionina, rappresenta anche il codone di inizio di tutte le catene proteiche nei procarioti e negli eucarioti; il suo corretto posizionamento sul ribosoma è indispensabile per determinare la corretta fase (o quadro) di lettura (il reading frame), cioè il punto di inizio della lettura della sequenza dell'mRNA da parte degli aminoacil-tRNA (per la sintesi proteica, v. acidi nucleici). Le tre triplette UAG, UAA e UGA, invece, non codificano alcun aminoacido, cioè a esse non corrisponde nessun anticodone di un tRNA: la loro funzione è quella di provocare la terminazione della catena proteica. Queste triplette, che vengono dette rispettivamente ocra, ambra e opale, furono identificate per la prima volta in mutanti di Escherichia coli, nei quali alcune catene proteiche terminavano prematuramente.
Il codice genetico è quindi degenerato, non sovrapposto e senza spaziature ed è inoltre praticamente universale: il sistema di trasmissione dell'informazione genetica dal DNA alle proteine avviene cioè attraverso specifiche triplette che codificano in tutti gli organismi procarioti ed eucarioti gli stessi aminoacidi. Esistono rare eccezioni specie-specifiche a questa universalità, in particolare nei mitocondri, dove, per es., UGA è il codone per il triptofano anziché essere una tripletta di terminazione e AUA quello per la metionina. In altri casi AGA e AGG si comportano invece come triplette di terminazione. Rimane comunque valida l'universalità del codice genetico in tutti gli organismi viventi come espressione di una sofisticata e intelligente macchina di trasmissione dell'informazione genetica.
b. alberts et al., Molecular biology of the cell, New York, Garland, 19943 (trad. it. Bologna, Zanichelli, 1996).
b. lewin, Genes VI, Oxford-New York, Oxford University Press, 1997 (in it. v. Il gene IV, Bologna, Zanichelli, 1992).