gene
Unità di informazione ereditaria degli organismi viventi, che occupa una posizione fissa (locus) su un cromosoma. L’idea di g. si è evoluta con l’avanzare delle scoperte della genetica e della biologia molecolare e la sua definizione si è contestualmente ampliata. Dal concetto astratto di g. come semplice espressione di un determinato carattere, proprio della genetica formale (ossia della genetica mendeliana che ignora le caratteristiche chimico-fisiche dei determinanti ereditari), si è così passati alla definizione di g. come unità di trascrizione, ossia una sequenza di acido nucleico (DNA, o più raramente RNA in alcuni virus) che porta l’informazione per produrre un particolare prodotto genico. Pertanto sono g. tutti i segmenti del genoma suscettibili di essere trascritti.
I g. vengono suddivisi in due categorie: la classe dei g. strutturali, destinati a essere trascritti e tradotti in catene polipeptidiche, e la classe dei g. a RNA, che vengono solo trascritti e specificano molecole di RNA funzionali, appartenenti a varie classi (RNA transfer, RNA ribosomali, microRNA), deputati al controllo dell’espressione genica e della sintesi proteica. I primi sono quelli di gran lunga più studiati: a tal punto che, a meno di precisazioni, il termine designa il g. che esprime una catena polipeptidica. Le due fasi essenziali dell’espressione genica sono la trascrizione (➔), in cui la sequenza (quasi sempre di DNA) che codifica un polipeptide viene trascritta in un filamento di RNA messaggero, e la traduzione (➔) , in cui la sequenza sull’mRNA viene tradotta a livello dei ribosomi per dar luogo alla sintesi proteica. Un g. comprende anche regioni di controllo che precedono e seguono la regione codificante. Un g. è un’entità stabile, ma è soggetto a cambiamenti di sequenza occasionali, che si chiamano mutazioni. Il complesso dei g. di un organismo è chiamato genoma.
I confini di un g. sono definiti dai punti in cui la trascrizione inizia e finisce. All’interno c’è la regione codificante, formata dalla sequenza nucleotidica che costituisce il trascritto primario, che viene poi tradotto nella sequenza amminoacidica della corrispondente proteina. Il codone (➔) di inizio di solito è un ATG (➔ codice genetico), mentre i codoni di terminazione possono essere TAA, TAG, o TGA. A entrambi i lati della regione codificante abbiamo sequenze di DNA che vengono trascritte ma non tradotte, e che rappresentano elementi di controllo della sintesi proteica: una regione detta promotore, a controllo dell’espressione genica, responsabile dell’attacco della RNA polimerasi che consente l’inizio della trascrizione; un sito di inizio della trascrizione (cap sequence) alla estremità 5′ dell’RNA; una regione non tradotta all’estremità 3′ (o 3′ UTR); una coda poliadenilica (polyA) che costituisce un segnale di protezione per il trascritto; regioni regolative distali (enhancer) e silenziatori. Nei g. eucariotici sono presenti sequenze non tradotte, dette introni, situate tra singole zone codificanti (esoni), che vengono eliminate attraverso la maturazione del trascritto primario (➔ splicing). La maggior parte dei g. nei procarioti è priva di introni e consta di un unico filamento ininterrotto di DNA codificante, definito cistrone. I g. procariotici sono spesso disposti in operoni, regioni in cui diversi g. vicini tra loro sono sotto il controllo di un unico promotore. Nel genoma procariotico la densità genica è molto alta, infatti circa l’80% del genoma è costituito da g. che codificano proteine.
G. Mendel, verso la metà dell’Ottocento, definì le regole alla base dei processi ereditari, postulando l’esistenza di caratteri che vengono trasmessi da una generazione alla successiva. Nel 1909 il botanico danese W. Johanssen introdusse il termine gene per indicare l’elemento unitario associato a un carattere ereditario, pur senza conoscerne le basi fisico-chimiche. Nel 1910 T. Morgan, con i suoi esperimenti sulla drosofila, dimostrò che i g. sono situati sui cromosomi, in una sequenza lineare. Nel 1941 G. Beadle ed E. Tatum introdussero il concetto per cui ogni g. produce una proteina. Nel 1944 O. Avery, C. MacLeod e M. McCarty dimostrarono che i g. sono fatti di DNA. Il modello di struttura del DNA proposto da J.D. Watson e F.H.C. Crick (1953) permise di meglio definire il g. come unità chimica e funzionale. Negli anni successivi anche grazie alla decifrazione del codice genetico venne postulato il dogma della biologia molecolare secondo cui il flusso dell’informazione genica è unidirezionale e va dal DNA all’RNA e alle proteine. Nel 1977 R. Roberts e P. Sharp scoprirono che i g. possono essere divisi in segmenti (esoni), suggerendo l’idea che a un g. possa essere associata la produzione di più proteine.
Negli anni Ottanta sono stati messi a punto algoritmi computazionali che hanno permesso l’identificazione dei g. sulla base delle caratteristiche delle loro sequenze, e dell’omologia fra regioni conservate. Il Progetto internazionale ENCODE (Encycopedia of DNA elements), reso possibile dal completamento del Progetto Genoma umano nel 2003, ha l’obiettivo di caratterizzare con metodi informatici e su larga scala tutte le sequenze che compongono il genoma umano e i trascritti da esse derivati (trascrittoma). Da questo studio sistematico sono emerse molteplici caratteristiche del genoma umano che hanno reso obsoleta la definizione classica di «un gene, una proteina», o quella di g. come unità di trascrizione. Infatti oggi sappiamo che una parte notevole dei g. non codifica proteine e che uno stesso locus genico può codificare una grande varietà di trascritti e proteine attraverso siti di inizio e di terminazione della trascrizione alternativi, e siti di splicing alternativi. In alcuni casi lo splicing alternativo può generare RNA messaggeri che codificano proteine non correlate tra loro, usando differenti schemi di lettura del codice. Secondo diversi dati, infine, la disposizione dei g. non è sempre contigua ma spesso si hanno diversi g. sovrapposti l’uno con l’altro, sia sullo stesso filamento di DNA che su filamenti opposti. L’idea che emerge, dunque, è che i g. siano un unico continuum lungo il genoma, e che un prodotto genico funzionale sia dato dall’unione coerente di tutte le sequenze che lo codificano.