Proteomica
di Gennaro Marino
SOMMARIO: 1. Introduzione: a) dalle proteine alla proteomica; b) definizioni. ▭ 2. Metodologie: a) l'elettroforesi bidimensionale (2DE); b) la spettrometria di massa per l'identificazione delle proteine; c) la proteomica di seconda generazione. ▭ 3. Le applicazioni della proteomica: a) i profili di espressione (proteomica dell'espressione); b) interazioni proteina-proteina/e (proteomica delle interazioni); c) fosforilazione delle proteine (fosfoproteomica). ▭ 4. Prospettive. ▭ Bibliografia.
1. Introduzione.
I grandi progetti che alla fine del XX secolo hanno avuto come obiettivo la determinazione della sequenza di interi genomi, incluso quello dell'uomo, hanno contribuito anche a rinnovare l'interesse per lo studio delle proteine. Anche se i progetti di genomica consentono, in teoria, di ottenere, sulla base dell'universalità del codice genetico, le successioni degli amminoacidi codificati da tutti geni e, quindi, le sequenze di tutte le proteine di un determinato organismo, ciò non è sufficiente a descrivere il funzionamento della macchina cellulare che, in effetti, dipende da una serie di aspetti difficilmente decifrabili del messaggio genico (v. Fields, 2001). Questi aspetti, che riguardano essenzialmente la qualità e la dinamica dei processi di maturazione successivi a quelli di trascrizione e di traduzione, richiedono il superamento delle metodologie tradizionali. D'altra parte i successi dei progetti di sequenziamento dei genomi hanno posto le basi per lo studio dei fenomeni biologici con metodologie globali, in generale descritte dal suffisso '-omica'. Gli studi moderni sul DNA, sull'RNA e sulle proteine si collocano, rispettivamente, nell'ambito della genomica (oggetto di un articolo in questo stesso volume), della trascrittomica e della proteomica.
La moderna ricerca nel campo della proteomica non può, tuttavia, prescindere dai risultati conseguiti dalla scienza delle proteine nel corso del suo sviluppo storico, che ripercorreremo molto brevemente, potendo il lettore trovare maggiori approfondimenti in altri articoli di questa enciclopedia (v. proteine, vol. V; v. macromolecole, struttura delle, vol. XI).
a) Dalle proteine alla proteomica.
Già nel lontano 1830 Jacob Berzelius, il fondatore della chimica fisiologica, nel coniare il termine 'proteine' aveva intuito che il ruolo svolto negli organismi viventi da questi particolari 'colloidi' doveva essere di primaria importanza. Tuttavia, soltanto nel 1954 Fred Sanger, con un risultato di valore almeno equivalente a quello del sequenziamento del genoma umano, determinò per la prima volta la struttura chimica di una proteina: l'insulina. Sanger fu insignito del premio Nobel per questa scoperta nel 1958 e ricevette il prestigioso riconoscimento una seconda volta, nel 1980, per aver messo a punto la principale tecnica di sequenziamento del DNA (v. Sanger, 1988). Gli anni successivi videro il fiorire di grandi scuole di chimica delle proteine che, grazie anche all'ausilio di metodi automatizzati per la determinazione della sequenza degli amminoacidi, produssero un numero rilevante di strutture primarie di proteine, tanto da consentire, già a partire dal 1965, la pubblicazione di un catalogo di sequenze (v. Dayhoff, 1965-1978).
Quando però, intorno agli anni ottanta, si svilupparono metodologie semplici ed efficienti per lo studio delle sequenze del DNA, tra cui il metodo di Sanger, l'interesse per il sequenziamento completo delle proteine scemò. I progetti di sequenziamento dei vari genomi - dai microbi, al lievito, all'uomo -, iniziati in quegli anni contestualmente alla nascita della genomica, ebbero il loro coronamento nel febbraio del 2001, con la colossale impresa della definizione dell'ordine con cui si succedono i tre miliardi di caratteri che definiscono il genoma dell'uomo (v. anche genoma, vol. X).
Occorre ricordare che parallelamente all'affermarsi della genomica, lo studio delle proteine veniva completamente rivoluzionato. Le tecniche di trasferimento di materiale genetico avevano reso possibile, sempre intorno agli anni ottanta, l'espressione dei geni di organismi eterologhi in organismi facili da coltivare e riprodurre, come ad esempio Batteri, lieviti, Insetti. Una volta sequenziato il gene codificante era quindi possibile studiare con maggiore facilità la proteina codificata in quanto si riusciva a ottenerla in quantità relativamente elevate, talvolta impensabili se si fossero utilizzate metodologie estrattive. Pertanto l'attenzione dei biochimici delle proteine si rivolse, negli anni ottanta e novanta, alla caratterizzazione della struttura tridimensionale delle proteine e all'analisi delle modifiche successive alla traduzione del messaggio genetico. Tali modifiche, definite anche 'post-traduzionali', sono legate non solo alla fisiologia della cellula, ma possono dipendere anche da una serie di stimoli o di trattamenti esterni alla cellula stessa. Naturalmente queste modifiche sono catalizzate, nonché definite spazialmente e temporalmente, da proteine codificate da altri geni, la cui regolazione può, eventualmente, dipendere da altre proteine a loro volta opportunamente modificate. Pertanto, la specie molecolare che in un preciso momento del ciclo vitale svolge la sua specifica funzione è il risultato dell'incastro di innumerevoli scatole cinesi. In altri termini, una proteina, nella sua realtà funzionale, è il risultato di una fitta e coordinata rete di messaggi che partono dai geni e ai geni ritornano. Con una metafora ardita, si potrebbe definire una proteina come un punto di un iperspazio di cui la sequenza del gene codificante costituisce solo una delle n dimensioni.
Né lo studio dei singoli geni né quello delle singole proteine danno conto, quindi, degli eventi dinamici che realizzano il ciclo vitale. Tali eventi possono essere descritti con maggior precisione solo all'interno di un quadro globale dei destini dei prodotti dell'espressione genica. La proteomica è appunto lo studio della globalità delle proteine, nella loro attualità funzionale, e rappresenta l'evoluzione della chimica delle proteine del XX secolo. Naturalmente non sarebbe possibile affrontare questo tipo di studi senza la disponibilità delle banche dati genomiche e dei mezzi informatici che ne consentono la consultazione (v. bioinformatica, vol. XII) e, soprattutto, senza lo sviluppo di tecnologie e metodologie sofisticate di separazione e di identificazione delle proteine. Queste costituiscono l'essenza della proteomica e verranno descritte nel seguito di questo articolo.
b) Definizioni.
Ci sembra necessario premettere alla descrizione delle tecnologie e delle metodologie della proteomica alcune considerazioni relative alla terminologia. Si riconosce al ricercatore australiano Marc Wilkins il merito di aver coniato nel 1994 il vocabolo 'proteoma' - un termine derivato da 'proteine' e 'genoma' - per indicare l'intero complesso dei prodotti dell'espressione di un genoma. Come si è detto in precedenza, il proteoma ha un significato dinamico, a differenza del concetto statico di genoma, poiché in corrispondenza di stimoli, interni o esterni alla cellula, i prodotti dell'espressione del genoma possono variare notevolmente. Si può quindi affermare che a un genoma corrisponde una molteplicità di proteomi il cui limite superiore, almeno per ora, non è definibile. È importante sottolineare che la regolazione dell'espressione genica, nella sua eccezionale capacità di modulazione, rappresenta un continuo che si estende per almeno nove ordini di grandezza; di conseguenza, una singola proteina in un proteoma può essere differentemente rappresentata da una a un miliardo di volte. La proteomica può essere quindi definita come lo studio dei proteomi nella loro complessità. Da questa definizione di carattere del tutto generale discendono varie altre definizioni di proteomica che, opportunamente specificate o aggettivate, si riferiscono agli obiettivi specifici che l'approccio proteomico intende affrontare. Questi obiettivi possono riguardare gli aspetti meramente strutturali (proteomica strutturale) oppure quelli funzionali (proteomica funzionale). Tuttavia, poiché non esiste un largo consenso su tali definizioni, si preferisce, in questo contesto, far riferimento alle applicazioni dell'approccio proteomico, al fine di: a) valutare le variazioni dei livelli di espressione di alcune proteine in conseguenza di opportuni stimoli e/o di condizioni fisio-patologiche, oppure, a uno stadio di sofisticazione maggiore, l'entità delle modifiche post-traduzionali (fosforilazione, glicosilazione, ecc.) in termini sia qualitativi (siti di modificazione) che quantitativi; b) analizzare le interazioni che le proteine stabiliscono, in relazione ai suddetti stimoli e/o condizioni, con altre proteine, definendo una sorta di 'sociologia' delle proteine da cui dipendono fenomeni vitali fondamentali come la crescita cellulare, il differenziamento e la morte programmata; c) integrare gli approcci tradizionali della biologia strutturale (diffrazione ai raggi X, spettroscopie di risonanza) con informazioni relative ai particolari vincoli strutturali che definiscono la topologia delle proteine oggetto di studio; d) identificare le proteine che interagiscono specificamente con ligandi naturali e di sintesi al fine di comprendere, per esempio, i meccanismi di azione di farmaci. Per ragioni di spazio solo alcune di tali applicazioni verranno illustrate in seguito con maggiore dettaglio.
2. Metodologie.
La proteomica si basa essenzialmente su due differenti passaggi analitici consecutivi: la separazione delle proteine che costituiscono il proteoma e la loro successiva identificazione individuale. I primi studi oggi definibili di proteomica si possono far risalire alla metà degli anni settanta, quando la tecnica dell'elettroferesi bidimensionale (2DE, 2 Dimension Electrophoresis) permise di ottenere una mappa dell'insieme delle proteine presenti in cellule sia procariotiche che eucariotiche. Tuttavia, non c'erano in quel momento sistemi altrettanto efficienti e sensibili per l'identificazione delle proteine stesse, né d'altra parte erano disponibili banche dati di sequenze di una certa consistenza. Solo quindici anni dopo furono messi a punto metodi di sequenziamento delle bande proteiche a livello sub-nanomolare mediante l'impiego del sequenziatore in fase gassosa. Con questo metodo, però, era possibile identificare solo le proteine più abbondanti e, per via comparativa, solo quelle la cui sequenza completa era già stata determinata, eventualmente dedotta dalla sequenza del gene codificante e resa disponibile in un primo tempo in cataloghi e successivamente in banche dati. La nascita della moderna proteomica, pertanto, è strettamente legata alla possibilità di accedere alle informazioni derivate dal sequenziamento dei genomi. In seguito, l'evoluzione della spettrometria di massa ha radicalmente cambiato i tempi e i metodi di analisi dei proteomi. L'elevatissima sensibilità e l'ampio intervallo dinamico di analisi di questo tipo di strumentazione rispondono pienamente alle esigenze della proteomica così come sono state delineate all'inizio di questo articolo. Si può sostenere che l'impiego dello spettrometro di massa nella fase di identificazione ha consentito di superare una serie di limiti dell'elettroforesi bidimensionale, suggerendo soluzioni metodologiche non più dipendenti da questo sistema di separazione. Nei paragrafi che seguono saranno descritti i principali metodi di separazione e di identificazione utilizzati in proteomica.
a) L'elettroforesi bidimensionale (2DE).
L'impiego di tecniche ortogonali di separazione in biochimica può esser fatto risalire alla fine degli anni cinquanta, con l'introduzione dell'elettroforesi ad alto voltaggio combinata con la cromatografia di ripartizione su supporto cartaceo per la separazione dei peptidi. Restano fondamentali gli studi di Vernon Ingram, il quale, lavorando nello stesso laboratorio di Sanger, introdusse la mappa peptidica come impronta identificativa ( fingerprint) di una proteina dopo proteolisi con una proteasi specifica (v. Ingram, 1958). Tali approcci consentirono la rapida identificazione delle varianti dell'emoglobina umana, sfruttando il differente comportamento in termini di carica netta e/o di costante di ripartizione dell'unico peptide mutato, le cui coordinate nell'elettrocromatogramma bidimensionale non corrispondevano a quelle dei peptidi presenti nella mappa della proteina normale. In quegli anni si diffondeva l'uso dei gel di poliacrilammide come supporto per la separazione elettroforetica delle proteine e si imposero, come tecniche a elevata risoluzione, l'elettroforesi in presenza di un detergente anfifilico, il dodecilsolfato di sodio (SDS), e l'elettroforesi in un gradiente naturale di pH (elettrofocalizzazione). L'utilizzazione ortogonale di queste due tecniche separative - che sfruttano essenzialmente due parametri caratteristici delle proteine, vale a dire la carica netta valutata in termini di punto isoelettrico (pI ) e la grandezza molecolare valutata in termini di peso molecolare (Mw, Molecular weight) - verso la metà degli anni settanta portò, come si è detto, all'introduzione dell'elettroforesi bidimensionale su gel di poliacrilammide come tecnologia d'elezione per la separazione di miscele proteiche particolarmente complesse (v. O'Farrell, 1975). Nella 2DE si utilizza nella prima dimensione la separazione in funzione del punto isoelettrico, quindi si sottopongono le proteine così frazionate all'ulteriore processo elettroforetico ortogonale in presenza di SDS che separa le proteine in funzione del peso molecolare. Le proteine vengono evidenziate come macchie a seguito del trattamento del gel con sistemi di colorazione (blu di Comassie, argento od oro colloidale, coloranti fluorescenti) e descrivono una complessa mappa elettroforetica in funzione delle due coordinate, Mw e pI (v. fig. 1). Naturalmente, la riproducibilità di tale mappa dipende da una molteplicità di fattori e ha costituito per molti anni uno dei punti deboli di questa tecnica. Tuttavia, l'introduzione dei gradienti immobilizzati di pH nella prima dimensione ha consentito non solo di ottenere una riproducibilità notevolmente maggiore, ma anche di coprire intervalli di pH più ampi (pH 3 ÷ 12) di quelli ottenibili con gli anfoliti in soluzione, di utilizzare una maggiore quantità di proteine senza disturbare il gradiente di pH, di ottenere separazioni in intervalli estremamente ristretti di pH (fino a un'unità di pH) e conseguentemente un'elevatissima risoluzione nella prima dimensione. Questo e altri accorgimenti sperimentali, insieme con sempre più potenti sistemi di scansione e di ricostruzione di immagini, hanno permesso di costruire importanti banche dati proteomiche, come ad esempio quella reperibile in ExPASy, che riportano le separazioni bidimensionali di proteine di svariati organismi, tessuti e linee cellulari (v. tab. I). È da sottolineare che la ricostruzione computerizzata delle immagini consente anche una valutazione quantitativa delle bande proteiche e quindi la determinazione dei livelli di espressione in particolari condizioni fisiopatologiche.
Appare evidente che il sistema di separazione così ottimizzato richiede un sistema di identificazione rapido, sensibile e affidabile delle macchie di interesse. All'inizio ci si affidava alla composizione in amminoacidi o alla determinazione della sequenza N-terminale e alla successiva comparazione dei dati di sequenza ottenuti con quelli presenti nelle banche dati. Tuttavia, questi metodi presentavano serie limitazioni in termini di affidabilità, di rapidità di esecuzione e di sensibilità. A partire dagli anni novanta, grazie anche all'introduzione di nuovi accorgimenti strumentali, la spettrometria di massa si è imposta come strumentazione elettiva per l'identificazione delle proteine.
b) La spettrometria di massa per l'identificazione delle proteine.
Ricordiamo brevemente che uno spettrometro di massa è costituito dalle seguenti unità modulari: un sistema di introduzione del campione; un sistema di produzione degli ioni corrispondenti alle molecole neutre introdotte (sorgente); uno o più sistemi di separazione, in funzione del rapporto massa/carica, degli ioni prodotti e di eventuali frammenti da essi generati (analizzatori); un rivelatore con relativa amplificazione dei segnali gestito da potenti sistemi informatici.
L'identificazione di una proteina mediante spettrometria di massa avviene, come nel caso del fingerprint, attraverso l'analisi dei peptidi generati utilizzando proteasi specifiche (tripsina, Asp-N proteinasi, Glu-C proteinasi). In questo caso, tuttavia, i peptidi sono caratterizzati non più dai loro parametri chimico-fisici come polielettroliti, ma più semplicemente dalla loro massa attraverso la determinazione, effettuata dallo spettrometro di massa, dei loro pesi molecolari. Il principio dell'identificazione delle proteine mediante spettrometria di massa è abbastanza semplice e si basa sull'osservazione che proteine con una diversa sequenza amminoacidica, in seguito all'azione di una proteasi specifica, generano un insieme discreto di peptidi, definiti dalla loro massa, che è unico per quella proteina. In particolare, la banda proteica di un gel bidimensionale, la cui colorazione è effettuata in modo tale da non interferire con la successiva analisi, viene direttamente trattata con proteasi (analisi in gel) generando una miscela di peptidi. La miscela peptidica viene direttamente esaminata con lo spettrometro di massa, ottimizzando la procedura analitica per ottenere il maggior numero di segnali che consentano di valutare con la massima accuratezza possibile, anche in relazione alla strumentazione disponibile, i valori delle masse degli ioni molecolari. Questi valori sono confrontati, per mezzo di opportuni programmi facilmente accessibili in rete (v. tab. I), con le masse teoriche dei peptidi ottenuti simulando una digestione proteica dello stesso tipo di quella utilizzata dallo sperimentatore su tutte le sequenze proteiche presenti nelle banche dati. Il programma fornisce il risultato come punteggio di probabilità statistica, punteggio che sarà tanto più elevato quanto più numerosi e precisi saranno i dati sperimentali. È possibile verificare, per esempio, che i valori monoisotopici di massa di solo quattro peptidi triptici della mioglobina di cavallo sono sufficienti a identificare la proteina in una banca dati contenente le sequenze di tutte le proteine dei Mammiferi solo e soltanto come mioglobina e la specie come Equus caballus. In caso di dubbi la procedura può essere iterata utilizzando un diverso agente proteolitico e verificando poi la convergenza del risultato statistico. La metodologia di identificazione è rappresentata schematicamente nella fig. 2.
Per questo tipo di analisi viene utilizzato come sistema di ionizzazione il MALDI (Matrix Assisted Laser Desorption Ionization), in cui si sfrutta la radiazione laser per indurre la produzione di ioni molecolari protonati degli analiti opportunamente incorporati in matrici di natura organica. Di solito le sorgenti MALDI sono accoppiate con analizzatori a tempo di volo (Time Of Flight, TOF) che misurano il rapporto massa/carica degli ioni generati nella sorgente sulla base del tempo che questi impiegano nel percorrere uno spazio definito in assenza di campi elettrici e magnetici. Con questi apparecchi, purché dotati di particolari accorgimenti per evitare dispersioni di energia degli ioni, si riesce a ottenere una misura delle masse dei peptidi con una precisione alla seconda cifra decimale. Risulta evidente che a una maggiore precisione della misura corrisponde un numero minore di peptidi con masse isobariche, cosa che si traduce in un vantaggio in termini di tempi di esecuzione del programma e di affidabilità del punteggio probabilistico. L'approccio descritto è valido soprattutto per lo studio di proteomi non particolarmente complessi e inoltre può essere completamente automatizzato, dall'individuazione della banda proteica da analizzare fino all'elaborazione del dato informatico.
Tuttavia, il metodo soffre di alcune limitazioni intrinseche. Oltre a quelle relative al processo di separazione, cui abbiamo già fatto cenno, sussistono dei problemi per quanto riguarda il processo di identificazione. Il metodo risulta inadeguato nel caso in cui si disponga di banche dati di EST (Expression Sequence Tags); infatti, poiché questi segmenti di DNA spesso rappresentano soltanto porzioni di sequenze codificanti e quindi non coprono l'intera sequenza della proteina, un notevole numero di valori di massa ottenuti dalla mappa peptidica non risulta giustificato. Altrettanto problematico è il caso in cui la banda proteica analizzata non è costituita da un'unica specie molecolare. Dato che la miscela di peptidi ha origine da più proteine, il risultato fornito dal programma di elaborazione dei dati di massa sarà ambiguo e di difficile interpretazione. Va comunque sottolineato che anche nel caso di un'identificazione con un elevato valore di probabilità, non tutti i peptidi teoricamente prevedibili vengono rilevati dallo spettrometro di massa e non tutti i valori di massa ottenuti si ritrovano nell'elenco di quelli teorici della digestione in silico. Nel primo caso si tratta generalmente di problemi dovuti alla diversa efficienza di ionizzazione dei peptidi, o ad artefatti che rendono alcuni peptidi non rilevabili all'analisi. Tuttavia, poiché è sufficiente un numero relativamente limitato di valori sperimentali rispetto a tutti quelli teorici, questa situazione non viene avvertita come particolarmente problematica. Molto più critico è il secondo aspetto, e perciò è importante capire le ragioni della presenza, nello spettro di massa, di segnali non giustificati dalla sequenza della putativa proteina di origine. Le variazioni rispetto alle masse attese possono essere dovute a: modifiche post-traduzionali (per esempio, in seguito a fosforilazione si osserva un incremento di 80 Da per ogni residuo modificato); modifiche dovute ad artefatti (è tipico il caso delle ossidazioni dei residui di metionina con un incremento di 16 Da); maturazioni proteolitiche (per esempio, per effetto di amminopeptidasi e/o di carbossipeptidasi); impurità delle proteasi usate per ottenere la mappa peptica (per esempio, presenza di attività chimotriptica in campioni di tripsina); presenza di altre componenti proteiche (per esempio, cheratine della pelle dell'operatore per la scarsa attenzione nella manipolazione dei campioni).
Una limitazione intrinseca di questa metodologia è dovuta al fatto che per effetto di permutazioni nella sequenza amminoacidica si possono ottenere più specie molecolari isobariche, ovvero a un valore di massa, anche notevolmente accurato, può corrispondere una molteplicità di peptidi. Tuttavia, le successioni degli amminoacidi che costituiscono i peptidi isobari sono differenti. È evidente allora che la ricerca in banche dati, permettendo di combinare i valori delle masse della mappa peptidica con le informazioni di sequenza, è da considerarsi decisamente più affidabile. Infatti, in questo caso il programma di ricerca fornirà tutte le sequenze proteiche che contengono la sequenza del peptide analizzato. È inoltre evidente che a una maggiore quantità di dati sperimentali - sequenze sufficientemente lunghe (〉 5 residui) o più peptidi sequenziati - corrisponderà una risposta generalmente non ambigua. Ancora una volta la spettrometria di massa ha consentito di fornire risposte più sensibili (a livello di femtomoli) e più rapide (qualche minuto di analisi) rispetto ai metodi di sequenziamento degli anni ottanta. Utilizzando spettrometri di massa dotati di un secondo analizzatore è possibile ottenere uno spettro di massa dei frammenti dei peptidi separati con il primo analizzatore, e quindi dallo spettro di frammentazione risalire alla sequenza amminoacidica. La successione degli eventi analitici può essere considerata la seguente: 1) il primo analizzatore dello spettrometro di massa separa i peptidi, ottenuti per proteolisi della banda proteica di interesse, nella loro forma ionizzata; 2) il secondo analizzatore separa i frammenti ottenuti da ciascun peptide ionizzato, la cui frammentazione viene indotta in un'opportuna camera di collisione che, fisicamente, lo precede; 3) dallo spettro di massa dei frammenti peptidici si deduce la sequenza del peptide. Non è possibile in questa sede scendere in ulteriori dettagli. Basterà accennare al fatto che gli spettri di frammentazione si possono far risalire a frammentazioni statistiche del legame ammidico, con la conseguente generazione di due serie di ioni che ritengono la carica sulla parte N-terminale (ioni di tipo b) o su quella C-terminale (ioni di tipo y), come mostrato in fig. 3 per un generico ottapeptide. La fig. 4 riporta l'interpretazione dello spettro di frammentazione di un peptide, in particolare dei frammenti di tipo b, che permette di ricostruire una sequenza amminoacidica. Successivamente questa informazione, fornita a una banca dati mediante uno dei programmi disponibili in rete (v. tab. I), consente l'identificazione della proteina oggetto di analisi.
Gli spettrometri di massa che consentono analisi di questo tipo nel tempo si sono evoluti in termini di complessità, e quindi di costi, dimensioni e sensibilità. Dagli strumenti dotati di due analizzatori magnetici (tandem MS) della metà degli anni ottanta si è passati a quelli dotati di più analizzatori di tipo quadrupolo (Q), di trappola ionica (IT o FT-ICR), di quadrupolo e TOF ortogonale (Q-TOF) e di due analizzatori a tempo di volo (TOF-TOF). Occorre notare che solo nel caso di quest'ultimo strumento, peraltro da poco disponibile commercialmente, viene utilizzata la sorgente MALDI, laddove nel caso degli strumenti con analizzatori quadrupolari si usa la sorgente a ionizzazione per elettro-nebulizzazione (Electro-Spray Ionization, ESI). In questo tipo di sorgente gli analiti in soluzione, opportunamente purificati da sali con un passaggio cromatografico, vengono introdotti attraverso un capillare nella sorgente stessa che, per effetto combinato del vuoto spinto e di un'opportuna differenza di potenziale, genera dal campione nebulizzato ioni a carica multipla. Questo tipo di sorgente è stato successivamente ottimizzato con l'introduzione del sistema nanospray che, facendo uso di un microcapillare con flussi di qualche nl/min, consente un tempo di residenza in sorgente dell'analita dell'ordine dei minuti, con un notevole incremento del rapporto segnale/rumore. Gli spettrometri ES-nanospray con i doppi analizzatori, in particolare quadrupolo e tempo di volo ortogonale, collegati a un cromatografo capillare hanno rivoluzionato la pur breve storia della proteomica (per un'eccellente rassegna sull'impiego della spettrometria di massa in proteomica, v. Mann e altri, 2001).
Una volta riconosciuta l'enorme potenzialità di questo sistema, molti ricercatori hanno valutato l'opportunità di non utilizzare più l'elettroforesi bidimensionale come sistema di separazione; sono state così suggerite e messe a punto nuove metodologie di separazione che meglio si integrano con questo potente sistema di analisi.
c) La proteomica di seconda generazione.
La proteomica di seconda generazione nasce dall'idea che, invece di separare le proteine per poi ottenere da ciascuna banda separata i peptidi da analizzare, il sistema poteva essere reso più efficiente sottoponendo a proteolisi, per esempio con tripsina, l'intero proteoma di un sistema cellulare o di una frazione subcellulare e quindi, dopo separazione cromatografica, sequenziando direttamente i peptidi con uno spettrometro di massa del tipo descritto sopra. In questo modo viene apparentemente esasperato il problema analitico, giacché la complessità della miscela da separare aumenta di almeno un ordine di grandezza. Tuttavia, è possibile sfruttare l'elevatissimo potere risolutivo della cromatografia capillare (in qualche caso è stata impiegata anche l'elettroforesi capillare), che è ben più elevato di quello dell'elettroforesi bidimensionale. L'approccio metodologico che ha avuto il maggiore successo consiste nell'impiego di un sistema cromatografico capillare multidimensionale, combinando la separazione a scambio ionico con quella su fase inversa, e di una potente piattaforma informatica per la ricostruzione della sequenza dei peptidi dagli spettri di frammentazione e per l'interrogazione delle banche dati. La limitazione maggiore di questa metodologia è legata al fatto che in questo modo sono assai difficili studi di carattere differenziale, nel caso in cui si sia interessati principalmente alle variazioni di livelli dell'espressione. Una metodologia innovativa, intesa anche a rispondere alle problematiche quantitative della proteomica differenziale, è stata proposta da Ruedi Aebersold e collaboratori (v. Gygi e altri, 1999). Tale metodologia si basa sull'uso di una molecola, denominata Isotope Coded Affinity Tag (ICAT), la cui struttura è riportata nella fig. 5.
Il principio di funzionamento del metodo (v. fig. 6) è, in breve, il seguente. I proteomi corrispondenti a due condizioni cellulari di interesse vengono opportunamente ridotti per rendere tutti i residui di cisteina disponibili alla reazione di alchilazione da parte dell'ICAT. Il reattivo verrà utilizzato sia nella sua forma 'leggera', ovvero contenente il braccio molecolare senza atomi di deuterio, sia in quella 'pesante', contenente il braccio molecolare con 8 atomi di deuterio, rispettivamente per il proteoma dello stato A e quello dello stato B. I due campioni vengono riuniti e sottoposti a un'estesa proteolisi. I peptidi ottenuti vengono analizzati mediante cromatografia di affinità utilizzando un supporto derivatizzato con avidina (una proteina che forma complessi dotati di notevoli costanti di stabilità con la biotina) che consente di trattenere solo i peptidi marcati dall'ICAT, in questo modo semplificando notevolmente la complessità della miscela. I peptidi marcati, opportunamente eluiti, vengono successivamente frazionati mediante cromatografia capillare, eventualmente bidimensionale, e analizzati con uno spettrometro di massa. A ciascun peptide corrisponderanno due valori di peso molecolare che differiranno di 8 Da, con un rapporto di intensità che può essere direttamente correlato a quello delle proteine da cui provengono, presenti nelle due diverse condizioni cellulari. Questa prima fase di analisi, pertanto, evidenzierà immediatamente i peptidi di interesse, giacché in tale fase potranno essere trascurati quelli relativi a proteine egualmente rappresentate nelle due condizioni. Una successiva analisi MS-MS consente di determinare la sequenza dei peptidi di interesse e di identificare le proteine la cui espressione è variata per effetto delle diverse condizioni delle popolazioni cellulari dello stato A e dello stato B. Va rilevato che, poiché la reazione di alchilazione viene condotta in condizioni di completa denaturazione, possono essere evidenziate tutte quelle proteine la cui identificazione è problematica nel caso della 2DE. Infine, il metodo dell'ICAT consente di individuare i bersagli molecolari, di particolare interesse in studi comparativi, con maggiore rapidità e con una maggiore affidabilità della 2DE.
Tuttavia, è importante precisare che l'ICAT non consente l'identificazione delle proteine prive di residui di cisteina, che in alcuni organismi possono rappresentare fino al 20% del proteoma. Per ovviare a questo inconveniente è possibile utilizzare l'ICAT con gruppi reattivi che consentono la marcatura isotopica di altri gruppi funzionali presenti nelle proteine. Recentemente Aebersold e collaboratori (v. Zhou e altri, 2002) hanno descritto una metodologia che si basa sulla marcatura delle proteine non più in fase liquida, ma su supporto polimerico. Il metodo necessita ancora di una verifica al di fuori di sistemi modello, ma si può affermare che, in caso di successo, questo approccio costituirà nel campo della proteomica una vera rivoluzione, comparabile con quella introdotta da R. Bruce Merrifield nel campo della sintesi dei peptidi negli anni settanta.
3. Le applicazioni della proteomica.
Per limiti di spazio è impossibile descrivere in questa rassegna le molteplici applicazioni che la proteomica trova attualmente nei campi più svariati, dall'ingegneria metabolica, all'identificazione di marcatori diagnostici molecolari, allo sviluppo di nuovi farmaci. Ci limiteremo pertanto ad accennare solo ad alcuni aspetti principali che a nostro avviso possono consentire al lettore di apprezzare le potenzialità applicative di questa nuova disciplina scientifica.
a) I profili di espressione (proteomica dell'espressione).
Come si è accennato nel cap. 1, il più semplice degli obiettivi della proteomica, come complemento della genomica, è quello meramente descrittivo, e riguarda la localizzazione, la qualità e la quantità dei prodotti di espressione in alcune determinate condizioni di interesse per la fisiologia o la patologia della cellula. Questo tipo di applicazione, che prende genericamente il nome di 'profilo di espressione', ha una rilevante importanza nell'identificazione di marcatori molecolari e di bersagli terapeutici in alcune patologie umane. Numerose malattie vengono attualmente studiate con queste metodologie, in particolare quelle cardiache e quelle di origine tumorale. Per queste ultime si dimostra particolarmente adatta la proteomica differenziale, in quanto il proteoma delle cellule trasformate può essere direttamente confrontato con quello delle cellule normali. In questo modo è possibile porsi una serie di importanti obiettivi, come ad esempio identificare nuovi marcatori per un diagnostica precoce, comprendere le fasi e i meccanismi di sviluppo delle malattie tumorali, identificare nuovi bersagli molecolari per opportuni interventi terapeutici. Particolarmente importante, in questo contesto, è la banca dati dedicata ai proteomi delle linee cellulari tumorali (indirizzo web: http://proteomics.cancer.dk).
b) Interazioni proteina-proteina/e (proteomica delle interazioni).
È ben noto che molte delle funzioni cellulari non vengono svolte dalle proteine come entità individuali, ma in combinazione con altre componenti proteiche che, stabilendo una serie di interazioni specifiche, intervengono e condizionano la realtà funzionale di una data proteina. L'iterazione di questo processo dà origine a vere e proprie reti molecolari, dotate di nodi e di diramazioni, che, in definitiva, creano dei circuiti in cui la trasmissione delle informazioni viene regolata da variazioni conformazionali, modificazioni reversibili (ponti disolfurici, fosforilazioni, ecc.), formazioni di complessi con sequenze oligonucleotidiche, sia deossiribo- che ribo-, con ioni e/o metaboliti. Le proteine che si organizzano in questi sistemi costituiscono dei veri e propri subproteomi, per cui lo studio con il metodo del 'doppio ibrido' ha consentito di ottenere i primi significativi risultati. Questo metodo si basa essenzialmente sull'uso di una proteina-esca che, formando un complesso con una proteina-preda, attiva la sintesi di una proteina-segnale.
L'approccio proteomico, che ben si integra con quello del doppio ibrido, si basa sull'uso di una proteina-esca che, opportunamente fusa con una o più sequenze polipeptidiche (ad esempio epitopi riconoscibili da specifici anticorpi) può consentire la 'pesca' (fishing for partners) sia in vitro che in vivo, della/e proteina/e partner. I complessi risultanti, le cui costanti di stabilità si assume non siano drasticamente influenzate dalla modifica indotta sull'esca, possono essere purificati mediante cromatografia di affinità e i componenti identificati con le tecnologie proteomiche già descritte. Identificata la preda, si può iterare il procedimento utilizzando la preda come esca e descrivere, così, le relazioni di tipo quasi-sociale che le proteine realizzano nell'esplicare le loro funzioni.
Recentemente il gruppo di Giulio Superti-Furga (v. Gavin e altri, 2002), a Heidelberg, ha descritto la 'organizzazione sociale' di 589 proteine di lievito che creano tra loro circa 200 macrocomplessi, ciascuno dei quali condivide alcuni dei propri componenti molecolari con altri complessi. È stata in questo modo realizzata una mappa topografica delle interazioni che ha messo in evidenza alcune funzioni, finora sconosciute, di molte delle proteine analizzate. Risulta chiaro il vantaggio dell'approccio proteomico rispetto a quello del doppio ibrido, giacché si possono evidenziare, in questo modo, le relazioni multiple che le proteine stabiliscono e quindi costruire, più efficacemente e rapidamente, la mappa delle interazioni.
c) Fosforilazione delle proteine (fosfoproteomica).
La fosforilazione delle proteine costituisce, negli Eucarioti, l'evento chiave nella trasduzione del segnale. Questo evento si realizza attraverso la combinazione delle attività chinasiche e fosfatasiche a livello dei residui di serina, treonina e tirosina di una molteplicità di proteine. Per comprendere appieno questo processo è necessario conoscere le proteine che fungono da substrato di tali sistemi enzimatici, identificare i residui-bersaglio e quantificare l'evento, fosforilazione o defosforilazione, per ciascuno dei bersagli. L'impiego di isotopi radioattivi (32P) e delle tecniche tradizionali di sequenziamento ha, in passato, consentito il chiarimento di molti dettagli molecolari. La proteomica della fosforilazione rappresenta oggi una delle frontiere della ricerca della trasduzione del segnale, perché consente di integrare le precedenti conoscenze relative a singole proteine con gli eventi globali legati alla cascata del segnale. Occorre sottolineare che questa analisi è particolarmente complessa per una serie di ragioni: in primo luogo la fosforilazione è quasi sempre sub-stechiometrica, poiché solo una piccola frazione della popolazione molecolare di una proteina substrato viene modificata in un certo momento in seguito a un segnale, assai spesso transiente; in secondo luogo, i siti di fosforilazione di una proteina substrato possono variare in dipendenza della specificità delle chinasi, generando così una complessa eterogeneità molecolare; infine, le fosfatasi possono modificare il quadro attuale della fosforilazione, e quindi devono essere prese particolari precauzioni durante la preparazione e la purificazione del lisato cellulare.
I metodi della proteomica si basano su un arricchimento preliminare delle fosfoproteine (mediante anticorpi specifici, come nel caso delle proteine con residui di fosfotirosina) o dei fosfopeptidi (mediante colonne di affinità con metalli immobilizzati). La successiva analisi dei fosfopeptidi può procedere utilizzando sia il metodo del mass mapping - paragonando i valori di massa dei peptidi trattati con una fosfatasi e di quelli non trattati, che differiranno tra loro per multipli di 80 Da a seconda del numero di residui fosforilati - sia il sequenziamento con spettrometri MS/MS, sfruttando poi particolari frammentazioni a carico dei residui di fosfotirosina, fosfoserina e fosfotreonina per la loro identificazione e localizzazione nella sequenza. Occorre inoltre osservare che nel caso di modificazioni a livello dei residui di serina e di treonina è possibile sfruttare la reazione di beta-eliminazione cui questi residui danno luogo in condizioni alcaline per generare un doppio legame particolarmente reattivo. Si può quindi introdurre una serie di modifiche a livello dei residui di deidroalanina e di acido deidro-amminobutirrico che rispettivamente si formano, consentendo, per esempio, di estendere la metodologia ICAT per lo studio, anche quantitativo, di queste modifiche (v. Zhou e altri, 2001).
4. Prospettive.
La proteomica, anche se ha sfruttato un bagaglio di conoscenze e di metodologie già note, ha appena iniziato il suo percorso scientifico. Certamente l'ambizioso progetto della mappa del proteoma umano (indirizzo web: http://www.hupo.org) rappresenterà la prossima grande sfida scientifica della proteomica. Occorre sottolineare che, comunque, proprio per la natura dinamica del proteoma, la mappa del proteoma umano non dovrà configurarsi come una catalogazione delle differenti forme di espressione dei circa 40.000 geni dell'uomo, ma piuttosto dovrà proporsi di rilevare le sottili relazioni esistenti tra le condizioni fisio-patologiche dell'individuo e la realizzazione del proprio programma di espressione genica. A tale scopo risulterà cruciale la messa a punto di metodi per un'ancora più rapida analisi di miscele complesse di proteine, comprese quelle di membrana, e di specie transienti e scarsamente rappresentate (forse fino a livello di qualche molecola per cellula). Si può confidare che attraverso la continua integrazione e l'impegno di varie componenti culturali del panorama scientifico sarà possibile affrontare con successo queste sfide con l'obiettivo di arrivare a una comprensione della biologia come sistema.
Bibliografia.
Dayhoff, M. O. (a cura di), Atlas of protein sequence and structure, Washington: National Biomedical Research Foundation, 1965-1978.
Fields, S., Proteomics in genomeland, in "Science", 2001, CCXCI, pp. 1221-1224.
Gavin, A. C. e altri, Functional organization of the yeast proteome by systematic analysis of protein complexes, in "Nature", 2002, CDX, pp. 141-147.
Gygi, S. P. e altri, Quantitative analysis of complex protein mixtures using isotope-coded affinity tags, in "Nature biotechnology", 1999, XVII, pp. 994-999.
Ingram, V. M., Abnormal human haemoglobins. 1. The comparison of normal human and sickle-cell haemoglobins by "fingerprinting", in "Biochimica et biophysica acta", 1958, XXVIII, pp. 539-545.
Mann, M., Hendrickson, R. C., Pandey, A., Analysis of proteins and proteomes by mass spectrometry, in "Annual review of biochemistry", 2001, LXX, pp. 437-473.
O'Farrell, P. H., High resolution two-dimensional electrophoresis of proteins, in "Journal of biological chemistry", 1975, CCL, pp. 4007-4021.
Sanger, F., Sequences, sequences, and sequences, in "Annual review of biochemistry", 1988, LVII, pp. 1-28.
Zhou, H., Ranish, J. A., Watts, J. D., Aebersold, R., Quantitative proteome analysis by solid-phase isotope tagging and mass spectrometry, in "Nature biotechnology", 2002, XX, pp. 512-515.
Zhou, H., Watts, J. D., Aebersold, R., A systematic approach to the analysis of protein phosphorylation, in "Nature biotechnology", 2001, XIX, pp. 375-378.