Systems biology
Nel giugno 2000, una conferenza stampa tenuta alla Casa Bianca dal presidente Bill Clinton annunciò che era stato completato un progetto ambizioso e controverso: il sequenziamento del genoma umano. Alla conferenza parteciparono i leader delle due cordate contrapposte impegnate nel progetto: quella, finanziata da parte pubblica, coordinata da Francis Collins e quella, finanziata da privati, guidata da Craig Venter. La competizione tra i due consorzi era stata, e continuò a essere, molto accesa, ma in fondo utile al più rapido successo dell’iniziativa. I media di tutto il mondo ripresero l’annuncio indicandolo come una svolta epocale non solo per la ricerca biologica, ma della stessa visione antropologica dell’essere umano. Affermarono con sicurezza che il ‘libro della vita’ era ormai decifrato, che ciò che mancava erano solo dettagli e che non c’erano più intralci alla capacità prometeica dell’uomo sulla vita, sua e degli altri esseri viventi. Quando l’eccitazione si fu calmata, apparve chiaro che l’entusiasmo per un indubbio successo scientifico aveva portato a una sopravvalutazione del valore conoscitivo della sequenza del genoma umano.
Prima di tutto si aprì la questione di quante proteine diverse potessero essere codificate dallo stesso genoma: le stime vanno da un minimo di circa 25.000 a un massimo di circa 100.000; infatti, uno stesso gene può codificare per più di una proteina, per es. grazie alla capacità di rimuovere da esso, in modo differenziato, sequenze non codificate (gli introni). Inoltre, confrontando diversi genomi umani, apparve chiara una forte variabilità dei cosiddetti polimorfismi (single-nucleotide polymorphism, SNP), cioè variazioni di un singolo nucleotide in un gene che potrebbero dare origine a proteine con azione biologica diversa. Ma soprattutto sorgeva un problema: avere la sequenza dei diversi geni umani (e quindi quella, putativa, delle corrispondenti proteine) non permette di comprendere come migliaia di diversi prodotti genici interagiscano fra loro determinando le funzioni di una cellula, di un organo, di un intero organismo. La cosiddetta gene ontology, nel caso di proteine dalla funzione biochimica sconosciuta, molto spesso può individuare tale funzione sulla base del riconoscimento, attraverso tecniche bioinformatiche, di particolari sequenze-consenso, assegnando quindi un ruolo catalitico o strutturale. Tale individuazione è però possibile solo per circa il 50% dei prodotti genici.
Tuttavia, rimaneva del tutto irrisolta la questione più rilevante: come vengono determinate le funzioni biologiche, o anche solo cellulari, quando esse derivano dall’interazione di molti prodotti genici? Infatti, appariva sempre più un’eccezione la condizione a cui applicare il dogma dei primi anni della biologia molecolare: un gene, una proteina, una funzione. Nella maggior parte dei casi, molti prodotti genici cooperano per determinare una funzione: dal ciclo cellulare alla trasduzione del segnale, dal differenziamento alla trasformazione neoplastica. Quindi il sequenziamento del genoma forniva solo un elenco, non strutturato, dei componenti potenziali di cellule, tessuti, organi umani, ma non forniva l’informazione più rilevante: il progetto esecutivo che indicasse come i diversi componenti interagiscono tra loro a dare la struttura e quindi la funzione in esame. Per un breve periodo si ritenne che a rispondere a questa richiesta potessero servire le tecnologie high throughput, sviluppate nell’ultimo decennio del 20° sec., tecnologie che consentono di misurare l’espressione globale di differenti componenti cellulari: RNA (RiboNucleic Acid) messaggeri (mRNA), proteine, metaboliti. A mano a mano che le analisi di trascrittoma, proteoma e metaboloma si accumulavano per cellule nelle più diverse condizioni fisiologiche e patologiche, apparve chiaro che, in assenza di strumenti concettuali e operativi capaci di raccogliere, catalogare ed estrarre informazione strutturata da questa massa di dati, sarebbe stato difficile, se non impossibile, arrivare ad avere una visione coerente, a livello molecolare, delle reti attuative e di regolazione delle più importanti funzioni biologiche.
È stato invece possibile evidenziare correlazioni, ottenute attraverso analisi bioinformatiche, tra il livello di espressione di certi geni e lo stato fisiopatologico delle cellule in esame. Per es., nel caso del cancro mammario è stato possibile separare le pazienti con prognosi favorevole da quelle con prognosi sfavorevole sulla base del livello di espressione di alcune decine di geni. Purtroppo alle pazienti con prognosi sfavorevole non era possibile proporre una terapia specifica per le loro condizioni che fosse maggiormente efficace di quella standard.
Bisogna poi ricordare che, mentre le tecniche di analisi di trascrittoma consentono di determinare il livello di espressione della gran parte dei geni, se non di tutti, le tecniche di determinazione del proteoma, cioè del corredo di proteine presente in una cellula o in un tessuto, non hanno ancora raggiunto una corrispondente sensibilità, per cui è sì possibile analizzare in modo relativamente affidabile una consistente frazione delle proteine totali, ossia quelle più abbondanti, ma occorre sottolineare che in una cellula sono presenti importanti proteine regolative in ridotto numero di copie, molto difficilmente misurabile con le tecniche proteomiche attuali.
Questi risultati hanno indicato chiaramente la necessità di cambiare approccio per poter raggiungere una più chiara e profonda comprensione delle complesse funzioni biologiche ancora irrisolte. Nel dicembre 1999 apparve su «Nature» (402, 6761 Suppl.) un articolo (From molecular to modular cell biology, pp. c47-c52) il cui primo autore era Leland H. Hartwell, noto scienziato statunitense che nel 2001 avrebbe ricevuto il Nobel per la medicina per i suoi studi sul ciclo cellulare, una tipica funzione biologica complessa. In questo articolo Hartwell e i suoi collaboratori proponevano un cambiamento di approccio che coniugasse la consueta analisi molecolare con concetti e procedure tipiche dell’ingegneria e dell’informatica. Si apriva così la porta alla systems biology, che avrebbe caratterizzato gli inizi del 21° secolo.
La systems biology come cambiamento di paradigma della ricerca biologica
Gli organismi biologici obbediscono alle leggi della fisica e della chimica ma, essendo stati plasmati dall’evoluzione, svolgono funzioni che ne consentono sopravvivenza e riproduzione anche in condizioni ambientali variabili o sfavorevoli. Tali funzioni, che si realizzano a livello del costituente di base dei viventi, la cellula, dipendono dall’informazione portata dal DNA (DeoxyriboNucleic Acid) e vengono attuate da milioni di proteine, di migliaia di tipi diversi, che interagiscono in modo assai complesso con segnali che provengono dall’ambiente.
I grandi sviluppi della biologia del 20° sec. hanno avuto come oggetto la caratterizzazione delle molecole (geni e proteine) che costituiscono le cellule, nell’idea di giungere in questo modo a comprendere le funzioni biologiche. Però, come si è detto, solo molto raramente una determinata funzione biologica può essere attribuita a una singola proteina, come accade, per es., nel caso dell’emoglobina che trasporta i gas respiratori nel flusso sanguigno. D’altra parte, la più approfondita conoscenza dei costituenti molecolari delle cellule ha portato a riconoscere che essi non sono distribuiti in modo omogeneo, ma sono invece organizzati in ‘moduli’, ossia insiemi di molecole interagenti (DNA, RNA, proteine e piccole molecole) che svolgono, in modo abbastanza autonomo, funzioni specifiche. Mitocondri e ribosomi, glicolisi e vie di trasduzione del segnale sono esempi di moduli che possono agire sia separatamente sia in connessione l’uno con l’altro. In quest’ultimo caso generano proprietà funzionali di maggiore complessità. Nel descrivere le funzioni dei moduli viene utilizzato un vocabolario contenente concetti che derivano dalle scienze sintetiche, ingegneristiche e computazionali: feedback positivo o negativo, soglia, amplificazione, isolamento, correzione dell’errore. La ragione è che anche i sistemi tecnologici svolgono determinate funzioni e sono stati plasmati dall’evoluzione tecnologica. Nelle scienze sintetiche l’uso del modello matematico e la sua analisi per simulazione al computer hanno consentito maggiore comprensione, progettualità e prevedibilità dei sistemi tecnologici.
Tutte queste considerazioni, insieme alle difficoltà discusse precedentemente sull’interpretazione dei risultati delle analisi genomiche e postgenomiche, hanno portato il mondo della ricerca biologica ad avvertire profondamente la necessità di un cambiamento di paradigma che integri le analisi molecolari con la modellizzazione matematica e l’analisi per simulazione al computer, generando previsioni da sottoporre a nuove analisi sperimentali in cicli iterativi fino a raggiungere un’adeguata comprensione e capacità d’intervento progettuale sul sistema biologico in esame. L’uso del modello matematico in biologia non è una novità: dalle equazioni della cinetica enzimatica ai modelli del potenziale di azione delle cellule nervose esso infatti è già servito a dare una più profonda comprensione di alcuni fenomeni biologici.
Ciò che caratterizza la systems biology è l’idea che si debba tendere a costruire modelli di larga scala per descrivere compiutamente le molte e interagenti funzioni di cellule, organi e organismi. La systems biology è quindi distinta dal precedente incrocio tra scienze della vita e scienze computazionali, ossia dalla bioinformatica: questa, infatti, utilizza generalmente algoritmi per estrarre informazioni dai dati sperimentali (confronto di sequenze di DNA o di proteine, previsioni di struttura secondaria di proteine, analisi di alberi evolutivi di proteine e così via). L’idea che la complessità strutturale delle cellule possa essere disassemblata in moduli, collegati da connettori modulari, apre la strada alla costruzione di modelli di moduli singoli che poi verranno assemblati per dare via via strutture più complesse. La systems biology, quindi, ha come obiettivo lo studio dei meccanismi attraverso cui le macromolecole cellulari interagiscono in modo dinamico fra loro per generare le proprietà funzionali delle cellule viventi.
La ragione per cui la systems biology è necessaria è dovuta al fatto che nella stragrande maggioranza dei casi la funzione deriva come ‘proprietà emergente’ della rete di interazioni che la sottende. Ossia essa non si ritrova nell’uno o nell’altro costituente della rete, ma emerge solo dalla loro interazione in una determinata architettura. Come esempio di proprietà emergente possiamo considerarne una proveniente dal mondo tecnologico, ossia quella di trasformare onde hertziane in suono: non è una proprietà presente come tale in nessuno dei singoli componenti di una radio, ma emerge solo dalla loro corretta interazione.
L’approccio interdisciplinare
Da quanto detto precedentemente risulta chiaro che la systems biology richiede un’integrazione tra analisi molecolari e studi computazionali. Tale integrazione deve essere molto forte perché non basta ai teorici leggere la letteratura su una certa funzione biologica per poter costruire un modello matematico che abbia un senso. Questo per due buoni motivi: 1) molto spesso non sono disponibili in letteratura dati quantitativi, utilizzabili per la costruzione di un modello matematico; 2) ai teorici manca una conoscenza del contesto biologico che guidi sia la costruzione del modello sia la sua validazione. Occorrono così gruppi di lavoro interdisciplinari che, seguendo una progettualità scientifica unitaria, raccolgano dati sperimentali adeguati alla costruzione e poi alla validazione del modello e collaborino con esperti di modellizzazione matematica e di analisi computazionali.
È per questo motivo che la systems biology sta promuovendo la creazione di centri interdisciplinari in cui riunire, su progettualità scientifiche definite, esperti delle diverse aree coinvolte. Le scienze della vita si muovono così verso un’organizzazione da big science, una volta tipica della fisica. Inoltre, questi centri devono interconnettersi fra loro a livello sia nazionale sia internazionale se si vuole giungere anche solo ad avere una visione chiara delle diverse reti di regolazione che troviamo in una cellula. Progetti di ricerca europei stanno promuovendo reti di ricerca nella systems biology rivolte a specifici obiettivi di interesse conoscitivo e anche potenzialmente applicativo, soprattutto per la cura della salute.
La cellula vista dalla systems biology
Prima di riferire su alcune rilevanti scoperte derivate da approcci di systems biology, è opportuno fare il punto su cosa sia un modello matematico e come lo si possa costruire in modo affidabile. Innanzi tutto un modello è una rappresentazione simbolica della realtà che ci fornisce una migliore conoscenza del sistema in esame e che può aiutarci nel prendere decisioni operative riguardo allo stesso sistema. Esso quindi non è la copia fedele della realtà fisica, ma ne cattura gli aspetti essenziali utili agli scopi che intendiamo di volta in volta raggiungere. Possiamo avere modelli ad alta o a bassa risoluzione: i primi considerano tutti i componenti molecolari del modulo biologico in esame e le loro interazioni, mentre i secondi iniziano considerando aspetti funzionali macroscopici per scendere poi, attraverso opportune sperimentazioni e raccolta di nuovi dati, a definire la struttura fine del sistema e a generare, pertanto, un modello ad alta risoluzione. Sempre per restare ad analogie con il mondo tecnologico, una cosa è il modello di un’automobile che viene presentato nei libri di scuola guida, ben altro dettaglio è presente nel modello esecutivo che serve a guidare la produzione in un’industria automobilistica.
Una volta identificato il network molecolare di interesse ci sono diversi modi di costruire un modello: strutturale, considerando solo le interazioni, regolatorio, considerando la stechiometria del sistema (per es., una via metabolica) e misurando il flusso che lo attraversa, e infine dinamico, che considerando l’insieme di reazioni chimiche che avvengono nel modulo in esame (per es., trasduzione del segnale) e predicendone la dinamica. Per quanto riguarda i dati sperimentali richiesti per costruire un modello vi è un gradiente di esigenze.
Il modello strutturale si basa sulla conoscenza di vie metaboliche o di segnalazione cellulare ovvero su dati di proteomica e di interattomica e si presta ad analisi di connettività.
Il modello di regolazione metabolica richiede la conoscenza di tutti gli enzimi della via, delle loro caratteristiche cinetiche e la misura del flusso metabolico in steady-state. Attraverso la metabolic control analysis (MCA) è possibile individuare quali sono gli enzimi della via che contribuiscono in misura maggiore al controllo del flusso.
Infine, il modello dinamico richiede di determinare sperimentalmente i parametri di decine di equazioni differenziali ordinarie che costruiscono il modello matematico. Ciò comporta standardizzazione delle cellule e delle loro condizioni colturali, capacità di passare da misure fatte su popolazioni a valori stimati per le singole cellule, quantizzazione in termini di concentrazione delle diverse proteine che costituiscono il network (eventualmente modificate tramite fosforilazioni specifiche), conoscenza della loro dinamica temporale e della loro localizzazione spaziale (per es., nel nucleo o nel citoplasma). Una volta determinato il set di valori dei parametri e delle quantità di input del sistema, si può procedere alla definizione del programma computazionale che incorpora equazioni e valori dei parametri e procedere all’analisi per simulazione. I network regolativi, dalla trasduzione del segnale al ciclo cellulare, vengono spesso modellizzati in modo dinamico.
Di seguito, sono riportati alcuni importanti risultati di studi di systems biology.
Topologia e connettività delle reti cellulari
Molte vie metaboliche in differenti organismi sono state definite in dettaglio e quindi è stato studiato il modo con cui le diverse vie si interconnettono. Per es., il network metabolico di Helicobacter pylori consiste in 450 reazioni enzimatiche e 461 metaboliti.
Quando si analizzano le connessioni di ciascun nodo della rete si vede che esistono alcuni hubs, cioè nodi della rete che partecipano a un grande numero di connessioni. Se si determina la distribuzione di connettività si vede che essa segue una legge esponenziale (power-law), con un esponente approsimativamente uguale a 2, per cui vi sono moltissimi nodi con poche connessioni, tenuti insieme da pochi hubs altamente connessi. Questa topologia dei network è chiamata scale-free. Essa indica l’allontamento da eventi puramente casuali e la comparsa di imponenti forze di autoorganizzazione, la cui rilevanza nei processi biologici era stata già evidenziata da Ilya Prigogine negli anni Settanta del Novecento.
Controllo del metabolismo e della crescita
La glicolisi è una via metabolica conosciuta fin dagli inizi del Novecento, ma è ancora difficile a oggi stabilire quali siano le sue funzioni di controllo in diverse cellule e condizioni. Studi di MCA hanno stabilito che in condizioni di stato stazionario il controllo è distribuito su alcuni passaggi della via, a cominciare dalla velocità di ingresso del glucosio nelle cellule. Verificando in che modo la glicolisi risponde ad alcune perturbazioni esterne si vede che la regolazione si esercita prevalentemente a livello postrascrizionale sia per azione diretta di metaboliti (compresi adenosintrifosfato, ATP, e adenosindifosfato, ADP) sulle proteine enzimatiche, sia per variazioni della velocità di sintesi e di degradazione delle proteine stesse. D’altra parte, se si confrontano i profili di trascrittoma (ossia di mRNA sintetizzato) in cellule sottoposte a cambio di fonte di carbonio, si osservano rilevanti modifiche, il che indica che la regolazione avviene a tutti i possibili livelli in modo diverso a seconda delle perturbazioni a cui è sottoposto il sistema. Sono stati anche studiati i cambiamenti della velocità di crescita in cellule coltivate in chemostato, quindi in condizione di stato stazionario di velocità di crescita, con glucosio come nutriente limitante. Un ampio set di trascritti di proteine coinvolte nelle attività biosintetiche, quali sintesi di ribosomi, di lipidi, di amminoacidi e di nucleotidi, come anche nell’attività respiratoria, glicolisi e ciclo di Krebs, aumenta all’aumentare della velocità di crescita. Nelle cellule a più bassa velocità di crescita aumentano i trascritti connessi allo stress, compresi quelli che promuovono autofagia, ossia la capacità della cellula di degradare alcuni suoi costituenti. Quindi, i dati provenienti da analisi riguardanti la cellula nel suo complesso cominciano a essere strutturati secondo logiche di systems biology, costituendo la premessa per più incisivi studi di modellizzazione dinamica.
Vie di trasduzione del segnale
Una delle proprietà fondamentali degli esseri viventi è quella di modificare le proprie attività in risposte adattative ai cambiamenti dell’ambiente. A livello di cellule, i segnali provenienti dall’ambiente possono essere nutrizionali e/o portati da molecole specifiche, quali ormoni, fattori di crescita e così via. Le cellule di eucarioti superiori (per es., i mammiferi) si caratterizzano per la capacità di rispondere a un gran numero di molecole-segnale, rispetto alle cellule di eucarioti semplici che rispondono prevalentemente alla disponibilità di nutrienti.
Il modo con cui i diversi segnali vengono raccolti a livello di membrana plasmatica e quindi trasferiti al nucleo ha forti elementi di conservatività evolutiva. Le diverse vie di trasduzione del segnale sono state ampiamente studiate con approcci sia genetici sia biochimici e risultano rilevanti, per es., nella patogenesi di malattie, dal cancro al diabete.
Una delle aree a cui la systems biology sta dando maggiori contributi è appunto quella di una migliore comprensione del funzionamento globale delle vie di trasduzione del segnale. Si prenda come esempio la via innescata da un fattore di crescita, l’EGF (Epidermal Growth Factor), ma anche da HRG (Heregulin β1), che si legano ai recettori dimerici transmembranali detti EGFR (Epidermal Growth Factor Receptors), attivandoli. Il recettore attivato è capace di reclutare, legandole, un certo numero di proteine adattatrici (Grb2, Shc e Gab1) e di enzimi (SOS, Ras GAP, PTP1-B), che portano all’attivazione delle proteine chinasi ERK (Extracellular signal-Regulated protein Kinase) o MAP chinasi (MAPK, Mitogen-Activated Protein Kinase) e Akt. Queste ultime, una volta attivate per fosforilazione, trasmettono il segnale al nucleo attivando in modo specifico alcuni fattori di trascrizione e generando così una risposta specifica (nel caso dell’EGF stimolano la proliferazione cellulare).
Un’analisi più accurata fa emergere una struttura a clessidra: un gran numero di segnali diversi può attivare una varietà di recettori che convergono su alcuni, pochi, intermedi (PI3K, Ras, Raf) per poi far giungere lo stimolo trascrizionale nel nucleo a modulare differenti risposte (mitogenica, ciclo cellulare, apoptosi, struttura del citoscheletro ecc.).
Studi molecolari e computazionali hanno permesso di chiarire molti aspetti, incluso quello della separazione spaziale dei componenti cellulari. Infatti, mentre tutti i componenti della via da recettori EGFR alla prima MAP chinasi (MAPKKK) sono associati alla membrana plasmatica, le due chinasi a valle, MAPKK e MAPK, propagano il segnale a livello del nucleo che, soprattutto in cellule grandi (oociti, neuroni), può trovarsi a notevole distanza dalla membrana plasmatica. La rapida propagazione del segnale non è dovuta a diffusione delle MAPKK e MAPK, ma a un’onda di fosforilazione che viaggia dalla membrana plasmatica al nucleo, come proprietà emergente sostenuta da un’inibizione a feedback della MAPKK fosfatasi (fig. 1). Questo è uno dei tanti esempi del rilevante ruolo che le proteine fosfatasi ricoprono nella regolazione della trasduzione del segnale.
Controllo della trascrizione
I circuiti regolativi della trascrizione (ossia del modo con cui uno o più segnali promuovono o inibiscono la sintesi di uno specifico mRNA) studiati per simulazione sono ormai molti e sta emergendo l’idea che esistano ‘motivi di network’ ricorrenti più frequentemente di quanto sarebbe prevedibile in base a una statistica casuale. Infatti, a tutti i livelli evolutivi, dai batteri all’uomo, è stata riscontrata la conservazione di un certo numero di motivi strutturalmente differenti, ciascuno dei quali impartisce specifiche proprietà funzionali: di rapida o dilazionata risposta, di risposta graduale o a impulso e così via. È stato anche osservato che diversi motivi possono agire in modo incrociato, dando luogo a una regolazione in cui molteplici segnali vengono integrati a generare risposte differenziate. Sembra quindi che possano essere utilizzate singole unità di controllo, anche assemblate in modo diverso, per controllare risposte trascrizionali coinvolte nei processi di adattamento e di sviluppo degli organismi. Questa visione di un numero relativamente limitato di motivi di network (ciascuno dei quali ha una sua specificità di comportamento) che vengono assemblati in modo diverso a seconda della funzione che si trovano a svolgere, apre prospettive nuove su come l’evoluzione possa aver plasmato le reti regolative. È interessante a questo riguardo uno studio di evoluzione al computer che indica come sottoporre il sistema in evoluzione a continui cambiamenti degli obiettivi di fitness, ciascuno caratterizzato da un sottoinsieme di differenti risposte, porti spontaneamente all’evoluzione di strutture modulari di regolazione con motivi di network. Quanto questi affascinanti risultati di simulazioni possano gettare luce sull’evoluzione biologica dei network è oggetto di acceso interesse.
Ciclo cellulare
Il ciclo cellulare, ossia quella serie di eventi che porta una cellula a crescere, replicare il suo DNA e dividersi dando luogo a due cellule figlie, è fondamentale per lo sviluppo e il mantenimento degli organismi e viene attentamente studiato, anche perché un suo alterato controllo sembra avere un ruolo molto rilevante nell’insorgenza del cancro. Tale ciclo è diviso in quattro fasi (fig. 2): G1 (dall’inglese gap «intervallo»), S (durante la quale viene sintetizzato il DNA), G2 (altro intervallo), M (mitosi, divisione prima del nucleo, con l’esatta ripartizione dei cromosomi, e quindi della cellula). Anche se negli ultimi decenni sono stati compiuti numerosi studi sul ciclo cellulare, siamo ancora molto lontani dall’avere una comprensione di tutti gli eventi molecolari che attuano e regolano la progressione del ciclo. Poiché sia gli eventi del ciclo cellulare sia la sequenza di molti suoi componenti molecolari sono evolutivamente conservati dal lievito all’uomo, lo studio del ciclo cellulare di lievito costituisce la base da cui partire. Che il ciclo cellulare sia un processo complesso si arguisce dal fatto che circa il 15% dei geni di lievito (circa 900) è implicato nell’attuazione e nel controllo del ciclo. È quindi uno dei ‘moduli’ cellulari più adatti a essere affrontati con approcci di systems biology. In letteratura sono presenti molti modelli matematici dell’intero ciclo o di sue fasi rilevanti, soprattutto la transizione G1/S. In genere però sono stati costituiti bottom-up (dal basso verso l’alto) da teorici, utilizzando dati ripresi dalla letteratura, e quindi riescono a fornire rappresentazioni solo parzialmente utili, anche perché prendono in considerazione un numero di specie molecolari molto lontano dalla realtà, al massimo qualche decina per l’intero ciclo.
Attualmente, nel laboratorio di biochimica del Dipartimento di biotecnologie e bioscienze, presso l’Università di Milano-Bicocca si sta seguendo un approccio top-down (dall’alto verso il basso), cercando di individuare nuovi attori del ciclo e integrando strettamente l’approccio sperimentale con quello matematico/computazionale, sotto un’unica progettualità scientifica. Dopo aver definito e validato un modello top-down dell’intero ciclo, ci si è focalizzati su una delle sue principali aree di controllo, la transizione G1/S. Essa attua il coordinamento tra crescita e ciclo cellulare, tale per cui le cellule, in una data condizione di crescita, hanno sempre una dimensione cellulare caratteristica, che aumenta alle più alte velocità di crescita. Studi precedenti avevano illustrato, più di trenta anni fa, come questo coordinamento dipenda dal fatto che le cellule devono raggiungere una massa (o contenuto di proteina) critica (detta Ps) per poter entrare nella fase S. La base molecolare di Ps era rimasta elusiva per decenni.
Studi molecolari hanno poi portato a definire in modo più dettagliato la rete attuativa della transizione G1/S, considerando anche l’aspetto rilevante della localizzazione nucleo/citoplasma dei diversi attori coinvolti. È stato quindi costruito il modello matematico corrispondente, analizzato poi per simulazione (fig. 3). Saggiato per molte condizioni genetiche e nutrizionali, tale modello è risultato coerente in modo preciso con i dati sperimentali. Il contributo più importante di questo lavoro è dato dalle analisi computazionali di sensitività, che hanno portato a dimostrare come la massa cellulare critica Ps sia una proprietà emergente del network G1/S, fortemente dipendente dalla velocità di crescita (fig. 4). Questa è una dimostrazione molto chiara di una funzione (massa cellulare critica) che dipende dall’interazione delle proteine di una rete e non può essere assegnata a uno qualsiasi dei nodi della rete, il che spiega la lunga e inutile ricerca per trovare il gene che determinasse la massa cellulare critica e indica in modo evidente la validità dell’approccio di systems biology, senza il quale non sarebbe stato possibile trovare la risposta a una domanda per lungo tempo rimasta irrisolta.
Dalla cellula al cuore
Da quanto esposto finora potrebbe sembrare che la systems biology molecolare si rivolga allo studio di fenomeni che avvengono solo a livello di cellule. Se consideriamo una cellula di mammifero, che ha in media alcune centinaia di milioni di proteine di almeno una decina di migliaia di tipi diversi, appare già chiaro quanto grande sia la sfida di modellare fedelmente un sistema così complesso. Alcuni studi stanno però a indicare che si può fare un’analisi di systems biology a livello di organi, legando modelli molecolari a modelli morfologici. Un esempio molto interessante e pionieristico è stato sviluppato dal fisiologo Denis Noble, che ha costruito un modello del cuore. Questo modello considera gli eventi molecolari di trasporto di ioni (calcio e potassio) tra l’esterno e l’interno della cellula cardiaca, che ne generano il ritmo. In modo molto innovativo il modello di Noble ha dimostrato che il ritmo non deriva da un oscillatore interno (come atteso), ma è invece una proprietà emergente dell’interazione dell’attività dei canali ionici per potassio e calcio, le cui proprietà vengono modulate dalla variazione di potenziale generata dalla stessa attività dei canali (ossia, il voltaggio che si genera ha un’azione di feedback sull’attività delle proteine-canali). Il modello della cellula cardiaca pulsante è stato poi inserito in modelli anatomici del cuore (fig. 5), riuscendo a modellizzare le onde di contrazione dell’intero organo e soprattutto a dar conto delle deviazioni dal ritmo che si generano in seguito a difetti genetici o in quadri patologici come ischemia o aritmia.
Proprietà emergenti e robustezza: due concetti cardine
Per apprezzare il contributo innovativo della systems biology bisogna esaminare in maniera più approfondita come i suoi due concetti portanti, vale a dire robustezza e proprietà emergente, modificano il modo tradizionale con cui la biologia molecolare illustra i fenomeni biologici.
Come nasce la proprietà emergente
Abbiamo visto precedentemente che aspetti funzionali di sistemi biologici risultano essere proprietà emergenti, cioè generate dall’interazione di proteine enzimatiche in un network e non presenti in ciascuna proteina considerata singolarmente. Le due proprietà emergenti di cui abbiamo parlato sono la regolazione del ciclo cellulare attraverso un meccanismo capace di determinare la massa cellulare critica Ps e la generazione del ritmo cardiaco. Vediamo adesso, utilizzando proprio uno di questi esempi, in che modo l’architettura del network sia rilevante nel generare la proprietà emergente, mettendo così in evidenza alcuni concetti fondamentali della systems biology.
Il primo concetto è che l’architettura del network è fondamentale nel generare le proprietà emergenti. La struttura che sottende il modello matematico della fig. 3 si può così brevemente riassumere: si ha dapprima il superamento di una soglia (sizer) che è capace di monitorare la crescita cellulare, segue un periodo di tempo (timer), di durata significativa se comparato al tempo di raddoppio delle cellule, che termina con il superamento di una seconda soglia, la quale innesca i successivi eventi di ciclo, ossia la formazione della gemma e l’inizio della replicazione del DNA (fig. 6). Ciascuna delle due soglie è data dall’interazione di un inibitore (I) con il suo corrispondente complesso attivatore (A). La prima soglia risponde al raggiungimento di una massa cellulare critica (cell sizer) fissata dalla quantità di inibitore ricevuta dal ciclo precedente e dalla produzione di attivatore A1, che viene realizzata in modo proporzionale alla crescita. Che cosa accade cambiando le condizioni di coltura, passando da un mezzo povero (per es., Ps uguale a 1) a un mezzo ricco (Ps uguale a 1,5)? La prima soglia viene passata in entrambe le condizioni a una dimensione cellulare pressoché uguale, poiché, mentre il livello di A1 è più alto in cellule che crescono velocemente, il rapporto A1/I1 è pressoché costante alle diverse velocità di crescita. Dato poi che l’intervallo di tempo è considerevole se comparato al tempo di raddoppio (circa 100 minuti, utilizzando un mezzo ricco), per le cellule che crescono velocemente la massa cellulare aumenta notevolmente prima che esse entrino in fase S, mentre cambia molto poco per le cellule che crescono lentamente (tempo di raddoppio circa 350 minuti; fig. 7). L’architettura del network (superamento della prima soglia, intervallo di tempo significativo, superamento della seconda soglia) dà conto, almeno in larga parte, del fatto che la massa cellulare critica (Ps) è dipendente dalla velocità di crescita. Se l’intervallo di tempo fosse, per es., 5 minuti, non si vedrebbe un’apprezzabile dipendenza del valore di Ps dalla velocità di crescita, pur rimanendo identica la mappa delle interazioni tra i diversi componenti del network.
Il secondo concetto ci riporta alla definizione stessa di systems biology: le proprietà funzionali dipendono dal modo con cui le macromolecole cellulari interagiscono fra loro, in modo dinamico. Dato il network G1/S appena descritto, il suo comportamento dipenderà anche notevolmente dalla forza delle interazioni tra i suoi componenti principali, tra i quali vi sono una molecola inibente (I1/I2/I3) e un interattore che diventa attivo quando l’inibitore viene rimosso. Come noto, la forza con cui si forma un complesso dipende dalla legge di azione di massa e dalla capacità intrinseca di uno o l’altro dei partner dell’interazione di formare legame. Quindi modifiche della velocità di sintesi e/o di degradazione, come anche variazioni della localizzazione intracellulare di ognuno dei partner delle tre interazioni chiave (I1/A1, I2/A2, I3/A3), porteranno inevitabilmente a modificare la dinamica del network e a cambiare il valore di Ps. È necessario tenere nella massima considerazione anche la possibilità che le attività di legame di uno o più interattori possano venir modificate per fosforilazione/defosforilazione, meccanismo biochimico di regolazione estremamente diffuso ed efficiente. In questo modo il funzionamento di network regolativi può essere fortemente influenzato da vie di trasduzione del segnale che, come visto in precedenza, hanno molto spesso come attuatori proteine chinasi e/o fosfatasi.
Questi concetti hanno grande rilevanza potenziale sia per la comprensione dei meccanismi molecolari che sottendono quadri patologici, dal diabete al cancro, sia, di conseguenza, per un nuovo approccio al drug discovery, ossia al processo standardizzato che porta alla scoperta di nuovi farmaci.
Come si genera la robustezzadei network biologici
Una delle caratteristiche fondamentali dei sistemi biologici è quella di mantenere un preciso e affidabile comportamento anche in presenza di imprevedibili variazioni interne e ambientali. A questa proprietà è stato dato il nome di robustezza. Anche la robustezza risulta essere una proprietà di sistema, come l’emergenza, e non è giustificabile soltanto esaminando singoli componenti del network. La robustezza di un sistema si può manifestare in due differenti modi: il sistema permane nello stato in cui era, ovvero si muove verso una nuova configurazione, che però fa mantenere la specifica funzionalità. Utilizzando un esempio tratto dal mondo tecnologico: il volo di un aereo si mantiene robusto rispetto alla sua destinazione, anche in presenza di turbolenze in quota che potrebbero farlo deviare dalla rotta, attraverso correzioni di direzione che lo portano di nuovo a raggiungere l’obiettivo prestabilito.
Vi sono numerosi meccanismi che assicurano la robustezza di un network biologico, di seguito descritti per sommi capi. Controllo del sistema: la presenza di meccanismi di feedback negativi e/o positivi è un potente strumento per rispondere alle perturbazioni. Per es., la produzione di una via metabolica che giunge al prodotto X è spesso regolata dalla disponibilità di tale prodotto. Se esso aumenta oltre un certo livello, blocca uno dei primi enzimi della via, riportando la produzione del metabolita entro ambiti accettabili. Ridondanza e diversità: se vi sono più modi per ottenere la stessa funzione, il danno a carico di una via può venire compensato dal fatto che le altre vie rimangono funzionali. Modularità: la struttura a moduli è efficace strumento di robustezza, soprattutto in quanto può circoscrivere il danno che si verifica all’interno di un modulo, impedendo che esso si propaghi al resto dell’organismo. Disaccoppiamento: esso isola variazioni che si verificano a livello molecolare, rispetto alla funzionalità di sistema. Per spiegarlo si può ricorrere ancora a un paragone tratto dal mondo tecnologico: un sistema di disaccoppiamento è dato dagli ammortizzatori di un’automobile che isolano il comfort dei passeggeri e del guidatore dalle sollecitazioni che una strada dissestata procurerebbe loro in assenza dell’apparato di assorbimento degli urti.
Un sistema biologico non è robusto, come è ovvio, rispetto a ogni possibile perturbazione esterna, perché in genere esso è fragile rispetto a perturbazioni che accadono raramente. Per es., un microrganismo può resistere a una carenza nutrizionale (condizione molto frequente in ambienti naturali), ma può essere fragile (e quindi morire) se trattato con un veleno. Esiste un bilanciamento fra robustezza, fragilità e funzionalità di cui la systems biology sta cercando di chiarire i principi generali.
Systems biology ed evoluzione
Dal punto di vista culturale una delle riflessioni più importanti che la systems biology sta stimolando riguarda l’evoluzione biologica. Uno dei concetti di base della moderna biologia è quello secondo cui gli organismi sono plasmati dall’evoluzione, la quale seleziona positivamente comportamenti/funzioni capaci di conferire un valore adattativo positivo all’organismo in un determinato ambiente.
Il ragionamento appariva lineare quando si considerava un singolo gene (per es., le mutazioni dell’emoglobina che comportano una maggiore affinità per l’ossigeno sono evolutivamente coerenti quando osservate in individui che vivono a elevate altitudini, con aria rarefatta), ma se le funzioni sono sottese da network, anche molto complessi, di prodotti genici, e per giunta anche robusti, sarà possibile trovare correlazioni semplici tra geni e funzione oppure tra genotipo e fenotipo? Gli sviluppi del sequenziamento dei genomi, i risultati delle analisi postgenomiche dal proteoma all’interattoma e le più approfondite conoscenze sui network stanno fornendo informazioni utili ad affrontare questo tema.
Si sono osservate correlazioni negative tra la velocità di evoluzione di una sequenza e il suo livello di espressione, nonché correlazioni positive tra la centralità di un prodotto genico in un interattoma e gli effetti della sua delezione. Purtroppo, queste e molte altre conclusioni tra diversi parametri dei network da una parte e della dinamica evolutiva dall’altra, nel loro insieme fanno emergere un quadro di difficile decifrazione. Si ritiene di non avere ancora la disponibilità di un quantitativo sufficiente di dati tale da poterne derivare principi generali. Inoltre, è possibile che l’analisi delle mappe di interazioni sia uno strumento troppo grezzo per studiare il rapporto tra geni e funzioni e che si debba invece attendere di disporre di ampi modelli dinamici. Tuttavia, qualunque sia il quadro che alla fine emergerà, certamente collocherà il tema dell’evoluzione biologica a livello molecolare su un piano molto più sofisticato di quello accettato fino a pochi anni fa.
Possibili sviluppi nella medicina e nella bioindustria
La produttività del settore ricerca e sviluppo dell’industria farmaceutica mondiale negli ultimi trent’anni è stata nettamente inferiore alle attese, mentre gli investimenti pubblici e privati in questo settore sono aumentati in modo assai consistente, portando il costo medio dello sviluppo di ogni nuovo farmaco per patologie rilevanti a 1,5 miliardi di dollari. Circa la metà dei costi di sviluppo ricade nell’area della ricerca preclinica e nelle prime due fasi cliniche. Il progresso delle tecnologie genomiche e postgenomiche applicate allo sviluppo di nuovi farmaci ha portato a un consistente aumento dei costi senza produrre significativi miglioramenti dell’efficienza del processo di drug discovery. La ragione di queste difficoltà è da ricercarsi, con ogni verosimiglianza, nel fatto che le malattie ancora carenti di adeguati presidi farmaceutici sono in buona parte malattie multifattoriali (cancro, sindromi neurodegenerative, metaboliche, cardiovascolari, autoimmuni ecc.) che vanno affrontate tenendo conto della loro complessità molecolare e della loro potenziale variabilità individuale.
È per questo motivo che la systems biology viene vista come centrale per lo sviluppo di una nuova farmaceutica. L’idea portante dell’approccio di systems biology alla medicina è che ogni malattia sia data dalla perturbazione di network molecolari, i quali generano come proprietà emergente il fenotipo patologico. Il confronto tra network normali e patologici dovrebbe portare a identificare nodi (proteine) che, riconfigurati, possono riportare la struttura del network allo stato normale oppure determinare in modo specifico la morte delle cellule malate. Questi nodi risultano essere i candidati più promettenti come drug targets (bersagli molecolari per il farmaco), cioè proteine biologicamente attive contro cui possono venire prodotte per sintesi chimica (o selezionate da librerie chimiche) piccole molecole generalmente inibenti. Si tratta quindi, per ogni quadro patologico, di identificare il network minimo responsabile della proprietà emergente determinante per lo sviluppo della malattia e cercare di definirne uno o più nodi promettenti come possibili drug targets. Anche se può apparire lungo e laborioso, questo percorso dovrebbe offrire garanzie di razionalità e di progettualità che possono portare a risolvere i problemi che oggi rendono poco efficace lo sviluppo di nuovi farmaci: l’identificazione razionale del drug target, il riconoscimento e la prevenzione delle proprietà avverse di un potenziale farmaco prima di iniziare la sperimentazione clinica, la capacità di monitorare l’efficacia utilizzando biomarkers appropriati, lo sviluppo di approcci individualizzati più efficaci al trattamento delle patologie.
Anche se modelli predittivi di patologie umane sono un obiettivo ancora lontano, gli approcci di systems biology stanno già influenzando l’industria farmaceutica. Si stanno sviluppando saggi automatici complessi, basati su cellule umane in coltura, per verificare le risposte a perturbazioni di proprietà emergenti connesse a diverse patologie. Simulazioni al computer che integrano conoscenze a livello di organo aiutano a mettere in evidenza potenziali target e a disegnare la sperimentazione clinica.
In modo particolare vengono integrati dati di trascrittoma, proteoma, metaboloma per identificare strutture di network connesse a determinati quadri patologici. Per es., raccogliendo e intersecando dati sullo stato delle vie di trasduzione del segnale in tumori umani, tre regioni (quelle di p53, Ras, TGF-β, intermedi della segnalazione cellulare) risultano più densamente connesse e, com’è noto, esse sono particolarmente rilevanti nel generare il fenotipo neoplastico, l’inattivazione di p53 portando a prevenire la morte cellulare e l’attivazione di Ras portando a stimolare la proliferazione cellulare. Per quanto interessanti, e probabilmente utilizzabili come punto di partenza per più raffinate analisi attraverso modelli dinamici, queste elaborazioni non consentono però ancora di identificare nuovi e più efficaci drug targets.
Prima di definire come strategia per un più efficace drug discovery il confronto tra network normali e patologici, occorre tenere in considerazione la seconda proprietà fondamentale dei sistemi biologici, la loro robustezza. Infatti, se, come detto in precedenza, i network biologici sono robusti, cioè mantengono la loro funzione in presenza di perturbazioni esterne e interne, l’inibizione di un nodo non necessariamente dà luogo alla risposta voluta, perché può semplicemente indurre la riorganizzazione del flusso di eventi del network, facendo permanere la proprietà emergente legata alla patologia.
Un esempio di robustezza che genera resistenza a un farmaco, mirato a un nodo del network patologico, è dato da un farmaco anticancro di nuova generazione: trastuzumab. Si tratta di un anticorpo monoclonale umanizzato che lega il dominio extracellulare di EGFR, inibendo la via del segnale che parte da questo recettore. Il suo sviluppo era stato suggerito dal fatto che questo recettore è mutato o sovraespresso in molti tumori mammari o dell’ovaio, cosicché un suo più alto livello di espressione è correlato con una prognosi sfavorevole. Il trattamento di pazienti ad alto livello di espressione del recettore con trastuzumab ha dato risposta positiva solo nel 35% dei casi. Inoltre, si è osservata l’insorgenza di resistenza al farmaco per l’attivazione di altre vie di trasduzione del segnale, per es. con l’attivazione della via dell’IGF1 (Insulin-like Growth Factor 1). È questo un esempio chiaro di come la robustezza del network che sostiene la proliferazione tumorale possa compromettere gravemente l’efficacia di un farmaco, pensato come ‘intelligente’.
Qual è la via d’uscita? Non essendo la robustezza di un network assoluta, è possibile che perturbazioni rare, non elaborate dal processo selettivo che ha portato all’ottimizzazione del network, inducano fragilità, come nel caso della morte cellulare. La ricerca di punti di fragilità dei network che sottendono la patologia neoplastica potrà portare a farmaci più selettivi ed efficaci. Questa rappresenta una strada di grande interesse. Sempre nella stessa prospettiva di generare fragilità nel sistema, appare stimolante lo sviluppo di terapie a più componenti. Un esempio di successo è dato dalla combinazione di farmaci per la terapia della sindrome da immunodeficienza acquisita, prodotta dall’HIV (Human Immunodeficiency Virus). La trascrittasi inversa di HIV, essenziale per la moltiplicazione del virus e quindi per il mantenimento dell’infezione, è inibita da un primo farmaco, AZT. Se muta, diventando resistente ad AZT, diviene però sensibile a un secondo farmaco, 3TC. Un cocktail dei due farmaci è quindi efficace nel contrastare lo sviluppo del virus.
Per quanto ancora non conclusive, queste esemplificazioni su un approccio di drug discovery incentrato su robustezza/fragilità dei sistemi biologici, non solo fanno prevedere una trasformazione radicale dell’industria farmaceutica e della pratica medica, ma portano a ritenere che il futuro sarà dei trattamenti multifattoriali, dato che la complessità può essere controllata solo dalla complessità. In questo senso anche trattamenti dietetici, nutriceutici, di stile di vita ecc., potranno essere integrati razionalmente per generare risposte terapeutiche favorevoli. Inoltre, pur se le variazioni genetiche sono certamente importanti nel determinare la risposta individuale a trattamenti con farmaci, bisognerà anche tener conto dei fattori ambientali che interferiscono con l’assorbimento, la distribuzione, il metabolismo e l’escrezione del farmaco e che hanno un ruolo assai rilevante nel generare la soggettività della risposta. Tra i fattori ambientali, i più importanti sono: lo stato nutrizionale, la flora intestinale, l’età, l’utilizzo contemporaneo di altri farmaci.
In conclusione, il miraggio del silver bullet, del singolo proiettile miracoloso contro la malattia, che ha sostenuto le prime fasi dell’industria farmaceutica fino alla scoperta degli antibiotici, cede il campo a una visione a più variabili del fenomeno patologico, che richiede sì un approccio molecolare, ma non riduzionistico e semplicistico, bensì articolato e integrato, basato sulla scienza dei sistemi biologici complessi. Un altro grande settore che viene modificato dagli sviluppi della systems biology è quello della bioindustria, nella sua più vasta accezione. Dalle fermentazioni per ottenere composti chimici di interesse alla produzione di piante utilizzabili in una agricoltura sostenibile, dai biofuels (produzione di carburanti da fonti rinnovabili) alla cattura dell’ossido di carbonio atmosferico, dalla lotta ai parassiti delle piante alla produzione di cosmeceutici, questi sono tutti settori per cui la systems biology fornisce strumenti conoscitivi e applicativi essenziali. In Europa sono già state avviate numerose attività di ricerca in tutti questi campi, che potrebbero portare a rivitalizzare la competitività industriale.
Conclusioni
Lo sviluppo della systems biology è indicativo dell’esigenza conoscitiva di comprendere meglio i sistemi biologici complessi: dalle cellule all’organismo, dalle popolazioni agli ecosistemi. Alcuni scienziati hanno proposto un obiettivo che potrebbe avere lo stesso impatto di quello, proposto negli anni Sessanta del Novecento, di portare un uomo sulla Luna, ossia l’obiettivo di realizzare in trent’anni ‘l’uomo virtuale’, ovvero una replica al computer delle funzioni a livello molecolare di un essere umano. Il raggiungimento di un traguardo del genere vorrebbe dire che le nostre conoscenze sui sistemi biologici complessi sono ormai giunte a livelli molto approfonditi, oggi non immaginabili.
Riuscire a conoscere i principi generali che sottendono i mille e mille circuiti regolativi biologici, efficienti in quanto plasmati da un’evoluzione lunga miliardi di anni, potrà anche contribuire a disegnare strategie per meglio governare sistemi complessi non biologici: da quello finanziario a quello economico, dall’organizzazione di una città a quella di una società. Le conoscenze derivate dalle scienze della vita diventeranno in questo modo sempre più parte della cultura senza aggettivi, elaborazione simbolica dell’uomo per conoscere meglio sé stesso e guidare il suo cammino nella storia.
Bibliografia
Foundations of systems biology, ed. H. Kitano, Cambridge (Mass.) 2001.
A.-L. Barabási, Linked. The new science of networks, Cambridge (Mass.) 2002.
M.W. Kirschner, J.C. Gerhart, The plausibility of life. Resolving Darwin’s dilemma, New Haven 2005.
Systems biology. Definitions and perspectives, ed. L. Alberghina, H.V. Westerhoff, Berlin-Heidelberg 2005.
D. Noble, The music of life. Biology beyond the genome, Oxford-New York 2006 (trad. it. Torino 2009).
B.O. Palsson, Systems biology. Properties of reconstructed networks, Cambridge-New York 2006.
U. Alon, An introduction to systems biology. Design principles of biological circuits, Boca Raton (Flo.) 2007.
M. Barberis, E. Klipp, M. Vanoni, L. Alberghina, Cell size at S phase initiation. An emergent property of the G1/S network, «PLoS computational biology», 2007, 3, 4, pp. 649-66.