Il contributo è tratto da Storia della civiltà europea a cura di Umberto Eco, edizione in 75 ebook
La cibernetica inaugura, nella prima metà del Novecento, lo studio comparato degli organismi viventi e delle macchine dotate di autocontrollo. L’impatto del programma cibernetico è inizialmente profondo, ma in seguito si arresta, per essere ripreso su nuove basi dall’Intelligenza Artificiale (IA), che sfrutterà i progressi della tecnologia e della teoria dei calcolatori digitali. Verso la fine del Novecento nuovi sviluppi dell’Intelligenza Artificiale danno origine a ricerche che in parte si sono ricollegate idealmente al programma della cibernetica: dalle reti neurali alla robotica alla vita artificiale.
Organismi viventi e nuove macchine
Il termine cibernetica fu introdotto nel 1947 dal matematico Norbert Wiener (1894-1964) con riferimento al regolatore centrifugo che James Watt aveva inserito nella macchina a vapore, e soprattutto a Clerk Maxwell, che dei regolatori aveva dato una trattazione matematica generale nel 1868. La parola regolatore (governor in inglese) viene intesa da Wiener come la corruzione latina (gubernator) del termine greco kubernètes. Wiener definisce la cibernetica, nel libro pubblicato nel 1948 che la renderà popolare, come lo studio “del controllo e della comunicazione nell’animale e nella macchina”. Questa definizione meglio di altre coglie l’aspirazione originaria della nuova disciplina a presentarsi come una teoria unificata del comportamento degli organismi viventi e delle macchine dotate di autocontrollo, considerati come sistemi che soddisfano le stesse leggi fisiche.
Nelle macchine la nozione di controllo inteso come retroazione negativa assume un ruolo di primo piano con i dispositivi studiati dalla teoria del controllo automatico, che raggiunge la piena maturità all’epoca di Wiener. Il comportamento di un sistema a retroazione negativa è regolato dal continuo confronto tra lo stato in cui esso si trova e quello fissato come parametro di riferimento, in modo che il sistema non si allontani mai troppo da quest’ultimo, rivelandosi dunque in grado di autoregolarsi o autocontrollarsi. Il già ricordato regolatore di Watt è un esempio di sistema del genere: esso mantiene approssimativamente costante la velocità di rotazione dell’albero motore di una macchina a vapore.
Se le macchine dotate di autocontrollo sono una realtà ai tempi di Wiener, lo è anche l’analisi dei meccanismi di autoregolazione negli organismi viventi. In questi la loro presenza è già documentata dalla fisiologia moderna, a opera di Claude Bernard (1813-1878) e Walter B. Cannon (1871-1945). Quest’ultimo definisce omeostatici tali meccanismi di autoregolazione verso la fine degli anni Venti del Novecento, ed è con uno dei suoi allievi, Arturo Rosenblueth, che Wiener collabora nei primi anni Quaranta nelle ricerche su tali meccanismi.
In un celebre articolo pubblicato nel 1943, lo psichiatra Warren McCulloch (1899-1969) e il logico Walter Pitts propongono un modello idealizzato del neurone, visto come un’unità a soglia, funzionante cioè secondo la “legge del tutto o niente” (un neurone scatta o non scatta a seconda che la somma degli impulsi che riceve superi o no una certa soglia). Neuroni siffatti possono essere organizzati in reti di diversa complessità. Riprendendo questa idea, Frank Rosenblatt progetta nella metà degli anni Cinquanta, negli Stati Uniti, una delle macchine più note dell’era cibernetica, il Perceptron. Esso manifesta un’elementare forma di apprendimento, consistente nell’imparare a discriminare e a classificare pattern visivi, come figure a forma di lettere. L’apprendimento è reso possibile per la presenza nella macchina di uno strato di unità o neuroni con forza o “peso” regolabile dall’esterno nel corso di una fase di addestramento.
Una macchina molto diversa viene costruita qualche anno prima dallo psichiatra inglese William Ross Ashby (1902-1972), che la battezza omeostato (è evidente il riferimento a Cannon). Essa incorpora un nuovo e importante concetto, quello di “ultrastabilità”, che viene ad affiancarsi a quello di controllo via retroazione negativa (o stabilità). Nella definizione di Ashby, un sistema si dice ultrastabile quando non solo è in grado di autocorreggere il suo comportamento (come nel caso del ricordato regolatore), ma è anche capace di cambiare la propria organizzazione interna al fine di reagire in modo appropriato a un disturbo esterno non previsto, e di ristabilire spontaneamente il proprio stato di equilibrio. Ashby considera l’ultrastabilità alla base dell’adattamento e dell’apprendimento per prove ed errori.
Altri modelli cibernetici dell’apprendimento furono realizzati sotto forma di robot mobili. I più popolari sono rimasti quelli costruiti negli anni Cinquanta da Walter Grey Walter (1910-1977), sempre in Inghilterra: le “tartarughe” elettroniche. Le più semplici riescono a evitare gli ostacoli che incontrano lungo il cammino; altre, più complesse, imparano per condizionamento a reagire a stimoli visivi e acustici diversi.
L’Intelligenza Artificiale
Tutte queste diverse tendenze della ricerca cibernetica entrano in crisi molto presto, e tra gli anni Sessanta e Settanta sono drasticamente ridimensionate quando non abbandonate. Questo anche per l’affermarsi di una nuova disciplina, l’Intelligenza Artificiale (IA), che riprende il programma cibernetico dello studio unificato di organismi e macchine, ma su basi molto diverse.
È difficile dare una definizione dell’IA e dei suoi obiettivi che sia unanimemente condivisa dai ricercatori. L’origine della difficoltà sta anche nel fatto che da sempre l’IA si è presentata sotto un duplice profilo: quello di disciplina ingegneristica, il cui obiettivo è di costruire macchine in grado di assistere l’uomo, e magari di competere con esso, in diversi compiti soprattutto intellettuali; a questo si affianca l’idea di disciplina psicologica, il cui obiettivo è costruire macchine le quali, riproducendo da vicino le caratteristiche essenziali dell’attività cognitiva umana, gettino una nuova luce su alcuni tradizionali enigmi della mente. Forse la definizione dell’IA e dei suoi obiettivi più comunemente accettata è quella più generica: l’IA si propone di riprodurre con programmi per calcolatore comportamenti che, se osservati negli esseri umani, verrebbero definiti intelligenti. Per giustificare questa definizione, e altre possibili che si riferirebbero alle distinzioni che abbiamo richiamato, occorre accennare ad alcuni antefatti che resero possibile la nascita stessa dell’IA: l’evoluzione dei calcolatori come macchine intelligenti.
Negli anni Quaranta del Novecento si verificano in rapida successione numerosi eventi che segnano una svolta nella costruzione delle macchine, e nella stessa concezione di macchina e di interazione uomo-macchina. Nel 1941, in Germania, Konrad Zuse costruisce il calcolatore digitale elettromeccanico Z3, e nel 1944, negli Stati Uniti, Howard Aiken costruisce il Mark I. Qualche anno dopo, nel 1946, J. Presper Eckert e John W. Mauchly completano, sempre negli Stati Uniti, la costruzione del calcolatore elettronico ENIAC. È in quel periodo che Neumann dà il suo decisivo contributo all’architettura del calcolatore a “programma memorizzato”, poi costruito nel 1949 in Inghilterra con il nome di EDSAC dal gruppo guidato a Cambridge, in Inghilterra, da Maurice Wilkes. Al decennio precedente risale invece un altro contributo alla scienza dei calcolatori, che dunque ne anticipa la nascita: l’articolo pubblicato nel 1936-37 di Alan Turing sulla macchina universale.
L’EDSAC possiede almeno due caratteristiche importanti che consentono di parlare di intelligenza dei calcolatori. In primo luogo è un elaboratore simbolico, non un semplice elaboratore numerico, come una ordinaria macchina calcolatrice. In altri termini, si tratta di un calcolatore generale, programmato per manipolare, sotto forma di strutture di simboli, le entità più diverse: parole di una lingua naturale, espressioni matematiche, posizioni di un gioco, oggetti da riconoscere e classificare. In secondo luogo, nell’EDSAC è presente l’istruzione di “salto condizionato”. Con essa il programma poteva cambiare l’ordine di esecuzione delle istruzioni, in modo che, se una data condizione viene soddisfatta, vengono effettuate le operazioni specificate da una certa parte del programma (un sottoprogramma), altrimenti ne vengono eseguite altre, specificate da una diversa parte del programma (un altro sottoprogramma). Diventa dunque possibile dare al programma una certa capacità discriminativa, che gli permette di scegliere quale sequenza di istruzioni eseguire.
Nell’estate del 1956 si svolge negli Stati Uniti, a Dartmouth (nel New Hampshire), un seminario organizzato da John McCarthy, Marvin Minsky, Nathaniel Rochester (1927-2001) e Claude Shannon (1916-2001). In quel memorabile incontro, al quale partecipano coloro che sono ormai ritenuti i padri dell’IA (la scelta del nome, in particolare, si deve a McCarthy), si gettano le basi della nuova disciplina, vengono individuate alcune aree di ricerca rimaste classiche e si discutono i lineamenti dei primi programmi per calcolatore intelligenti.
Nei giorni di Dartmouth, è pronto per girare su calcolatore un programma ideato da Allen Newell (1927-1992), Clifford Shaw e Herbert Simon (1916-2001), il Logic Theorist, che dimostra alcuni teoremi del calcolo enunciativo dei Principia Mathematica di Bertrand Russell e Alfred Whitehead. Ma bisogna ricordare almeno un altro programma la cui sperimentazione era cominciata qualche tempo prima, quello di Arthur Samuel (1901-1990) per il gioco della dama, in grado di migliorare le proprie prestazioni al punto di arrivare a battere ottimi giocatori. Altri programmi sarebbero presto seguiti: da quelli per la dimostrazione di teoremi della geometria ai primi programmi per gli scacchi, che sviluppavano alcune precedenti intuizioni di Shannon.
Comuni a questi e ad altri programmi saranno almeno le caratteristiche che abbiamo ricordato a proposito della programmazione dell’EDSAC. Essi elaborano strutture di simboli e, soprattutto attraverso complesse sequenze di applicazioni di regole di salto condizionato, sembrano simulare almeno i prodromi di una capacità ritenuta peculiare dell’intelligenza umana: quella di scegliere, davanti a un problema che dà luogo all’esplosione combinatoria delle mosse lecite, solo alcune sequenze di mosse che potrebbero portare alla soluzione. Classico è il caso del giocatore di scacchi, che ha di fronte a sé un numero ultrastronomico di possibili mosse alternative, che Shannon calcola nell’ordine di 10120. L’intelligenza viene identificata con questa capacità selettiva della mente umana, del resto ben documentata dalla psicologia dei processi del pensiero. È proprio con quest’ultima che l’IA delle origini si confronta, aspirando al ruolo di nuova scienza della mente.
Ma anche presso i ricercatori meno attratti da questa ambiziosa aspirazione, e interessati a costruire programmi per calcolatore che, senza essere rilevanti per comprendere la mente umana, abbiano comunque prestazioni efficienti, il successo dei primi programmi alimenta la convinzione che compito dell’IA è la “programmazione euristica”, cioè lo studio e l’implementazione delle strategie di soluzione di problemi efficacemente selettive, o euristiche. Si tratta di euristiche generali, come ad esempio quella di affrontare un problema suddividendolo in problemi più semplici da risolvere in prima battuta, dunque di strategie che possono essere applicate a compiti di natura molto diversa: dagli scacchi alla logica, da problemi matematici a numerosi giochi e rompicapo.
La rappresentazione della conoscenza
È nel contesto di questi compiti, talvolta detti problemi giocattolo (toy problem), che la programmazione euristica sembra dimostrarsi efficace. Le vere difficoltà cominciano con i “problemi della vita reale” (real-life problem), quali comprendere una lingua, riassumere un testo, fare una diagnosi medica e così via. In questo caso il programma deve essere in grado di gestire una quantità di informazioni specifiche sul compito da portare a termine, le quali influenzano la natura stessa delle euristiche. I cosiddetti sistemi “esperti” o “basati sulla conoscenza” sono il risultato di questa esigenza.
Indipendentemente dall’evoluzione dei sistemi esperti, che hanno conosciuto applicazioni commerciali di notevole portata, l’attenzione per i problemi della vita reale ha contribuito a riqualificare molte aree di ricerca che si erano mostrate intrattabili con l’approccio della programmazione euristica della prima IA: dalla traduzione automatica alla comprensione del linguaggio naturale, dalla robotica alla visione artificiale, quest’ultima in particolare a opera di David Marr (1945-1980) negli anni Ottanta. Alcune di queste aree sono state esplorate anche da ricercatori che continuavano a rifarsi alle ambiziose aspirazioni teoriche della prima IA, le quali, a partire dalla metà degli anni Settanta, confluirono nella scienza cognitiva.
Il problema da chiarire è quale sistema di strutture simboliche sia più adeguato per rappresentare le conoscenze nel calcolatore. Ciò ha dato luogo a dispute molto vivaci all’interno della comunità dell’IA, che hanno contrapposto ai “logicisti”, sostenitori della logica quale strumento di rappresentazione della conoscenza, gli “antilogicisti”. A Minsky si devono alcune idee influenti della tendenza antilogistica. Egli propone, nei primi anni Settanta del Novecento, una struttura dati, il frame (cornice), nella quale è possibile rappresentare conoscenze sotto forma di prototipi. Al programma viene data piuttosto che la definizione esplicita di un concetto, ad esempio di uccello, una definizione basata su un prototipo. Questo, come avviene nel caso degli esseri umani, può essere modificato in qualche sua caratteristica a seconda delle diverse esigenze o dei diversi contesti, in presenza di eccezioni o di aspettative mancate. Per restare all’esempio, si pensi alla caratteristica di volare, evidentemente presente nel prototipo del concetto di uccello, ma da modificare (e dunque vera fino a prova contraria, o “vera per default”, nella terminologia di Minsky) nel caso di un uccello che non voli (uno struzzo, poniamo). Altre strutture-dati proposte in IA condividono questa stessa impostazione, come gli script (copioni) di Roger Schank o i “modelli mentali” di Philip Johnson-Laird. In McCarthy si riconosce invece l’ispiratore della tendenza logicista, la quale ha sviluppato diverse tecniche logico-formali nel tentativo di affrontare lo stesso difficile problema delle eccezioni e delle aspettative mancate, e in generale del ragionamento, sfumato e allusivo, tipico del comune buon senso umano.
Il connessionismo
Una strada alternativa, inizialmente ritenuta promettente per affrontare questa ed altre difficoltà dell’IA, viene suggerita dalla ripresa della ricerca sulle reti neurali negli anni Ottanta, all’insegna del cosiddetto connessionismo. Le reti neurali dell’epoca cibernetica, come il ricordato Perceptron, non si mostrano in grado di competere con i primi programmi su calcolatore dell’IA. Le speranze di simulare le principali caratteristiche dell’intelligenza con macchine di questo tipo si arenano ben presto. In particolare, in un libro ormai celebre pubblicato nel 1969, Minsky e Seymour Papert (1928-) del Massachusetts Institute of Technology dimostrano i limiti intrinseci dei Perceptron alla Rosenblatt. Ma all’inizio degli anni Ottanta alcuni risultati aprono nuove frontiere alla ricerca, in particolare quelli del fisico di Princeton John Hopfield sulle memorie associative e quelli dello psicologo David Rumelhart e collaboratori su un algoritmo di apprendimento (noto come retropropagazione) che, applicato a reti più complesse del Perceptron, è in grado di superare le principali limitazioni denunciate da Minsky e Papert.
Da quel momento non pochi ricercatori cominciano a considerare le reti neurali come una possibile via per uscire dalle ricordate difficoltà dell’IA e per progettare modelli cognitivi più adeguati, perché ritenuti più vicini all’architettura del cervello reale. Le reti neurali posseggono una memoria distribuita, basata su procedure di tipo associativo piuttosto che a indirizzi, come nel caso del calcolatore; inoltre, manifestano un fortissimo parallelismo nell’elaborazione dei dati, rispetto all’elaborazione seriale tipica del calcolatore, e appaiono in grado di migliorare le loro prestazioni, specialmente a confronto con la rigidità manifestata da molti programmi di IA. L’introduzione di un livello di microstrutture (riassumibile nei concetti di nodo, di attivazione e di connessione tra i nodi di una rete) più “in basso” rispetto a quello delle macrostrutture simboliche come i frame o gli script ha reso possibile questi sviluppi. Su questa base Paul Smolensky ha contrapposto il paradigma “subsimbolico” del connessionismo (al quale viene spesso assimilata buona parte della ricerca sulle nuove reti neurali) a quello “simbolico” dell’IA precedente.
Verso la nuova IA
Il paradigma simbolico non è stato scalzato, tuttavia, da quello subsimbolico. Tra gli anni Ottanta e Novanta vanno ricordati i programmi di simulazione della scoperta scientifica, dei quali Simon è stato uno dei promotori. In quegli stessi anni, Douglas Lenat ha lanciato il progetto CYC, un programma in via di definizione, progettato per essere in grado di gestire un volume di conoscenze sempre più ampio. A queste ricerche vanno affiancate quelle centrate sugli agenti intenzionali e sui sistemi multiagente, nei quali agenti diversi cooperano in varie attività di pianificazione e di soluzione di problemi. Alcune di queste ultime ricerche, come pure quelle più classiche sulla rappresentazione della conoscenza, hanno finito per trovare anche applicazioni nel vasto mondo del web, dai sistemi ipertestuali ai motori di ricerca.
La scelta del livello subsimbolico per la costruzione dei modelli della cognizione ha comunque messo in discussione la separazione tra lo studio della mente e quello del cervello: una separazione che, sia pure in forme diverse, è stata comunemente accettata dai ricercatori di IA e di scienza cognitiva. Il filosofo Hubert Dreyfus già alla fine degli anni Sessanta aveva criticato come fallimentare la tendenza dell’IA di studiare la mente come separata dal corpo, da lui inteso come l’insieme delle capacità e delle attività percettive e motorie come sono da noi stessi esperite nell’interazione con il mondo, con tutto il nostro bagaglio di esperienze emotive e non solo cognitive. Queste vecchie obiezioni di Dreyfus all’IA delle origini godono ora di una diffusa popolarità, anche tra i sostenitori della cosiddetta “nuova IA” la quale, in polemica soprattutto con l’IA simbolica ma anche con quella subsimbolica, ha spostato con forza l’attenzione sullo stadio della percezione del mondo reale, uno stadio ritenuto il presupposto ineludibile per la spiegazione dell’attività intelligente.
È l’attenzione per questo fenomeno che ha ispirato la nuova IA nelle sue diverse tendenze, venute alla ribalta a partire dalla seconda metà degli anni Ottanta. In primo luogo va ricordata la robotica originata dalle ricerche di Rodney Brooks al Massachusetts Institute of Technology. I suoi semplici robot riescono a muoversi coerentemente in ambienti reali senza far uso di rappresentazioni simboliche: essi si ricollegano idealmente ai robot mobili della cibernetica, ma ne costituiscono un notevole progresso per quanto riguarda l’architettura, da Brooks detta della “sussunzione”, nella quale i diversi comportamenti del robot dipendono da moduli di controllo interconnessi semindipendenti. Per superare alcuni limiti di questa architettura, venuti presto alla luce, la robotica cosiddetta evolutiva ha successivamente fatto uso degli algoritmi genetici, che costituiscono un modello fortemente idealizzato dei processi di selezione naturale. Nuovi scenari si sono aperti nel frattempo con la robotica umanoide, che in prospettiva consentirà forme inedite di interazione uomo-macchina.
Tra le altre tendenze della nuova IA vanno poi ricordate la visione attiva, che rivede criticamente la concezione di Marr rifacendosi alle teorie dello psicologo James J. Gibson; la vita artificiale, promossa da Cristopher Langton, che ha posto al centro dei suoi modelli le nozioni di sviluppo, evoluzione e comportamento emergente; i sistemi dinamici complessi, che tentano un approccio generale alla cognizione antitetico a quello della macchina di Turing, attribuito all’IA e alla scienza cognitiva classiche. Anche gli automi di Gerald Edelman, basati sui principi del suo “darwinismo neurale”, si collocano su un versante critico dei presupposti dell’IA tradizionale ma anche del connessionismo.
Molte di queste nuove tendenze, tuttavia, convivono con quelle classiche, talvolta integrandosi positivamente in esperienze “ibride”, cosicché, ancora una volta, come ai tempi del connessionismo, appare difficile inquadrarle in un paradigma unitario, contrapposto a quello della “vecchia” IA simbolica.