Il contributo è tratto da Storia della civiltà europea a cura di Umberto Eco, edizione in 75 ebook
Negli anni Cinquanta del Novecento furono proposti due approcci allo studio matematico del linguaggio, con l’obiettivo di riuscire a definire l’insieme degli enunciati sintatticamente ben formati del linguaggio naturale. Il primo approccio, largamente dominante, ruota attorno alla nozione di sistema di riscrittura, il secondo, che ha radici più lontane, ruota attorno al concetto di grammatica categoriale.
La teoria dei linguaggi formali
Il linguista Noam Chomsky nel classico Syntactic structures (Strutture sintattiche, 1957) propone una gerarchia di grammatiche, oggi chiamata gerarchia di Chomsky, per classificare la complessità dei linguaggi formali.
Un linguaggio formale è un insieme di stringhe di simboli di lunghezza finita costruiti sulla base di un dato alfabeto, mentre una grammatica è un insieme di regole perfettamente esplicite che trasformano una stringa di simboli in un’altra. Per la loro semplicità matematica le grammatiche introdotte da Chomsky si sono rivelate notevolmente applicabili anche all’interno di discipline diverse dalla linguistica come l’informatica (tecniche di compilazione dei linguaggi di programmazione), la matematica discreta, la logica e perfino la biologia molecolare.
L’idea fondamentale di Chomsky è che le regole grammaticali “generano” un linguaggio, non nel senso per cui un parlante in carne e ossa userebbe queste regole per generare un linguaggio, ma nel senso matematico per cui di essere logicamente capaci di caratterizzare enunciati grammaticali. In questo modo la nozione chiave di generatività – familiare alla logica già con gli studi di Emil Post – consente di disporre della nozione di derivazione depurata dalla psicologia.
Formalmente, una grammatica G è una quadrupla Σ, VN, P, S dove:
– Σ è l’insieme degli elementi terminali della grammatica, chiamati “parole” del linguaggio, denotati da a, b, c;
– VN è l’insieme degli elementi non terminali (denotati da A, B, C) che sono utilizzati nelle tappe intermedie della derivazioni di frasi;
– P è l’insieme delle regole di produzione (di riscrittura) della forma: α→β; dove α e β denotano stringhe costituite da elementi di Σ o di VN;
– S è l’assioma o simbolo iniziale della grammatica, cioè un elemento particolare di VN.
La gerarchia di Chomsky ospita quattro classi di grammatiche in un ordine decrescente di generalità, cioè classificate in base alle restrizioni che contraddistinguono le regole di produzione:
grammatiche di tipo 0 (senza vincoli);
grammatiche di tipo 1 (contestuali o context-sensitive):
grammatiche di tipo 2 (acontestuali o context-free)
grammatiche di tipo 3 (grammatiche regolari)
La gerarchia è genuina nel senso che ogni classe di grammatiche è inclusa propriamente nella precedente. A ciascuna classe di grammatiche corrisponde la classe di linguaggi che sono generabili con grammatiche di quella classe e, a loro volta, ogni classe di questi linguaggi è associata a un particolare automa, cioè un meccanismo astratto capace di determinare per un linguaggio L e una frase f se f appartiene o no a L. Per limitarci agli estremi della gerarchia, i linguaggi di tipo 3, o regolari, sono precisamente quelli riconosciuti da un automa a stati finiti (una macchina che non richiede memoria di lavoro), i linguaggi di tipo 0 sono precisamente quelli riconosciuti da una macchina di Turing.
La questione della precisa relazione tra la gerarchia di Chomsky e i linguaggi naturali – che si possono considerare astrattamente come insiemi di stringhe di parole – ha attirato l’attenzione dei linguisti. Nel lavoro del 1957 Chomsky offre un’esposizione chiara dell’insufficienza delle grammatiche di tipo 3 come modelli per il linguaggio naturale, e sulla sua scia numerosi argomenti sono stati proposti a favore dell’inadeguatezza delle grammatiche di tipo 2. Da un punto di vista strettamente matematico, si è rilevato molto difficile dimostrare questa conclusione. Negli anni Ottanta, Geoffrey K. Pullum e Gerald Gazdar hanno confutato tutti gli argomenti empirici pubblicati in 25 anni di letteratura per dimostrare che i linguaggi naturali non sono context-free. In particolare essi hanno mostrato che molte costruzioni, peraltro largamente marginali, che erano state considerate oltre il livello 2 potevano invece essere descritte attraverso una grammatica context-free. È certo possibile l’esistenza di linguaggi naturali che non sono context-free, ma al momento le proprietà appaiono molto rare.
Le grammatiche categoriali
L’approccio categoriale è la confluenza di diverse tradizioni in filosofia della linguaggio, in logica e in algebra: il linguaggio naturale è visto in termini di funzioni e di argomenti piuttosto che in termini di una struttura costituente. Una grammatica categoriale può essere considerata come una coppia formata da un lessico e un calcolo: il lessico è una funzione che associa tipi a parole del linguaggio; il calcolo è uno strumento deduttivo che permette di inferire i tipi degli enunciati. Era stato Gottlob Frege a notare nell’Ideografia (1879) che un’espressione linguistica, se guardata attraverso la lente della relazione funzione/argomento, ammette una pluralità di analisi. Per esempio, nell’enunciato: Catone uccise Catone, la prima occorrenza di Catone può essere considerata come il valore della funzione uccise Catone; oppure si può decidere di considerare la seconda occorrenza di Catone come il valore della funzione essere ucciso da Catone; e infine entrambe le occorrenze di Catone possono essere prese come valori della funzione uccidere se stessi.
Ispirandosi a un lavoro del logico polacco Kazimierz Ajdukiewicz del 1935, Yehoshua Bar-Hillel, nell’articolo del 1953 A quasi arithmetical notation for syntactic description, definisce una grammatica categoriale molto semplice, detta AB grammatica.
Nel 1963 Chaim Gaifman dimostra che le AB grammatiche e grammatiche context-free generano la stessa classe di linguaggi.
L’idea che lo status grammaticale di una stringa sia derivabile dalle proprietà degli elementi della stringa e dal loro ordine lineare trova un’espressione matura nel lavoro del 1958 del matematico Joachim Lambek, The mathematics of sentence structure. Nelle stesse parole dell’autore, l’articolo si propone di “ottenere una regola effettiva (o algoritmo) per distinguere enunciati da non enunciati, il quali funzioni non solo per il linguaggio formale [...] ma per linguaggi naturali come l’inglese o almeno per frammenti di tali linguaggi”. Rispetto all’AB-grammatica di Bar-Hillel, Lambek introduce due notevoli differenze: il prodotto (non commutativo) “•”, visto come concatenazione di stringhe, e, più in generale, un potente strumento deduttivo come il calcolo dei sequenti alla Gentzen, nella sua versione intuizionista e senza alcuna regola strutturale. Del nuovo calcolo, che sarà chiamato calcolo di Lambek, egli mostra importanti proprietà computazionali quali la decidibilità e il teorema di eliminazione del taglio. Nel 1993 dopo tre decenni di tentativi è stato finalmente dimostrato da Mati Pentus che il calcolo di Lambek e le grammatiche context-free hanno lo stesso potere generativo.