Basi di conoscenze e banche dati lessicali
Le relazioni tra conoscenza e parola, tra cognizioni e lessici delle diverse lingue sono state e, giova dir subito, restano tuttora materia di molteplici riflessioni filosofiche e di progredenti indagini sia psicologiche, empiriche e sperimentali, sia storico-linguistiche e antropologico-culturali. Così è stato da tempi remoti e in varie aree e tradizioni culturali. Spicca tra queste, anzitutto per continuità, la tradizione che dall’Europa moderna risale, attraverso il Medioevo, all’antichità greca e latina. All’interno di questa tradizione millenaria in anni recenti le possibili relazioni tra conoscenze e lessico si sono andate configurando in modo nuovo nell’ambito dell’informatica e delle computer sciences. Si va sviluppando una ingegneria della conoscenza al cui centro stanno i tentativi di creare rapporti informatizzati, automatici, tra basi di conoscenze e basi di dati lessicali. Ciò sta avvenendo in modo accentuatamente nuovo sotto la spinta dell’intrecciarsi di crescenti esigenze informative e di sviluppi scientifici e tecnici affermatisi negli ultimi decenni.
Incremento, riarticolazione e integrazioni di conoscenze e informazioni
La seconda metà del Novecento è stata caratterizzata da un incremento senza precedenti delle acquisizioni del sapere critico e scientifico, fondato su ricerche ed esiti falsificabili, in tutte le sue articolazioni. Si devono ricordare almeno tre studiosi che rilevarono ciò sul campo, nel mezzo del processo stesso: Abraham A. Moles (Sociodynamique de la culture, 1967; trad. it. 1971), Alvin Toffler (Future shock, 1970; trad. it. 1971), Jean-François Lyotard (La condition postmoderne. Rapport sur le savoir, 1979; trad. it. 1981). L’incremento ha coinvolto non solo i campi delle scienze naturali ed esatte, le hard sciences, ma anche, in misura notevole, le scienze storiche e umane. Un risultato è stato il riarticolarsi di ciascuno dei campi disciplinari tradizionali in una pluralità di articolazioni minori. I cultori di queste rivendicano spesso la loro specifica autonomia di metodi, procedure, stili di ricerca e di contenuti e, in effetti, molte tra queste subarticolazioni oggettivamente si configurano come difficilmente controllabili da uno stesso specialista o, anche, da un gruppo di specialisti di uno di quei campi che all’inizio del 20° sec. erano ancora campi relativamente unitari. Per es., in un settore di studi correlato strettamente agli argomenti qui in questione, nelle scienze del linguaggio e della comunicazione, semiologia o semiotica erano poco più che parole, erano mere proposte programmatiche e teoriche legate alle elaborazioni individuali di due grandi ma isolati protagonisti del settore, Charles Peirce e Ferdinand de Saussure. Nel corso del secondo Novecento dal seme di quelle proposte sono germogliate intere foreste di studi, sono nati istituti universitari nazionali e internazionali e numerose riviste. Lo stesso potrebbe dirsi delle intuizioni statistico-linguistiche (geniali e inizialmente solitarie) rese note già negli anni Trenta dallo psicologo americano Georges K. Zipf: da queste è poi partita la grandiosa espansione della statistica linguistica, da una cui costola si sono ulteriormente sviluppate la linguistica computazionale (Chiari 2007) e la linguistica dei corpora (Corpus linguistics, 2004; Corpora e linguistica in rete, 2007; Parole in rete, 2007). I corpora accompagnati da opportune etichettature semantiche, sintattiche o altre delle parole che vi appaiono offrono una base statistica alle sistemazioni lessicografiche. In tutti i campi del sapere l’esplosione bibliografica e la nascita di bibliografie e sitografie che danno conto delle bibliografie e sitografie di settore sono una conseguenza vistosa e tangibile di tutto ciò.
In parallelo vi è stato un incremento altrettanto vistoso delle informazioni correnti relative alla vita sociale per gli aspetti ritenuti significativi. Le agenzie e fonti di informazioni si sono moltiplicate e ciascuna ha accresciuto la mole dei lanci informativi quotidiani. Nel 2006 l’agenzia Reuters, operante dal 1951, ha lanciato due milioni di notizie provenienti da 209 diversi Paesi e redatte in 18 lingue diverse per complessivi otto milioni di parole; l’Agence France Press produce annualmente testi per oltre duecento milioni di parole e circa tremila fotografie e grafici ogni giorno; l’Associated Press, con 243 redazioni in 97 Paesi, produce testi per oltre 12 milioni di parole al giorno (Randall 2008). Non si tratta solo di un fatto dovuto alla operosità soggettiva dei produttori e gestori delle fonti di informazione. L’evoluzione tecnologica di queste fonti, che in tempo reale danno conto di fatti che accadono in ogni parte del pianeta, si è combinata con l’oggettiva ed effettiva crescente interazione tra società e popoli diversi, con un intenso interscambio economico e mediante il coordinamento di processi economico-produttivi e sociopolitici di Paesi appena ieri recipro-camente remoti. Gli ingenti spostamenti di popolazione dall’Est all’Ovest, dal Sud al Nord del mondo e la creazione di nuove entità politiche sopranazionali, come l’Unione Europea, rendono tangibili questi rapporti sempre più stretti. Meno evidenti per molti, ma non meno incidenti sulla vita dei singoli Paesi e perfino degli individui, sono le numerose consociazioni di Stati i quali, in certi ambiti (petrolio, economia, commercio, monetazione e finanze, pesca ecc.), se non rinunziano ai loro poteri, ne affidano l’esercizio alle indicazioni e norme emanate da entità sovrastatali nuove ‘oltre lo Stato’. Perfino chi ha voglia di procurarsi tartarughe o mangiare gamberetti o chi vuole importare frutta deve necessariamente tenere conto di indicazioni e norme che non sono di immediata accessibilità (Cassese 2006).
A entrambi i livelli, negli studi e nell’informazione, alla differenziazione e parcellizzazione ha fatto riscontro il crescere della consapevolezza della necessità di integrazione delle conoscenze e delle informazioni.
In ambito scientifico, la consapevolezza si è imposta e parte subiecti nel senso colto ed espresso già nella prima parte del 20° sec. da Richard von Mises, il quale osservava che molti progressi scientifici avvengono ai confini di campi disciplinari diversi quando vengano messi in relazione e fatti interagire nell’analisi di un fatto particolare. Ma anche e parte obiecti, a partire almeno dagli anni Sessanta del Novecento, nell’analisi di molti campi è maturata la consapevolezza dell’esistenza dei butterfly effects. Tipicamente, lo studio dei fatti meteorologici ha fatto emergere l’idea che ‘se una farfalla batte le ali a Pechino in marzo, allora in agosto il tracciato degli uragani dell’Atlantico sarà totalmente differente’. Ciò ha portato alla nascita di una riflessione generale sui fenomeni caotici, sviluppata da James Gleick (1987) e altri (Devaney 1986; Hilborn 2004). Separare fatti di pertinenza di un campo da quelli di altri campi o fatti ritenuti essenziali da fatti di dettaglio è parso sempre più difficile e comunque dannoso per la buona comprensione dei fenomeni dato il peso imprevedibile che fatti di dettaglio e condizioni iniziali di contorno mostrano di avere sull’andamento dei fenomeni che si considerano. Questo è evidente nelle interazioni fisiche e antropologiche tra realtà sincrone, compresenti, ma si profila anche in diacronia, nella considerazione dei fatti storici. Come è stato detto ironicamente da A. Toffler, quella che in sé fu una banale scaramuccia tra piccole città-stato enfatizzata da storici dell’epoca, la guerra del Peloponneso, rivela nel mondo d’oggi, dalla Thailandia al Messico, i suoi effetti vasti e straordinari. Analogamente può osservarsi che il lessico giuridico, politico, intellettuale della latinità classica e medievale penetra oggi come non mai, sull’onda dell’inglese, lingue appena ieri estranee alla pur già ampia sfera della latinità, dall’area europea slava e ugrofinnica alle aree estremo-orientali e sud-asiatiche.
Si aggiunga che l’incremento delle conoscenze scientifiche, l’incremento della massa di informazioni collegate alla effettiva interazione delle società del pianeta, il crescere della consapevolezza della necessità di integrazione delle conoscenze e delle informazioni hanno avuto ricadute imponenti nell’assetto stesso della vita quotidiana specialmente per le popolazioni delle società a più alto reddito. La ricerca scientifica non è più un mondo lontano e separato dalla quotidianità. Attraverso le applicazioni tecnologiche, ma non solo, essa incide vistosamente e pervasivamente su molti aspetti della vita di ogni giorno e di ogni persona, dall’alimentazione alla salute, all’intrattenimento. Come è stato osservato, Talete non è più un personaggio stravagante che cammina guardando il cielo e rischiando di cadere nel pozzo sotto lo sguardo irridente della servetta tracia. Talete forse corre oggi rischi anche maggiori, ma sta in mezzo a noi e ci si impone con i suoi saperi e i suoi ritrovati tecnici; e la servetta, se vuol sopravvivere, ha bisogno di interpellarlo a ogni passo. Il bisogno di conoscenze e informazioni si fa avvertire quotidianamente a ogni livello sociale. Chi lo ignora o non lo soddisfa rischia di essere severamente punito dai fatti.
Sviluppo delle tecnologie informatiche
Lo sviluppo delle tecnologie informatiche ha accompagnato e intersecato in vari modi i fenomeni precedentemente descritti e, nello stesso tempo, pare offrire possibili risposte ai bisogni diffusi di conoscenza che essi stessi hanno creato.
Il punto di partenza remoto e talora obliato dell’attuale sviluppo è la nozione di ‘messaggio’ o ‘segnale’ con la correlata nozione di ‘informazione’ proposta da Claude Elwood Shannon e Warren Weaver nel 1949. Nella prospettiva allora elaborata qualunque variazione dello stato fisico che un trasmettitore immetta in un canale e sia ricevuta da un ricettore può essere un messaggio o segnale con un suo contenuto. Non è esatto dire che il segnale prescinde dal significato. Si riferisce in realtà a esso ma ne mette tra parentesi le peculiarità semantiche, culturali, psicologiche, al modo in cui una cifra e numero dell’aritmetica elementare prescinde dalla qualità dell’insieme che numera e opera e consente di operare e calcolare senza riferimento alle qualità dell’insieme. Un segnale unico può riferirsi all’intera Bibbia di re Giacomo in quanto veicolata in un canale da un segnale zero, materializzato, per es., dall’apertura di un circuito elettrico, alternativo a una chiusura dello stesso circuito elettrico materializzante un uno che veicola (tale era l’esempio) un semplice yes «sì». In quanto siano le sole alternative equiprobabili in uno stesso canale i due messaggi hanno una quantità di informazione pari al logaritmo di 2 in base 2, cioè pari a quella che si assume come unità di misura dell’informazione che venne poi detta bit da John W. Tuckey. Gli aspetti semantici della comunicazione, la struttura concettuale o reale, referenziale, ontologica, che da altri punti di vista può celarsi dietro lo 0 o l’1, il loro contenuto di senso in una lingua e in una cultura determinata sono ritenuti irrilevanti da questo punto di vista, che è possibile considerare come una sintatticizzazione delle nozioni di messaggio e di informazione. Il messaggio è visto come mera alternativa ad altri su uno stesso canale e l’informazione di cui è portatore è data solo dal numero e dall’occorrere delle possibili alternative sul canale dato. Questa spinta sintatticizzante e formalizzante ha attraversato tutto il campo di studi e lo ha dominato a lungo. Il messaggio diventa un semplice datum formale. Naturalmente esso è riarticolabile a sua volta in unità di analisi pur sempre meramente formali, asemantiche, da trattare esso ed esse nelle loro relazioni puramente sintattiche.
Il rapido e immenso sviluppo delle tecnologie di immagazzinamento e reperimento dei data attraverso macchine di crescente potenza ha portato al costituirsi di imponenti basi di dati o data bases o, più comunemente, databases. Questi sono predisposti in modo da facilitare e automatizzare il reperimento di informazioni sui dati che contengono. Da molti anni possono essere collegati in reti che ne consentono la consultazione attraverso motori di ricerca. L’accesso attraverso la rete ha potenziato l’interesse di utenti di ogni categoria per il contenuto dei data-base e di tutti gli altri documenti immessi nella rete. L’impianto dei data-base e l’accesso ai documenti della rete nelle loro radici ingegneristiche e teoriche, che abbiamo prima richiamato, e nella loro struttura sono sintattici, sistemici e formali; l’interesse degli utenti è invece semantico, non sistemico ma locale, tendenzialmente informale. Per tornare al remoto esempio di Shannon ciò che interessa l’utente è conoscere nelle sue parti e nel rispettivo significato la Bibbia di re Giacomo o che cosa vuol dire yes. L’architettura sintattica è lasciata agli ingegneri. Cosa non nuova: interessa attraversare il ponte, non sapere come è fatto, se non per quel tanto che dia garanzie di felice traversabilità.
Computer di memoria crescente hanno immagazzinato testi ridotti a sequenze digitali sempre più estesi. I computer sono stati messi in rapporto tra loro in una rete mondiale unitariamente accessibile attraverso grandi motori di ricerca (come Alltheweb, Altavista, Google). Ciò ha creato una condizione notevolmente nuova per l’accesso al sapere e all’informazione, ma anche per il loro intrinseco funzionamento (Ciotti, Roncaglia 2000). Un patrimonio estesissimo di testi d’ogni genere è accessibile in rete. Attraverso la formulazione di richieste sulla collocazione di una o più sequenze digitali, alfanumeriche, si accede a tutti i testi in cui ve ne sia l’occorrenza. Si tratta di testi redatti in lingue diverse, attualmente fra circa trenta e circa cinquanta delle tremila lingue anche scritte del mondo. Tra di essi vi sono non solo testi singoli, ma la somma di testi di intere biblioteche digitalizzate (Metitieri, Ridi 2002; Solimine 2004).
In questo quadro di una complessità grande e impetuosamente crescente (Galassia web. La cultura nella rete, 2008) si è posta e si ripropone la questione dell’acquisizione di conoscenze circostanziate sui diversi soggetti che possano interessare un’utenza stratificata per lingua, livelli d’istruzione, professione, sparsa nel mondo e ascendente ormai a centinaia di milioni di persone. Domande antiche acquistano una nuova rilevanza e la ricerca di risposte adeguate alle esigenze dell’immenso popolo multilingue di Internet si fa pressante. Si è spinti a rivisitare per necessità anche pratiche, oltre che teoretiche e scientifiche, questioni appena ieri riservate a cerchie ristrette di filosofi e specialisti. Che cosa si intende per conoscenza? Ciò che di volta in volta collochiamo sotto questa etichetta che relazione ha con le parole, con l’apparato simbolico di cui gli esseri umani si servono per dare corpo alle loro esperienze vitali, pratiche, intellettuali e che in rete ci guidano nell’acquisizione di conoscenze? Le domande antiche soggiacciono a nuove formulazioni. Se le conoscenze o determinate conoscenze risultano organizzabili in basi di conoscenza che rapporto queste hanno con le banche dati lessicali?
Il punto di vista linguistico ha un particolare titolo a esprimersi. Si vedranno più oltre singole ragioni di ciò. Ma subito affermiamo che, anche se si ammettono forme di conoscenza non linguistiche o prelinguistiche, specie fuori del mondo umano, le forme esplicite di rappresentazione delle conoscenze finora note, anche le più formalizzate, sono filtrate in modo più o meno consapevole attraverso previe assunzioni di determinazioni linguistiche e più specificamente lessicali. A queste non possono non rifarsi anche scelte di simbologie e icone che, in qualche misura, si offrano come ponte tra le divergenti specificità lessicali delle lingue o ambiscano a scavalcarle. I lessici delle lingue non sono solo un posterius da raccordare alle basi di conoscenze, ma pesano come un prius nella definizione di tali basi o dei postulati che portano a definirle. Tuttavia vecchie e nuove domande coinvolgono diversi ambiti di riflessione filosofica e campi disciplinari diversi, non solo lo studio delle lingue storico-naturali, la lessicologia e la lessicografia, ma anche, almeno, la teoria dell’informazione, la teoria dei linguaggi formali, dei calcoli e della computazione, la computer science o informatica, le acquisizioni della teoria e filosofia del conoscere, le scienze cognitive.
Certamente è difficile tenere conto di tutte le possibili interazioni e intersezioni disciplinari. Le risposte alle domande precedentemente formulate che qui saranno evocate sono soltanto alcune tra quelle possibili. Se possono aspirare a un pregio, non è tanto quello della certezza assoluta, quanto quello della loro circostanziabile falsificabilità.
La conoscenza in rete
È nota la distinzione dei ‘tre mondi’ proposta da Karl Popper (1972 e 1978). Il ‘mondo uno’ è il mondo dei fenomeni di esperienza diretta, il mondo di ciò che postuliamo esista prima e indipendentemente da singole specifiche osservazioni umane, il mondo della fisicità, che è stato paragonato alla res extensa cartesiana, ma è più legittimamente assimilabile al ‘mondo’ come ‘totalità dei fatti’, cioè come totalità del ‘sussistere di stati di cose’ (‘nessi di oggetti’) della proposizione 1.1 e immediatamente seguenti del Tractatus logico-philosophicus (1922) di Ludwig Wittgenstein. Il ‘mondo due’ è il mondo (umano, ma non solo) degli stati mentali, delle idee e delle percezioni, assimilabile al mondo della res cogitans. Il ‘mondo tre’ è il mondo della conoscenza umana espressa in varia forma, ovvero è il prodotto del ‘mondo due’ reso manifesto attraverso materiali del ‘mondo uno’ (suoni, scritti, libri, pitture, musiche e produzioni della mente umana), è il mondo di quella che Kant chiamava cultura nelle sue forme meno necessarie. Per Popper il ‘mondo tre’ nasce come prodotto di singoli individui umani, nasce come nasce un sentiero, che ha poi un’esistenza ed evoluzione indipendente dai singoli soggetti umani.
Se al momento assumiamo la distinzione popperiana come prospettiva, le conoscenze umane e, si può supporre, in genere le conoscenze di ogni vivente si collocano nel ‘mondo due’: esse sono fondate sul ‘mondo uno’ e assumono la loro forma manifesta nel ‘mondo tre’, per gli umani e per i viventi capaci di cultura. Ci riferiamo con quest’ultimo termine, in continuità con l’uso fattone da pensatori come Immanuel Kant o Antonio Gramsci oltre che dall’antropologia contemporanea, a tutto ciò che in una comunità e in una specie vivente, che appartiene al ‘mondo uno’ ed è però capace per definizione di partecipare al ‘mondo due’, è appreso e trasmesso attraverso elaborazioni simboliche (Mainardi 1974 e Dizionario di etologia, a cura di D. Mainardi, 1992; Bonner 1980), cioè attraverso un linguaggio, un termine generale che designa non solo il linguaggio stricto sensu, il linguaggio che vive per verba orali o scritti, ma ogni forma di attività simbolica, ogni semiosi (De Mauro 2008).
In italiano e in altre lingue europee parole come, per es., conoscenza (fr. connaissance, ingl. knowledge, ted. Erkenntniss) o conoscere (fr. connaître, ingl. (to) know, ted. erkennen) hanno un ampio spettro di accezioni, che in un dizionario filosofico rischiano di disperdersi sotto lemmi diversi oppure di finire sottaciute (Vocabulaire européen des philosophies, 2004). Con esse indichiamo nozioni diverse: il conoscere come possesso di una nozione o di un insieme di nozioni organizzate; il conoscere come acquaintance (esperienza di qualcosa acquisita personalmente) o familiarity gained by experience (familiarità acquisita tramite l’esperienza); il pieno possesso delle facoltà psichiche, la coscienza; l’essere informati; l’essere istruiti; l’essere informati in e di una scienza o tecnica particolare; la consuetudine personale con qualcuno; l’amicizia; il possesso di una singola nozione e, infine, la nozione stessa. Questo ampio spettro è riconoscibile, tra l’altro, anche nella folla di iperonimi e correlati segnalati in un dizionario di aspirazioni formali, WordNet, di cui torneremo poi a dire (WordNet. An electronic lexical database, 1998).
In alcune delle accezioni è ravvisabile l’emergere dei rapporti tra la conoscenza propria di singole persone e dimensioni collettive. Accezioni come ‘essere informati’ o ‘essere istruiti’ rinviano al rapporto tra le acquisizioni individuali e la circolazione di informazione in una società o la scuola e la formazione scolastica istituzionale. L’essere informati in una scienza o tecnica implica il rapporto con le sistemazioni istituzionalizzate proprie di un campo del sapere o con le pratiche tecniche consolidate. Inoltre WordNet collega knowledge anche a episteme nel senso che all’antica parola greca è stato dato a partire dall’opera di Michel Foucault, Les mots et les choses: une archéologie des sciences humaines (1966): il sapere collettivo che una comunità in una certa epoca assume come scientificamente vero e fondato e che è, come talora si è detto, una sorta di inconscio epistemologico collettivo. Esso è connesso altresì al repertorio di immagini stereotipe proprio di una cultura e di un’epoca. Si tratta del repertorio che, sul modello di vocabolario o dizionario, diciamo immaginario a partire da studi come quelli di Gilbert Durand (1960 e 1994; v. anche Grassi 2006). Ma, come poi diremo, vi sono rapporti ancora più profondi e costitutivi tra conoscenza e dimensioni collettive, almeno nel mondo umano.
L’insieme delle accezioni di parole come conoscenza e conoscere, la loro diversità e il loro fluttuare e sfumare l’una nell’altra, rinviano alle distinzioni e interrelazioni tra i diversi aspetti con cui i fenomeni della conoscenza ci si presentano nel ‘mondo uno’ e ‘due’ e sono simbolizzati, espressi o studiati nel ‘mondo tre’. Se torniamo allo schema popperiano dei tre mondi, la conoscenza in tutte le sue accezioni pare attraversarli tutti. Realizzata in quanto processo esperienziale, percettivo, dagli organismi viventi, immersa dunque in quanto tale nel mondo della fisicità, ha base in questo, in particolare nell’apparato nervoso centrale, nel cervello, anche in quanto elaborazione mentale e insieme dei risultati, di stati mentali e memorie di singole conoscenze nel cervello (Oliverio 2002; Edelman 2004 e 2006), si collega al ‘mondo uno’ in quanto punto di partenza delle percezioni ed elaborazioni mentali, e infine fornisce alimento ai prodotti del ‘mondo tre’, alle produzioni letterarie, scientifiche, artistiche della cultura intellettuale, sia alla loro forma espressiva sia ai loro contenuti.
Considerata come processo o come stato la conoscenza è vista in genere come centrata su ciò che con parola di non minore varietà di accezioni si dice concetto (fr. concept, ingl. concept, ted. Begriff). Derivata dal latino classico conceptus «atto del concepimento», «raccolta, ammasso», «frutto del concepimento, feto», «frutto del concepimento in senso intellettuale, mentale», da quest’ultima accezione la parola nel latino medievale acquista un valore centrale nella riflessione filosofica. In età medievale si è sostenuto che le varie determinazioni teoriche del termine, il verbum mentis di Tommaso d’Aquino, si riconducono fondamentalmente a due valori: «da una parte esso denota, in senso letterale, il prodotto della gestazione interiore, dall’altra la sua etimologia (con-capere: prendere insieme) evoca il raggruppamento di una pluralità di elementi in un’apprensione unica, cioè niente di meno che la nozione di generalità. Produzione interiore del pensiero da una parte, e generalità dall’altra, tali sono le due componenti chiave del conceptus. […] L’uso ulteriore di concept o Begriff oscilla tra l’evocazione di un oggetto astratto completamente privato di aspetti psicologici (come in Frege) e quella di una rappresentazione mentale (come nelle scienze cognitive) […]» (Vocabulaire européen, 2004, p. 248).
Dunque un vasto insieme di conoscenze, eterogeneo anche nello stretto ambito delle scienze cognitive recenti (Margolis, Laurence 2006), è depositato nella ormai quasi incalcolabile quantità di parole, immagini, suoni e testi registrati nella rete. Come è possibile attingere con rapidità e sicurezza a questo patrimonio è la domanda che si pone tanto il singolo utente profano quanto una parte rilevante della ricerca attuale.
La risposta viene cercata certamente a partire dai testi e dalle parole che li materiano, interrogando la rete, ma il proposito della parte della ricerca che qui più interessa è cercare la via per trascendere le forme significanti attingendo in via automatica alle conoscenze che in esse sono depositate, risalendo dalle parole ai concetti che in esse si esprimono. Tale via, come si vedrà, comporta forti riduzioni e restrizioni.
Interrogare la rete attraverso parole
Questa pressione diffusa dell’interesse conoscitivo è all’origine di una serie di tentativi per coordinare i data-base agli interessi ‘locali’ dell’utenza. I data-base tendono a configurarsi come basi di conoscenze interrogabili in funzione di queste, cioè di contenuti oggettivi o di significati delle parole su cui può vertere una query. Ciò che il data-base può offrire con relativa immediatezza è la risposta a interrogazioni sulla presenza e distribuzione di un datum formale, di un simbolo o di una sequenza di simboli. Intesa così la risposta si presenta come un coacervo di dati eterogenei sotto i più vari profili. Il problema è mettervi ordine, scavalcando difficoltà anzitutto linguistiche di varia natura (Chiari 2007, pp. 54-57).
Un primo profilo ormai considerabile come banale dal punto di vista informatico è rappresentato dalle omografie e omonimie eterolinguistiche. Dal principio generalissimo dell’arbitrarietà linguistica, nelle sue formulazioni anche più tradizionali presenti già nel pensiero greco presocratico, discende immediatamente il fatto che una stessa sequenza grafica (e/o fonica) può occorrere nei testi e lessici di lingue diverse con valori completamente differenti. Si tratta dei più ingannevoli tra i falsi amici. Sono falsi amici almeno graficamente totali (Chamizo-Domínguez 2007). Per es., la sequenza grafica cane indica il noto animale domestico in italiano, la canna e il fustigare in inglese, l’anatra (o, con ossitonia grafica e fonica, chi è stanco) in francese e così via. Si aggiunga che una query CANE restituisce anche nomi propri, sigle ed eterografi accentuali (come il menzionato cané in francese e cané «gioco d’azzardo» in spagnolo). I circa 36 milioni di testi in cui attualmente figura in rete un’occorrenza della sequenza cane vanno filtrati a seconda di ciò che si ricerca (notizie su canne e frustate, sull’animale domestico, sulle anatre o sui giochi d’azzardo) e a seconda delle lingue, cosa cui in parte provvedono già le selezioni e raggruppamenti dei testi per lingua previste dai motori di ricerca. Sfruttando questo accorgimento, selezionando cioè i testi per lingua, si ha un drastico abbattimento di documenti. Negli esempi fatti, da 36 milioni complessivi di documenti, si passa a 1.700.000 documenti per la sequenza cane in inglese, 700.000 in italiano, 450.000 in francese e così via. La selezione dei documenti in una sola delle diverse decine di lingue accessibili con i motori di ricerca consente di superare questo primo profilo di eterogeneità delle risposte a una richiesta.
Il secondo profilo e ostacolo a una domanda per singola sequenza alfanumerica è rappresentato da quello, altresì relativamente banale, delle omonimie e omografie interne a ciascuna lingua. Distinguiamo gli omonimi in due tipi: gli assoluti e i relativi o testuali. Gli omonimi assoluti sono parole di eguale significante e categoria morfologica ma di significato radicalmente diverso, presentate e distinte in tale loro diversità nei dizionari tradizionali, sulla base di due criteri non sempre dichiarati: la diversità etimologica, per la quale in italiano i dizionari distinguono, per es., un lemma attitudine «atteggiamento» dal latino actitudo e un lemma attitudine «disposizione, capacità» dal latino aptitudo; e una diversità di ambiti d’uso e/o di significato ritenuta non colmabile, per ciò si distingue una ombrofilia degli psicologi, «attrazione morbosa per i luoghi ombrosi», da una ombrofilia dei botanici, «attrazione di piante, dette ombrofile, per i luoghi ombrosi». La natura solo debolmente sistemica delle lingue storico-naturali e il conseguente uso largamente locale del lessico fanno sì che nelle lingue, in ambiti d’uso inizialmente diversi o a causa di evoluzioni fonetiche, si introducano parole di significante accidentalmente eguale, ma di significato radicalmente diverso: tali in italiano abbarcare «curvare (una tavola ecc.)» e «raccogliere in covoni», abbonare, libare «brindare», «alleggerire», blocco, boa, canto, lega, partire ecc.; in inglese cop «poliziotto» e «spola», fret «traversina», «stizza» e «greca», light «luminoso» e «leggero», pass «lasciapassare» e «valico», van «furgoncino», «vaglio» e «avanguardia» ecc.; in francese (dove l’adozione tradizionale di grafie etimologiche minimizza nello scritto l’alta presenza di omofoni nel parlato) goutte «goccia», «gotta» e così via. Gli omonimi assoluti hanno una incidenza statistica relativamente marginale nel lessico potenziale delle lingue e nei testi: per l’italiano, per es., si è stimato che si aggirino intorno al 2% dei lessemi del lessico più comune, con una presenza assai più ridotta nei testi. Soltanto in lingue isolanti come il cinese gli omografi assoluti ascendono a percentuali anche maggiori sia nel lessico potenziale sia nei testi.
Gli omonimi relativi sono parole che in talune forme flesse hanno significante coincidente, ma sono riconducibili a lessemi (o serie paradigmatiche) differenti: tali in italiano corse sostantivo plurale e voce del verbo correre; do voce del verbo dare e nome di nota musicale; faccia sostantivo e voce del verbo fare; la articolo femminile, procomplemento, nome di nota musicale; legge sostantivo e voce del verbo leggere; sbarra sostantivo femminile e voce del verbo sbarrare. Dobbiamo all’esperienza di applicazione ai testi di programmi di lemmatizzazione automatica una stima della grande incidenza percentuale degli omonimi relativi nei testi delle lingue più diverse. Oggi sappiamo che nelle lingue europee circa la metà delle forme di parole dei testi sono plurietichettabili, riconducibili cioè a più di un lessema. Per il lettore o ascoltatore umano la memoria del co-testo precedente unita a conoscenze e valutazioni del contesto situazionale è sufficiente in genere per disambiguare all’istante, senza avvertire problemi, la generalità di forme plurietichettabili che quindi solo eccezionalmente provocano equivoci (De Mauro 2008). Al lemmatizzatore automatico la conoscenza del contesto situazionale è preclusa, la sola fonte di disambiguazione è l’acquisizione del co-testo precedente e, eventualmente, seguente. Al centro della disambiguazione automatica vi è un dizionario di macchina organizzato in modo da registrare sia i lessemi nella forma di citazione abituale per i dizionari di una lingua sia le forme flesse che il lessema assume nei testi di una data lingua (flessiva o agglutinante). Dizionari di macchina di recente generazione permettono di mettere a lemma, e quindi di registrare nei testi, anche le locuzioni polirematiche o lessemi complessi. Forme riconducibili a lessemi non presenti nel dizionario di macchina sono registrate e ricondotte ipoteticamente a nuovi lessemi. Questa e ogni altra operazione automatica sono filtrate attraverso un’interfaccia di validazione umana, avvantaggiata dall’assegnazione automatica di un indice di affidabilità della disambiguazione, ove un lessema idoneo sia già presente nel dizionario di macchina, e dalla segnalazione delle forme nuove o comunque devianti rispetto al dizionario di macchina e alle sue previsioni. Sulla scorta di ormai vaste esperienze si può ritenere che per lessemi già noti la probabilità di individuazione e disambiguazione che l’osservatore umano valida poi come corrette si approssima in genere alla probabilità 1 se il lemmatizzatore ha acquisito correttamente, memorizzandole nei lessemi del dizionario di macchina, in media due forme precedenti e due seguenti (Mancini 1993). La lemmatizzazione automatica tuttavia non è in grado di disambiguare forme riconducibili a lessemi omonimi assoluti. Dal punto di vista dell’analisi automatica questi non differiscono dai casi relativi al seguente terzo profilo di difficoltà.
Il terzo profilo, infatti, rende problematico il reperimento di informazioni omogenee sia automatico sia anche intelligentemente umano attraverso una semplice query lessicale, ed è il profilo creato dall’esistenza di lessemi polisemi, portatori cioè di una pluralità di accezioni. Assumendo che ciascun lessema abbia un suo peculiare significato generale (signifié nella terminologia derivata da Ferdinand de Saussure, Sinn nella terminologia derivata da Gottlob Frege), nei diversi contesti il signifié assume nel concreto esprimersi diversi particolari sens, sensi, ovvero, nella terminologia di Frege, il Sinn assume nei diversi contesti diverse Bedeutungen. Ciò vale per ogni lessema. Per molti si constata che la diversità dei sens ovvero delle Bedeutungen è mediata dal loro raggrupparsi in famiglie relativamente omogenee all’interno del significato generale del lessema. A tali ripartizioni dei sensi pertinenti al significato complessivo di una parola attribuiamo il nome di accezione, un termine di derivazione tardoantica.
I dizionari sono solitamente parchi di chiarimenti sui criteri adottati per distinguere e giustificare le diverse accezioni di una stessa parola. I criteri sono spesso impliciti e sono diversi. Ciò del resto in parte è necessario per consentire al dizionario di dar conto della sinuosità e variabilità dell’uso effettivo, in parte è il riflesso del carattere a lungo poco sistematico e prevalentemente artigianale e intuitivo del lavoro lessicografico anche più accurato. Ai fini della ipotesi di rendere automatico il rapporto tra basi di conoscenze e basi di dati è indispensabile tenere presente questa varietà di criteri adottati per determinare il diversificarsi delle accezioni. Cerchiamo qui di seguito di rendere espliciti tali criteri.
a) Diversità di valore sintattico: le accezioni di lessemi verbali come aspirare, battere, cagliare, calare, seguire, tacere ecc. si distinguono a seconda della transitività o intransitività che nei testi risulta in gran parte dai co-testi; le accezioni di lessemi nominali come chiaro, forte, piano, alto, basso si distinguono a seconda dell’impiego come sostantivi, aggettivi, avverbi; altrettanto vale per le accezioni di lessemi invariabili come dopo, prima, presso.
b) Diversità di correlazione paradigmatica e potenziale del lessema con classi distinte di sinonimi e antonimi sostitutivi: nel dizionario (non sempre nei testi) si distinguono così un prendere come ‘afferrare’ (prendere un oggetto, un bicchiere, il cappello, le monete dal borsellino) da un prendere come ‘ricevere’ (prendere un discreto stipendio, lezioni di inglese, un brutto voto), come ‘acquistare’ (prendere i biglietti, prendere un quadro), come ‘assumere’ (una posizione, un atteggiamento), come ‘sorbire/mangiare’ (prendere un caffè, una pizza), come ‘acquisire’, ‘conquistare’ (prendere una città, la fortezza, un ampio spazio) ecc.; ovvero un alto come ‘elevato, non basso rispetto a un livello di riferimento’ (una montagna alta, un ragazzo alto, il ripiano alto), come ‘acuto, non grave’ (una nota alta, un suono alto), come ‘profondo’ (nel lago l’acqua è alta, il mare alto) e così via.
c) Diversità di correlazione sintagmatica effettiva e abituale con classi diverse di lessemi o, in mancanza di questi, con diverse proposizioni esplicative e con diversi nessi sintagmatici (locuzioni polirematiche e collocazioni): si distingue così da altre accezioni di prendere quella di ‘utilizzare un mezzo di trasporto’ che emerge solitamente (ma non necessariamente) rispetto al ‘prendere-afferrare’, in prendere la carrozza, la bicicletta, l’auto, il tram, il treno, l’aereo, la nave; diverse accezioni di dare in ‘dare mano’, ‘dare una mano’, ‘dare la mano’, ‘dare le mani’; si basa sulla diversità di proposizioni esplicative relative a classi di referenti diversi la distinzione di accezioni di lessemi come chiave, nota, punto, diversità spesso collegata al criterio seguente.
d) Diversità del linguaggio e ambito specialistico: distinguiamo così per carta le accezioni merceologica, geografica e cartografica, relativa a giochi ecc.; per lettera le accezioni grafica, epistolare, ermeneutica ecc.; situazioni contestuali e co-testi sufficientemente ampi consentono di ricondurre un testo a un dato linguaggio e ambito specialistico e di cogliere con elevata probabilità l’accezione appropriata di una parola.
Lessemi privi o apparentemente poveri di accezioni diverse si dicono monosemici; polisemici i lessemi portatori di una pluralità di accezioni. Nelle rappresentazioni dizionaristiche dei lessici monolingui delle diverse lingue i lessemi polisemici sono una minoranza. La maggioranza dei lemmi si presenta con una sola accezione. Ma ciò non deve fare considerare la polisemia un fenomeno minoritario.
Occorre porre attenzione a due considerazioni. Se dai lessici monolingui l’osservazione si sposta ai lessici bilingui si constata che spesso, in corrispondenza di un lessema presentato come monosemico dal dizionario monolingue, si registrano non solo traducenti diversi, ma traducenti suddivisi in gruppi che permettono di scorgere nel lessema del source language l’affiorare di accezioni distinte anche non segnalate nei dizionari monolingui. Così, per es., in corrispondenza dell’accezione ‘corso d’acqua’ della parola fiume un bilingue italiano-francese offre i due traducenti ben distinti, fleuve «fiume che va al mare» e rivière «affluente», un bilingue italiano-tedesco correla viaggiare a fahren e reisen che distinguono le diverse modalità dello spostarsi, oppure mangiare a essen e fressen a seconda del soggetto umano o non umano che si nutre e così via. La compattezza monosemica del significato di molti lemmi dei dizionari monolingui si incrina nel confronto con il lessico di lingue diverse.
In secondo luogo i lessemi polisemici, presentati come tali anche nei dizionari monolingui, minoranza nel lessico potenziale e, quindi, nel dizionario, sono di gran lunga i più frequenti nei testi. Una relazione precisa è nota alla statistica linguistica. Data una lista di frequenza o uso delle parole di una qualsiasi lingua, i lessemi più frequenti hanno in media un maggior numero di accezioni, più esattamente al crescere della frequenza secondo potenze cresce secondo la successione naturale il numero delle accezioni. Se parole con frequenza x hanno una accezione, parole con frequenza x2 hanno due accezioni, tre accezioni quelle con frequenza x3, quattro accezioni quelle con frequenza x4 e così via. Nei dizionari di frequenza di tutte le lingue un numero ristretto di lessemi, circa duemila, costituisce la testa delle liste di lessemi in ordine di frequenza decrescente e tali lessemi hanno una frequenza di gran lunga maggiore rispetto alle altre migliaia e decine di migliaia. Essi costituiscono ciò che si dice il vocabolario fondamentale. I lessemi del vocabolario fondamentale occupano mediamente tra l’80 e il 90% delle occorrenze dei lessemi nei testi. Ne consegue che necessariamente in ogni possibile testo almeno otto o nove parole su dieci sono occorrenze di lessemi polisemici.
Oggi (v. oltre Significati in rete: la rete semantizzata) si profilano nuovi orizzonti sulla via del cercare una risposta alla questione posta alla fine del paragrafo La conoscenza in rete. Alcuni passi sono preliminarmente necessari. Essi sono diversi e coinvolgono discipline diverse, la lessicologia e lessicografia, la semantica lessicologica e testuale e quelle tecniche di rappresentazione delle conoscenze di oggetti ed eventi che vanno sotto il nome di ontologie.
Dal lessico ai dizionari e alle basi di dati lessicali
Il lessico di ogni lingua ha un insieme indefinito di parole o lessemi, che nelle lingue flessive e agglutinanti sono unità lessicali cui si riconducono le diverse forme flesse di uno stesso lessema (De Mauro, in Atti del XII Congresso internazionale di lessicografia, 2006). Esso è una massa oscillante che attraverso il tempo e sotto la spinta dell’uso conosce e subisce tanto decrementi, dovuti alla progressiva obsolescenza e infine al comune oblio di lessemi prima abituali, quanto incrementi (De Mauro, in Che fine fanno i neologismi?, 2006). Questi, riprendendo i termini usati da Kant per qualificare e differenziare ciò che diciamo un sistema, si realizzano sia per intussusceptionem, per espansione interna e propriamente sistemica grazie ai procedimenti di formazione di nuove parole a partire dalle basi lessicali esistenti già previsti dalla morfologia di una lingua, sia per coacervationem, attraverso l’aggiunta dall’esterno di nuove basi lessicali o importate e più o meno adattate da altre lingue (in italiano e altre lingue europee moderne dal latino antico, medievale e moderno e, per questo tramite, dal greco) oppure, molto raramente, inventate e nihilo, di sana pianta (come gas inventato nella prima metà del Seicento da Johannes Baptiste van Helmont, o forse bomba) e, anch’esse, più o meno adattate alla fonologia e alla morfologia della singola lingua.
Scomparsa e, soprattutto, comparsa di nuovi lessemi sono l’aspetto più appariscente dell’oscillazione della massa lessicale. Meno appariscenti e talora trascurati dall’osservazione, ma non meno importanti sia oggettivamente sia ai fini qui in questione, sono i fenomeni di obsolescenza e innovazione di accezioni di lessemi già in uso, ciò che diciamo complessivamente neosemia. Per quel tanto che i lessemi siano rappresentabili come nodi cofunzionali di una rete le neosemie, non meno delle obsolescenze e delle neoformazioni, comportano rimaneggiamenti profondi, continui e imprevedibili delle relazioni semantiche tra lessemi (sinonimie, iper- e iponimie, metonimie, antonimie, collocazioni).
Se quanto si è detto vale a intendere la natura oggettivamente oscillante e numericamente indefinita della massa lessicale di qualsiasi lingua, non è trascurabile ciò che si verifica nelle lingue dette di cultura, cioè in lingue di società complesse nel cui lessico si sedimentano sia, in generale, una lunga tradizione scritta relativamente continua, sia gli usi molteplici e differenziati di strati e ambienti sociali differenti, di forme produttive e competenze operative, professionali e intellettuali diverse, con il confluire di parte dei linguaggi speciali nell’uso quotidiano. Qui la massa lessicale si presenta imponente per numerosità. Anche tenendo da parte lo sciame incalcolabile delle parole occasionali, i lessemi che sono comparsi e compaiono in modo relativamente stabile nei testi di una lingua (pertinenti a essa per comunanza fonologica e ortografica, morfologia, sintassi e vocabolario fondamentale) ascendono non a centinaia di migliaia, come si è creduto fino ad anni recenti assumendo come riferimento soltanto i maggiori dizionari cartacei inglesi, tedeschi, russi ecc., ma sono stimabili a molti milioni (De Mauro 20072). Proprio la rete consente di documentare questa numerosità di cui soltanto oggi cominciamo veramente a renderci conto.
I dizionari su carta anche più ampi sono stati e sono una rappresentazione forzatamente selettiva e approssimata per difetto dei lessemi realmente presenti in modo non occasionale nel lessico di una lingua. Ciò vale anche per la registrazione delle accezioni.
Migliori approssimazioni alla numerosità della massa lessicale e alle articolazioni dei significati in accezioni si possono prevedere con la creazione di banche di dati elettroniche implementabili in rete. Ciò però comporta quello che appare ormai un obiettivo da perseguire comunque e cioè la riduzione della quota di implicito e di artigianalità nelle sistemazioni lessicografiche come prerequisito per il passaggio a presentazioni di maggiore coerenza e formalità. Questo obiettivo è certamente decisivo per raccordare le basi di dati lessicali con le basi di rappresentazione delle conoscenze. Un dizionario avviato a un buon grado di adeguatezza e formalità nella rappresentazione del lessico di una lingua deve (De Mauro 2005 e 20072, pp. XII-XX):
a) dichiarare le fonti testuali, dizionaristiche ed enciclopediche cui attinge;
b) specificare in che misura, con quale scala in rapporto a frequenza assoluta e grado di dispersione nei testi, seleziona i lemmi e le loro accezioni e in che misura si rifà anche a criteri più o meno intuitivi di significatività culturale di un lessema;
c) correlare ciascun lemma (1) con la fonologia e le categorie grammaticali e sintattiche della lingua, riconducendolo nel caso di parti variabili del discorso al paradigma di appartenenza e segnalando eventuali peculiarità, (2) con la sua fonte etimologica esterna alla lingua o interna, in tal caso dichiarandone la morfologia derivazionale, (3) con i suoi eventuali derivati e composti, correlandoli alle eventuali distinte accezioni del lemma (v. oltre: in generale i derivati selezionano solo alcune delle accezioni);
d) specificare caratteristiche di frequenza e uso del lessema, talché da ciò e da c2 e c3 emerga il grado di ambientazione diacronica e radicamento del lessema;
e) descrivere il significato del lessema, specificandone le eventuali accezioni avendo dichiarato esplicitamente i criteri di tale specificazione (v. punto c) e ripetendo per le accezioni (1) le qualificazioni grammaticali e sintattiche, quando non comuni a tutti gli usi del lessema, (2) le indicazioni diacroniche e di eventuali calchi da altre lingue, (3) le indicazioni di frequenza e uso;
f) indicare i correlati sintagmatici del lessema (polirematiche, collocazioni, co-occorrenze abituali), distinti per accezioni;
g) indicare i correlati paradigmatici del lessema eventualmente distinti per classi di accezioni (sinonimi, iperonimi, iponimi, antonimi);
h) indicare i meronimi sopraordinati e subordinati (intero-parti, gruppo-membri, sostanza-componenti e così via);
i) qualificare la funzione in rapporto a co-occorrenti sintagmatici (per sostantivi soggetto, oggetto, complemento di un verbo, per un verbo tipologia di soggetto, di oggetto, di complementi ecc.).
Allo stato attuale nessun dizionario risponde a tutti i nove requisiti indicati. A seconda del suo approssimarsi alla loro realizzazione un dizionario è in grado di costituirsi, con un opportuno dispositivo di interrogazione, in una adeguata base di dati lessicali. In particolare esso si offre come dizionario semantico di una lingua, tale per cui dato un significato (cioè una nozione o concetto con la parola o le parole che ne siano veicolo) è possibile ottenere tutti i lemmi in cui parola o parole veicolanti il significato, la nozione o il concetto appaiono nei lemmi e nelle articolazioni dei lemmi del dizionario. Dizionari concepiti per predisporsi alle esigenze dell’ingegneria della conoscenza sono, oltre il già citato WordNet, anche EuroWordNet, suo equivalente multilingue (EuroWordNet, 1998). Un dizionario semantico che rispondesse ai criteri di formalità e adeguatezza su indicati sarebbe la fonte idonea a esplorare e rendicontare le conoscenze che in una cultura si sono sedimentate nel lessico di una lingua e in particolare sarebbe il corrispettivo ideale di ciò che oggi si dice base di conoscenze, knowledge base.
Basi di conoscenze (KB) e ontologie
Il lessico di una lingua può ritenersi deposito di ogni sorta di conoscenze nel senso più ampio e vario di tale parola e la rete raccoglie e documenta attraverso i testi e il lessico di cui sono costituiti tale varietà e ampiezza (v. supra La conoscenza in rete). Non a tale ampiezza e varietà si rifà ciò che si dice knowledge, conoscenza, nella ingegneria delle basi di conoscenza. Rispetto al lessico di una lingua storico-naturale, che «offre sempre risorse per lottare contro l’inesprimibile», per usare la suggestiva espressione di Søren Kierkegaard, sì da correlarsi a conoscenze d’ogni sorta, una ‘base di conoscenza’ (knowledge base, KB) obbedisce a una quadruplice limitazione e riduzione (Helbig 2006, pp. 397, 409 e sgg.): a) essa nasce dalla rinunzia, più o meno dichiarata e consapevole, ad abbracciare ogni tipo di conoscenza in ogni senso del termine e intende limitarsi alle conoscenze che si ritengono specificamente utili in un dominio relativamente ben definito, come una data attività produttiva, un determinato campo scientifico, l’edilizia urbana, la pubblica amministrazione, l’organizzazione di una singola azienda ecc.; b) le conoscenze sono qui assunte come rappresentazioni delle conoscenze, indici simbolici verbali o non solo verbali, assunti come termini ben definiti, per marcare una conoscenza; c) le conoscenze sono qui nozioni, cognizioni (e non altri dei sensi possibili per la parola, v. supra La conoscenza in rete); d) le rappresentazioni di tali cognizioni sono relative a una determinata ontologia.
L’uso informatico attuale della parola ontologia, nata nel Seicento come sinonimo di metafisica, rivela queste restrizioni. In questo campo, oggi una ontologia è il tentativo di formulare uno schema concettuale esaustivo e rigoroso di tutte e sole le classi di entità o eventi nell’ambito di un dato dominio. Essa si configura generalmente come una descrizione strutturata delle classi (finite o combinanti un numero di classi finite) di tutte le entità (potenzialmente infinite, discrete e numerabili) e tutti gli eventi rilevanti per il dominio, le relazioni esistenti fra di esse, le regole, gli assiomi di definizioni e ordinamento e i vincoli specifici del dominio. Tali strutture sono specificate mediante elaborazioni formali dette logiche descrittive (The description logic handbook, 2003), così che, se vale la corrispondenza tra una classe ontologica e l’accezione di un lessema, le ontologie possono essere viste come teorie formali del significato nei suoi aspetti referenziali. Tuttavia è difficile espungere dal materiale verbale, cui sono affidate le rappresentazioni delle conoscenze e dell’ontologia di un dominio, le conoscenze e nozioni di portata generale presenti in altri e forse in tutti i domini, generalmente collegate a quelle parti del lessico di una lingua che si dicono basiche o fondamentali, le cui unità sono caratterizzate da elevata polisemia (v. supra Interrogare la rete attraverso parole). Inoltre, la semantica formale delle logiche descrittive oggi in uso, sul modello della logica matematica, richiede che sia posto un insieme di oggetti sia pur infiniti ma ben individuati (numerabili), il quale costituisca, prima di qualsiasi descrizione, l’universo del discorso. Come ciò possa essere applicato alla semantica linguistica, tenendo conto del ruolo costruttivo del linguaggio rispetto a tale universo, è oggetto di indagini e riflessioni. Vi sono tentativi di costruire ontologie dette fondazionali o fondamentali o costitutive correlate a queste parti del lessico. Esse intendono stabilire le categorie ontologiche fondamentali necessarie a dar conto degli enti classificati dalle ontologie particolari. Un esempio è l’ontologia fondazionale DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) che prevede quattro categorie ontologiche generali: continuante, occorrente, qualità, astratto; legate fra loro dalla relazione di partecipazione, che determina un oggetto come «un continuante che vive nel tempo in quanto partecipante a un certo occorrente» (Gangemi, Guarino, Masolo et al. 2003, p. 20). Con più spiccata attenzione alla base lessicale, rivolta anzitutto al vocabolario fondamentale, si prospetta l’iniziativa denominata Senso comune (Oltramari, Vetere 2008).
Significati in rete: la rete semantizzata
La redazione di dizionari formalmente e descritti-vamente adeguati (v. supra Dal lessico ai dizionari e alle basi di dati lessicali), lo sviluppo di accurate ontologie di dominio e di ontologie costitutive (v. supra Basi di conoscenze (KB) e ontologie) e il loro collegamento interlinguistico, costruibile attraverso dizionari semantici corredati di traducenti, sono le tappe attraverso cui l’immensa massa di testi e di conoscenze del world wide web potrà trasformarsi in una rete semantizzata, un web semantico. In tale ambiente i documenti redatti in linguaggio HTLM (Hypertext Markup Language, linguaggio di marcatura per ipertesti) e così ora predisposti alla consultazione attraverso queries alfanumeriche nelle grandi reti informatiche (v. supra La conoscenza in rete), ma anche immagini, sequenze sonore ecc., dovranno essere associati a informazioni di contenuto e a metadati che ne specifichino il significato complessivo in un formato adatto all’interrogazione, interpretazione ed elaborazione automatiche.
A tale scopo, il consorzio di standardizzazione del web (W3C, World Wide Web Consortium) ha predisposto un linguaggio OWL (Ontology Web Language), cioè un linguaggio per la rappresentazione formale di ontologie e la descrizione di risorse informative, Resource description framework (Antoniou, van Harmelen 2004). Grazie all’interpretazione del contenuto dei documenti che si profila con il web semantico e a un linguaggio per la descrizione di risorse informative saranno possibili ricerche molto più evolute delle attuali. Esse saranno basate sulla presenza nel documento di significati espressi da set di parole chiave e sulla costruzione di reti di relazioni e connessioni tra documenti che vadano oltre l’attuale semplice link ipertestuale (Berners-Lee, Hendler, Lassila 2001; Berners-Lee 2007). In tal modo se non l’intera conoscenza in tutta la varietà e ampiezza che abbiamo sottolineato, ma la pur sempre immensa conoscenza in quanto verbalizzata, simbolizzata e depositata nella rete (v. supra Sviluppo delle tecnologie informatiche e La conoscenza in rete), si può prevedere che si renda accessibile in via automatica, a seconda delle più varie finalità e comunque in fattiva risposta al bisogno di integrazione di informazioni e conoscenze (v. supra Incremento, riarticolazione e integrazioni di conoscenze e informazioni), alle intelligenze e al sapere individuale degli umani.
Bibliografia
G. Durand, Les structures anthropologiques de l’imaginaire, Paris 1960.
K. Popper, Objective knowledge: an evolutionary approach, Oxford 1972 (trad. it. Roma 1975).
D. Mainardi, L’animale culturale, Milano 1974.
J.T. Bonner, The evolution of culture in animals, Princeton 1980, 19832.
R.L. Devaney, An introduction to chaotic dynamical systems, New York 1986, 20033.
J. Gleick, Chaos. Making a new science, New York 1987.
Dizionario di etologia, a cura di D. Mainardi, Torino 1992.
T. De Mauro, F. Mancini, M. Vedovelli et al., Lessico di frequenza dell’italiano parlato, Milano 1993.
F. Mancini, L’elaborazione automatica del corpus, in T. De Mauro, F. Mancini, M. Vedovelli et al., Lessico di frequenza dell’italiano parlato, Milano 1993, pp. 54-84.
G. Durand, L’imaginaire. Essai sur les sciences et la philosophie de l’image, Paris 1994.
EuroWordNet. A multilingual database with lexical semantic networks, ed. P. Vossen, Dordrecht 1998.
WordNet. An electronic lexical database, ed. C. Fellbaum, Cambridge (Mass.) 1998 (aggiornato on-line al 2006).
F. Ciotti, G. Roncaglia, Il mondo digitale: introduzione ai nuovi media, Roma-Bari 2000.
T. Berners-Lee, J. Hendler, O. Lassila, The semantic web, «Scientific American», May 2001, pp. 34-43.
F. Metitieri, R. Ridi, Biblioteche in rete: istruzioni per l’uso, Roma-Bari 2002, 20063 (anche on-line).
A. Oliverio, Prima lezione di neuroscienze, Roma-Bari 2002.
A. Gangemi, N. Guarino, C. Masolo et al., Sweetening wordnet with DOLCE, «AI Magazine», 2003, 24, 3, pp. 13-24.
The description logic handbook: theory, implementation, and applications, ed. F. Baader, D. Calvanese, D. McGuinness et al., Cambridge 2003.
G. Antoniou, F. van Harmelen, A semantic web primer, Cambridge (Mass.) 2004.
G.M. Edelman, Wider than the sky: the phenomenal gift of consciousness, New Haven 2004 (trad. it. Torino 2004).
R.C. Hilborn, Sea gulls, butterflies, and grasshoppers. A brief history of the butterfly effect in nonlinear dynamics, «American journal of physics», 2004, 72, 4, pp. 425-27.
G. Solimine, La biblioteca. Scenari, culture, pratiche di servizio, Bari 2004.
Corpus linguistics. Readings in a widening discipline, ed. G. Sampson, D. McCarthy, London-New York 2004.
Vocabulaire européen des philosophies, éd. B. Cassin, Paris 2004.
T. De Mauro, La fabbrica delle parole, Torino 2005.
S. Cassese, Oltre lo Stato: verso una costituzione globale, Roma-Bari 2006.
G.M. Edelman, Second nature: brain science and human knowledge, New Haven 2006 (trad. it. Milano 2007).
V. Grassi, Introduzione alla sociologia dell’immaginario, Milano 2006.
H. Helbig, Knowledge representation and the semantics of natural language, Berlin-Heidelberg-New York 2006.
N. Shadbolt, T. Berners-Lee, W. Hall, The semantic web revisited, «IEEE Intelligent systems», 2006, 21, 3, pp. 96-101.
Atti del XII Congresso internazionale di lessicografia, Torino 6-9 sett. 2006, a cura di E. Corino, C. Marello, C. Onesti, Alessandria 2006 (in partic. T. De Mauro, On lexicon and grammar, pp. 19-29).
Che fine fanno i neologismi? A cento anni dalla pubblicazione del Dizionario moderno di Alfredo Panzini, Atti del Convegno del lessico intellettuale europeo-Accademia dei Lincei, 20 maggio 2005, a cura di G. Adamo, V. Della Valle, Firenze 2006 (in partic. T. De Mauro, Dove nascono i neologismi?, pp. 23-32, poi in T. De Mauro, Dizionarietto di parole del futuro, Roma-Bari 2006, pp. 95-110).
T. Berners-Lee, Le Web va changer de dimension, «La recherche», 2007, 413, pp. 34-38 (con bibl. e sitografia essenziale a p. 45).
P.J. Chamizo-Domínguez, Semantics and pragmatics of false friends, New York 2007.
I. Chiari, Introduzione alla linguistica computazionale, Roma-Bari 2007.
T. De Mauro, Grande dizionario italiano dell’uso, 8 voll., Torino 20072: Introduzione, 1° vol., pp. XIII-LXXIII, in partic. pp. LXVII-LXXII.
Corpora e linguistica in rete, a cura M. Barbera, E. Corino, C. Onesti, Perugia 2007.
Parole in rete. Teorie e apprendimento nell’era digitale, a cura di V. Lo Cascio, Torino 2007.
T. De Mauro, Lezioni di linguistica teorica, Roma-Bari 2008.
D. Randall, Viva le agenzie, «Internazionale», 2008, 731, p. 21.
Galassia web. La cultura nella rete, a cura di P. Galluzzi, P.A. Valentino, Firenze 2008.
Webgrafia
K. Popper, Three worlds, Tanner lecture on human values, University of Michigan, April 7, 1978, http:// www.tanner-lectures.utah.edu/lectures/documents/popper80.pdf (7 maggio 2009).
E. Margolis, S. Laurence, Concepts, in Stanford Encyclopedia of philosophy, 2006, http://plato.stanford.edu/entries/concepts/ (7 maggio 2009).
A. Oltramari, G. Vetere, Lexicon and ontology interplay in Senso comune, 2008, http://www.loa-cnr.it/Papers/lexicon_oltramari-vetere.pdf (7 maggio 2009).