Informatica umanistica
La definizione dell’informatica umanistica come disciplina nella quale interagiscono la scienza dell’informazione, l’utilizzo di sistemi di calcolo e il vasto universo di saperi che appartiene alle scienze umane è, in un certo senso, vera, ma, nello stesso tempo, tanto generica da apparire forse inutile. In effetti tutte le componenti citate sono a loro volta costituite da numerose sottoclassi al punto che si ha difficoltà a offrire una visione d’insieme di quanto si trova racchiuso entro i suoi confini. Questo tipo di situazione si verifica solitamente quando settori disciplinari diversi e in forte espansione si intrecciano sia nei metodi sia negli scopi per aspirare, dopo un periodo relativamente breve di tempo, ad assumere lo statuto di scienza autonoma con ricercatori che vi operino e con docenti che ne diffondano i diversi principi.
L’espressione informatica umanistica, che costituisce calco sulla base dell’inglese humanities comput-ing o computers in the humanities, e che compare in altre forme italiane sinonimiche come, per es., informatica per le scienze umane, fu coniata nei primi anni Novanta del secolo scorso, anche se la denominazione è certamente posteriore ad alcune attività che quel termine avrebbe poi denotato. Nel 1949, infatti, padre Roberto Busa S.J. aveva iniziato lo spoglio elettronico delle opere di san Tommaso d’Aquino con lo scopo di favorirne l’analisi lessicale ed ermeneutica. Per ottenere il risultato desiderato fu necessario, da un lato, eseguire le operazioni di conversione del corpus in un formato leggibile dal calcolatore e, dall’altro, predisporre programmi di elaborazione capaci di produrre indici, concordanze, analisi morfologica e una serie di altri dati sulla base dei quali estrarre poi le entrate lessicali che sono il punto di partenza per ogni indagine di tipo semantico.
Su tale prima esperienza si svilupparono numerosi altri progetti, la maggior parte dei quali replicò le modalità messe in atto per l’Index Thomisticus e che oggi definiremmo certamente come esemplari di una specie (lo Scholarly text processing «elaborazione specialistica dei testi») appartenenti alla famiglia dell’informatica umanistica, famiglia che riuscì a imporsi molto presto generando nuove specie (come la traduzione automatica, la linguistica matematica, la linguistica computazionale). A loro volta ciascuna di esse dimostrò un dinamismo eccezionale e fu in grado di generare settori di ulteriore specializzazione secondo una tendenza che continua ancora oggi: valga, a solo titolo di esempio, il caso della linguistica computazionale dalla quale gemmarono poi la morfologia e la sintassi computazionale, la rappresentazione della conoscenza e, per venire ai nostri giorni, i metodi per estrarre informazioni semantiche dalle pagine del web. Non vi è da stupirsi, pertanto, che sia effettivamente difficile ritagliare i confini di un campo tanto vasto e differenziato, soprattutto se si pensa che pure la componente tecnologica, quella che si riferisce al primo termine dell’espressione informatica umanistica, ha fatto nascere molti sottosettori alcuni dei quali si sono affermati anche in funzione della collaborazione con le scienze umane, la linguistica e la filologia in particolare.
Nelle sezioni seguenti sono analizzati gli ambiti con le maggiori probabilità di rivestire, nell’immediato futuro, un ruolo determinante a conferma della grande importanza scientifica, culturale e perfino economica dell’informatica umanistica. Uno dei più interessanti a tale proposito è rappresentato dalla tecnologia digitale applicata al mondo delle biblioteche.
Gli scopi del digitale
La carta è ancora considerata il supporto più affidabile per conservare i documenti, soprattutto se prodotta con un impasto ricco di fibre di cotone, come avveniva nei secoli passati, perché reagisce poco alla luce, acidificando molto più lentamente rispetto a quella derivata da impasti ricchi di cellulosa. La digitalizzazione (da digit «numero») del patrimonio librario e archivistico offre una tecnica innovativa che aiuta a tramandare il patrimonio culturale affidato ai supporti di tipo tradizionale. Essa, a differenza di quella fotografica, non è analogica (cioè generatrice di un prodotto olistico e analogo all’originale), ma fondata sulla scomposizione dell’immagine di un originale in unità grafiche elementari: è, infatti, costituita da un mosaico di punti ai quali è stato attribuito un valore numerico in una scala che varia proporzionalmente alla luminosità e al cromatismo dell’oggetto sottoposto a scansione. Il file immagine, quindi, può essere archiviato in una memoria di qualsiasi tipo (per es., ottica o magnetica), fisicamente collocata in un luogo anche molto distante dalla sede ove l’originale viene conservato. Se poi l’archivio è gestito da un server connesso a Internet, quel documento può essere consultato, scaricato sul proprio computer e stampato, sempre che non vengano frapposti vincoli di copyright a inibirne la diffusione. Senza considerare qui il problema, essenziale ma non ancora risolto, della durata nel tempo dei supporti sui quali vengono impresse le memorie digitali (cfr. A. Ruggiero, Conservazione delle memorie digitali: rischi ed emergenze. Sei casi di studio, 2003, http://www.iccu.sbn.it/upload/documenti/emergenze.pdf, 30 apr. 2009), non può essere sottovalutato l’aspetto del contributo che tale tecnologia offre alla conservazione e alla diffusione/valorizzazione del patrimonio librario. Il primo aspetto dipende dal fatto che ci si avvale di sistemi ormai consolidati che, tra l’altro, consentono di generare innumerevoli esemplari identici, in qualunque momento e a basso costo. Essi, inoltre, hanno il grande vantaggio di poter essere depositati in più archivi elettronici collocati in sedi diverse, limitando, in tal modo, i danni accidentali come terremoti, incendi o atti di terrorismo. Ancora per quanto concerne la conservazione, la disponibilità delle immagini digitali elimina il contatto con l’originale o con la copia fotografica, anch’essa soggetta a consunzione e degrado, ai quali si fa ricorso solo per esigenze particolari: controllo più accurato delle filigrane, verifica di eventuali danni (tarli, umidità) subiti dal supporto, analisi dettagliata del cromatismo di una lettera illuminata o di una miniatura e così via.
In secondo luogo, rendere i documenti consultabili in rete da parte di utilizzatori potenzialmente illimitati offre un indiscutibile vantaggio per quanto concerne la valorizzazione del patrimonio culturale trasmesso dalle biblioteche.
La tecnica dell’acquisizione in formato digitale
Se il rapporto fra applicazioni computazionali e scienze umane può vantare circa cinquant’anni di storia, è certamente con tale rivoluzione tecnologica che esso si intensifica e, in questo quadro, la nascita delle biblioteche di-gitali ha offerto una opportunità decisiva. Nel 1993 venne pubblicato in Inghilterra il Follett Report (http://www.ukoln.ac.uk/services/ papers/follett/report, 30 apr. 2009), ritenuto l’atto di nascita formale del principio secondo cui la conoscenza prodotta nei vari campi del sapere non può essere affidata solo ai supporti analogici, ma deve sfruttare i vantaggi offerti dalla trasformazione delle fonti primarie dell’informazione in formato numerico. I dati, siano essi testuali, iconografici o sonori, sono rappresentabili in sequenze di numeri che un computer può facilmente interpretare, archiviare, mettere a disposizione per la consultazione in rete ed elaborare mediante programmi informatici. Questa regola, da alcuni considerata come l’alfabeto della moderna società dell’informazione e della comunicazione, stabilisce che ogni unità segnica (una lettera, un disegno, una nota musicale), resa sul monitor di un computer in una forma grafica tale da essere comprensibile per un essere umano, è codificata con una sequenza di numeri. Il processo che porta alla costituzione di archivi digitali avviene sostanzialmente in due modi diversi: a) il primo, che per comodità definiamo metodo dattilografico, usato negli anni passati, cioè nel periodo precedente all’avvento dei sistemi di riconoscimento automatico dei caratteri (cfr. infra), consiste nella memorizzazione di un testo mediante battitura sulla tastiera di un computer da parte di un operatore umano. Per es., il carattere «o» viene codificato, secondo uno standard condiviso (ossia l’American standard code for information exchange, più noto con la sigla ASCII), come «111»: questa lettera dell’alfabeto inglese, infatti, occupa la 111a cella nella sezione decimale della tabella ASCII, alla quale corrisponde la sequenza di 8 bit «01101111» nel linguaggio binario della macchina. L’operazione, dal punto di vista dell’utilizzatore, non differisce da quella eseguita dai dattilografi sulle macchine da scrivere oggi in disuso: la differenza è nel fatto che, mentre queste ultime producevano solo documenti su carta, i sistemi di composizione elettronica del testo registrano i dati in memoria, li visualizzano sullo schermo e quindi, se necessario, li inviano a una stampante; b) il secondo metodo si riferisce alla riproduzione digitale di documenti ed è stato reso possibile con l’avvento degli scanner che trasformano i segnali luminosi riflessi da un oggetto (per es., la pagina di un manoscritto o quella di un libro) in un insieme di numeri. La conversione avviene mediante un componente elettronico, il CCD (Charges Coupled Device), che scompone la superficie in piccole porzioni (picture element, noto nella forma abbreviata pixel «punto immagine»), ne valuta l’intensità luminosa e genera cariche elettriche proporzionali alla luce rilevata. Sulla base di una scala preimpostata, il CCD attribuisce a ogni intensità di carica un valore espresso numericamente; esso genera quindi una copia numerica dell’oggetto che è stato sottoposto a scansione. Prima di prendere in considerazione i vantaggi che questa tecnologia offre, conviene mostrare come appare la rappresentazione digitale di una lettera, la «o» minuscola della parola obra (v. fig.), acquisita da uno scanner mediante un comune programma di computer.
In questo esempio la macchina è stata impostata affinché fossero riprese fino a un massimo di 256 sfumature di grigio sulla pagina di un manoscritto medievale: nel piccolo riquadro più chiaro, all’interno del quale si legge la lettera «o», il programma ha rilevato una griglia di 18 linee e 20 colonne per un totale di 360 pixel. Naturalmente si tratta di parametri non fissi: a seconda degli scopi della digitalizzazione, della misura dei caratteri, dello stato di conservazione del documento e di altri fattori, sarebbe stato possibile comandare allo scanner di aumentare o diminuire il numero dei pixel da rilevare sul documento e, quindi, di rendere maggiore o minore l’accuratezza nel rilevamento dei particolari. Come si intuisce, un numero maggiore di pixel incrementa la risoluzione dell’immagine e, quindi, determina la presenza di maggiori informazioni di dettaglio che potranno tornare utili quando si sottoporrà il documento a vari gradi di ingrandimento. La tabella mostra la distribuzione dei valori dei pixel corrispondenti all’immagine del carattere «o» della figura. I valori più alti indicano i pixel più chiari, quelli più bassi i pixel più scuri, ossia quelli che descrivono il carattere.
I dati numerici potrebbero essere ancora superiori qualora si imponga al software che controlla lo scanner di rilevare con maggiore accuratezza i tratti grafici o il colore del carattere in questione. Tale granularità diventa molto utile per sottoporre l’immagine a diversi tipi di manipolazione grafica: ingrandimenti, variazione di luminosità e contrasto, intensificazione dei contorni delle parole in modo che risaltino rispetto allo sfondo (tutte funzioni che aiutano spesso a risolvere difficoltà interpretative) costituiscono un evidente vantaggio che nessuna lente ottica può fornire.
Se paragoniamo ora i due metodi descritti, dobbiamo constatare che il primo (il metodo dattilografico) ci offre la possibilità di avere nella memoria di un computer il testo, sia pure codificato secondo le regole che la macchina impone; il secondo (il metodo per la riproduzione digitale di documenti) ci consente di registrare in memoria documenti sotto forma di immagini. La differenza fra i due metodi è molto importante e ha conseguenze rilevanti soprattutto ai fini della consultazione: nel primo caso è possibile effettuare interrogazioni utilizzando le parole come chiavi di accesso ai dati per ottenere evidenziati tutti i contesti ove esse si trovano; nel secondo, invece, una simile richiesta non è possibile poiché le parole, per il computer, non sono costituite da stringhe di simboli alfabetici unitari, bensì da porzioni di un’immagine all’interno della quale esse sono rappresentate dall’insieme di valori attribuiti dallo scanner. Se riprendiamo l’esempio della lettera «o» e immaginiamo di dover effettuare una ricerca di tutte le parole che la contengono in un archivio di immagini costituito anche di due sole pagine, dovremmo aspettarci dei risultati solo nel caso in cui quella lettera sia sempre formata dalla stessa e identica griglia di pixel. Solo questa condizione consentirebbe a un programma di trovare le corrispondenze e di produrre la lista dei termini cercati. Purtroppo una situazione di questo tipo è solo teorica dal momento che le capacità di assorbimento degli inchiostri e la diversa densità del supporto materiale, soprattutto nel caso di opere a stampa antiche, causano differenze, sia pure minime, nella rappresentazione grafica dei singoli caratteri. Essi, pertanto, non sono mai perfettamente identici e anche un solo valore numerico divergente impedirà al programma di rispondere con correttezza ed esaustività alla richiesta che gli sia stata avanzata. Per rendersi conto che queste divergenze grafiche e tipografiche, rilevabili da uno scanner di buona qualità, si verificano realmente, basta osservare con una lente di ingrandimento due soli esemplari di uno stesso carattere stampati in un libro antico in ottimo stato di conservazione: se a occhio nudo essi sembrano identici per forma e dimensioni, ingranditi appaiono invece divergere nei contorni e, soprattutto, nella densità dell’inchiostro che provoca, particolarmente nelle aste ascendenti (come in «d») o discendenti (come in «p»), misure ineguali.
Dal momento che la costituzione di biblioteche digitali è ormai molto diffusa nel mondo, dobbiamo pensare che i grandi archivi che riproducono migliaia di libri, soprattutto antichi, siano consultabili solo in formato immagine o possiamo sperare di renderli consultabili anche in formato testo, superando la difficoltà sopra esposta? In altre parole: possiamo ragionevolmente immaginare che venga realizzato un sistema artificiale intelligente capace di apprendere che il carattere rappresentato nella griglia numerica di 360 pixel della tabella, è una «o» e sia in grado di associarvi il valore «111» che esso possiede nella lista dei caratteri computabili da un computer? Le sperimentazioni che sono state eseguite nel secolo scorso in centri di ricerca sia pubblici sia privati, e sui quali esiste una bibliografia specializzata vastissima, fanno ipotizzare che nel breve periodo si possa raggiungere, in maniera automatica, il difficile passaggio da un libro-immagine digitale a un libro-testo digitale. Il limite costituito dal fatto di non poter effettuare attualmente ricerche linguistiche su archivi di immagini digitali di opere a stampa antiche si auspica che venga nel tempo superato mediante il prevedibile sviluppo tecnologico dei sistemi di calcolo e dei programmi di elaborazione. Diverso è invece il caso dei manoscritti che in grande misura sono già ora disponibili in formato digitale: è probabile, infatti, che i successi conseguiti nel settore del libro a stampa antico costituiscano la base per progettare sistemi ancora più sofisticati capaci di convertire le immagini digitali dei documenti manoscritti in testi.
La trascrizione automatica dei libri antichi
Trasformare immagini di testi in testi alfabetizzati secondo le codifiche previste dall’elaborazione elettronica è compito dei cosiddetti programmi di OCR (Optical Character Recognition) che esistono sul mercato da molti anni. Essi sono estremamente validi se adoperati su pagine stampate con caratteri nitidi e prive di guasti; i sistemi più evoluti, poi, interpretano anche documenti graficamente non perfetti con bassa percentuale di errori. Tuttavia, se messi alla prova su immagini di ottima qualità che riproducono opere stampate nei secoli scorsi o documenti realizzati con macchine da scrivere come, per es., le copie ottenute su carta velina, gli errori sono così numerosi da sconsigliarne l’uso. Il superamento delle difficoltà è ancora in fase di studio; la strategia più promettente si basa sull’interazione di più componenti tecnologiche diverse: a) segmentazione delle immagini accurata ed eventualmente assistita da sistemi di restauro virtuale (Broia 2002; Fedele 2002); b) costruzione di modelli di ogni singola lettera, in modo che ciascuno comprenda tutte le possibili variazioni grafiche nelle quali essa potrebbe figurare all’interno di uno stesso documento; c) controllo delle parole interpretate mediante un sistema linguistico a più moduli, fra i quali un vocabolario (thesaurus) e un analizzatore morfologico o, meglio, morfosintattico. Vedremo con maggiori dettagli ciascuno di questi strumenti sui quali l’informatica ha già consentito di ottenere molti risultati di notevole rilevanza. Prima, però, è opportuno fare una precisazione. Interpretare ciò che è contenuto nell’immagine digitale di un libro significa trascriverne il testo che vi è stampato, ma significa anche individuare le altre componenti non testuali (illustrazioni, tabelle, formule chimiche o matematiche, disegni, annotazioni in margine, capilettera illuminati, miniature, titoli correnti), e da esse estrarre la maggiore quantità possibile di elementi informativi di tipo semantico (Marinai, Gori, Soda 2005). L’apporto dell’intelligenza artificiale sarà determinante, ma non è ancora possibile fare una previsione realistica di quanto tempo occorra prima di ottenere risultati accettabili. Se, infatti, si apprezzano notevoli progressi nella trascrizione e, per certi versi, anche nell’estrazione del contenuto semantico essenziale dai testi (v. oltre Estrazione dei contenuti semantici dal testo), molta ricerca è ancora necessaria per l’analisi delle parti non testuali e per l’esplicitazione delle informazioni in esse contenute almeno mediante un sistema di generazione automatica di parole-chiave (keywords) o, più ambiziosamente, di espressioni linguistiche più complesse. L’eterogeneità che caratterizza questi dati, spesso fondamentali per la comprensione di un’opera, rappresenta un limite oggi difficilmente superabile per un programma di computer a meno che essi, come, per es., le illustrazioni e i disegni, non siano corredati da didascalie. Qui si può intervenire con l’OCR, estrarre le parole significative fra tutte quelle trascritte della didascalia e associarle alla porzione della pagina dove compare l’illustrazione, senza bisogno di un operatore umano. La procedura automatica, in questo caso, non fa altro che mettere a disposizione dell’utilizzatore un indice alfabetico prodotto sulle didascalie e ogni lemma serve come chiave di accesso alle illustrazioni le quali, comunque, non hanno subito alcuna indagine intelligente dei propri contenuti da parte della macchina. La sperimentazione in questo settore del trattamento delle immagini digitali, molto avanzata soprattutto per scopi industriali e militari, è finalizzata al riconoscimento di figure umane (soldati) o geometriche (mezzi corazzati, aerei, caserme). Il disegno di un oggetto o di una formula stampati sulla pagina di un libro senza didascalia, invece, presenta caratteristiche grafiche complesse da interpretare da parte di un programma. A esso, infatti, deve essere fornita la conoscenza sufficiente affinché sia in grado di scomporre i tratti, interpretarne le relazioni, ricondurli a modelli grafici di carattere generale con un significato noto, e, infine, avanzare proposte di interpretazione e di descrizione linguistica.
Segmentazione delle immagini
La segmentazione dell’immagine si ottiene con vari programmi come quello che analizza la proiezione dei pixel, rilevati dallo scanner in una pagina, sulle assi orizzontale e verticale: nel primo caso il numero dei pixel che denotano valori scuri permette l’identificazione delle zone scrittorie come, per es., la distribuzione del testo in colonne e la determinazione dei margini verticali sinistro, destro e, nel caso di due colonne, centrale. Nella proiezione verticale, invece, i pixel di valore scuro sono maggiori in corrispondenza delle linee di scrittura e il programma è in grado di individuare ed eventualmente numerare le linee, sempre che queste non abbiano un andamento ondivago o presentino punti di contatto molto numerosi (per es., una macchia di inchiostro).
Il programma di segmentazione può ora procedere ad analizzare la distribuzione dei pixel relativi a ciascuna linea di scrittura sull’asse orizzontale: la densità dei pixel scuri è maggiore in corrispondenza delle parole, minore o assente in corrispondenza dello spazio che separa le parole. Come nel caso delle linee di scrittura, dunque, ove la minore presenza o l’assenza di valori cromatici scuri significa spazio interlineare, in quello di ogni singola linea tale assenza significa spazio separativo fra le parole. Il programma, pertanto, può numerarle e individuare il rettangolo all’interno del quale ciascuna di esse risulta inscritta. La procedura si ripete per l’individuazione del rettangolo all’interno del quale risultano inscritti i singoli caratteri. Il sistema commette errore, per es., nel caso in cui la soglia considerata valida dal programma per separare le zone-parola sia troppo bassa (per es., non più di 2 pixel): se questo è anche lo spazio che divide i caratteri contigui, si verifica che le immagini risultanti non sono costituite da parole, bensì da frammenti di parole. Il problema, in effetti, si pone proprio per i libri a stampa antichi nei quali la dimensione degli spazi varia di volta in volta a seconda delle necessità imposte al proto da una ottimale giustificazione del testo: la soluzione agli errori del programma, tuttavia, si basa su correttivi introdotti durante il processo di segmentazione e, soprattutto, si fonda su una valutazione del criterio di soglia da considerare come ottimale per la determinazione degli intervalli spaziali.
Al termine di questa fase di segmentazione, dunque, sono state automaticamente individuate le zone dell’immagine dove sono inscritte le colonne, le linee di scrittura, le parole e i caratteri.
Costruzione del modello di ogni carattere
Per costruire un modello dei segni alfabetici e numerici si raccoglie un certo numero di esemplari di ciascuno e si addestra un sistema computazionale (per es., le reti neurali artificiali) affinché ne apprenda e ne possa riconoscere la classe di appartenenza. Naturalmente questa operazione si semplifica se le informazioni numeriche assegnate ai livelli chiaroscurali vengono livellate a due soli valori: il bianco e il nero. Da un lato abbiamo una perdita di informazioni ‘visive’: le sfumature che vengono rese dalle gradazioni nella scala dei grigi si perdono, ma, d’altro canto, si semplifica la fase di addestramento. Se si stabilisce, per es., che la soglia discriminante fra il nero e il bianco corrisponde a 127, ne consegue che un programma trasforma tutti i pixel sotto questa soglia (da 127 a 0) in pixel di valore 0 (nero assoluto), mentre tutti quelli superiori (da 128 a 255) in pixel di valore 255 (bianco assoluto). L’immagine dei caratteri è ora bitonale, ossia ogni pixel può essere solo bianco oppure nero: essa può servire, dunque, per istruire più facilmente una rete neurale artificiale utilizzata per riconoscere i caratteri. Ogni nodo della rete, che viene definito neurone in analogia alla struttura cerebrale degli organismi biologici, necessita di apprendere un certo numero di esemplari di ogni singolo carattere affinché il modello non sia troppo selettivo e non discrimini, quando chiamato a operare, minime differenze grafiche con la conseguenza negativa di considerare due rappresentazioni di uno stesso carattere come se fossero due caratteri diversi.
Non esiste un criterio stabilito a priori per determinare il numero minimo di esemplari da sottoporre al sistema affinché l’apprendimento (training) sia efficace: si può dire che i moderni software neurali mettono a disposizione interfacce grafiche grazie alle quali si può capire il rapporto che intercorre fra numero di esemplari sottoposti all’apprendimento e tempo necessario per raggiungere il picco più elevato di caratteristiche apprese. L’utilizzo di un numero eccessivo di cicli di training senza sottomettere nuovi esemplari dello stesso carattere potrebbe essere controproducente. Il sistema ha ora gli elementi per riconoscere i caratteri contenuti nel testo che può essere trascritto automaticamente abbinando a ciascuna griglia di pixel il proprio valore alfabetico, secondo la tabella ASCII sopra citata. Da questo momento, cioè, il programma di riconoscimento dei caratteri è in grado di trascrivere tutto il testo contenuto nelle pagine del libro con i caratteri del quale l’addestramento sia stato effettuato. Qualora si presenti la necessità di sottoporre allo stesso programma un testo redatto con caratteri graficamente diversi, è necessario ripetere l’operazione di addestramento affinché si producano ‘modelli’ coerenti con le nuove caratteristiche grafiche.
Verifica del testo riconosciuto e trascritto automaticamente
Un sistema di riconoscimento automatico del testo su libri a stampa antichi produce degli errori che di solito sono causati da una imperfetta segmentazione delle parole o dei caratteri sull’immagine digitale. Per questo motivo è determinante introdurre sistemi di verifica fra i quali uno, comunemente usato, che consiste nel confrontare le parole riconosciute con quelle elencate in un archivio linguistico. L’operazione viene attuata in maniera coerente alla percentuale di affidabilità che il sistema stesso ha attribuito alle parole riconosciute: il confronto è più accurato se tale percentuale è bassa, ossia di parecchi punti sotto il 100%. I casi incerti e, soprattutto, quelli che potrebbero anche essere corretti, ma risultano privi di un corrispondente nel thesaurus, vengono sottoposti a ulteriori controlli come la scomposizione della parola interpretata nelle sue componenti morfologiche (prefisso, tema, desinenza), allo scopo di verificare se essa sia ben formata (Bozzi 2000), oppure la valutazione delle concatenazioni con le unità linguistiche precedenti e seguenti, in modo da poter stabilire se essa faccia parte di una struttura sintattica prevista dalla grammatica della lingua in oggetto le cui regole siano state inizialmente fornite al sistema di controllo.
Estrazione dei contenuti semantici dal testo
Lo sviluppo tecnologico nel settore dell’informatica umanistica consente, dunque, di prevedere che una biblioteca digitale di libri antichi possa venire consultata, nel breve periodo, sotto forma di testi oltre che, come già ora avviene, sotto forma di immagini. Il compito dell’informatica, tuttavia, non si esaurisce qui; anzi, questo traguardo rappresenta il punto di avvio per raggiungerne altri, importanti per una maggiore conoscenza e valorizzazione del patrimonio culturale trasmesso dai beni librari. Alcuni progetti sono già stati avviati nel recente passato e cominciano ora a mostrare risultati concreti, come nel caso dell’estrazione semantico-concettuale da corpora. Questo settore dell’informatica umanistica utilizza sistemi e metodi della linguistica computazionale e della linguistica dei corpora e ha l’obiettivo di produrre programmi in grado di trasformare i concetti veicolati dal testo in conoscenza esplicita e codificata. L’utilizzo di tali strumenti in ambito industriale e a scopo commerciale è evidente perché, automatizzando la classificazione di documenti in base ai concetti, si offre l’opportunità di raccogliere dati più selettivi dal magma di quelli presenti nel web. Non possiamo escludere, tuttavia, che si producano ricadute positive anche in ambito culturale, sempre che vengano adottate opportune strategie per limitare gli elementi di superficialità che appaiono invece ancora troppo tollerati dai più diffusi e potenti motori di ricerca. In linea generale molte applicazioni riescono ad analizzare il contenuto dei testi, individuare i termini potenzialmente più significativi e disegnare una mappa dei concetti espressi. Uno strumento particolarmente adatto allo scopo è costituito dalle SOM (Self Organizing Maps, ossia mappe auto-organizzanti) in grado di generare grafici nei quali diversi lemmi, forniti come ingresso a una rete neurale, si organizzano in categorie (clusters) sulla base di caratteristiche comuni statisticamente rilevate (Kohonen 2001). Per questo motivo le SOM, pur essendo state sviluppate intorno agli anni Ottanta del secolo scorso, hanno conosciuto recentemente un grande successo per la notevole efficacia mostrata come sistema di data mining esplorativo (il termine inglese denota il lavoro di estrazione in miniera). Si tratta di una tecnica per estrarre conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi capaci di individuare le associazioni di significato esistenti tra le informazioni e di renderle visibili; quando le tecniche di data mining vengono applicate a documenti testuali assumono la denominazione specifica di text mining. In termini molto generali, trattandosi di un sistema di particolare complessità teorica e tecnica, si può dire che la struttura di una mappa sia costituita da un reticolo di unità di elaborazione (i neuroni), alle quali è associato un insieme di caratteristiche numeriche (vettore) estratte da dati di natura diversa (nel nostro caso, dati testuali). Dal momento che non esiste una ipotetica scala di semanticità per stabilire a priori dei gradi discreti di vicinanza o lontananza tra due o più parole, è necessario trovare un modo per passare da una rappresentazione di tipo qualitativo a una di tipo quantitativo. Il metodo consiste nella creazione automatica di microcontesti con caratteristiche tali da trasformare elementi simbolici come le parole in un valore metrico che ne rispecchi la specificità e consenta alla SOM di stabilire dei livelli di similarità. A tale scopo, un programma, operando sul testo preventivamente lemmatizzato del corpus, attribuisce una etichetta numerica univoca a ciascun lemma e genera per ognuno di essi (chiave) un contesto breve (tripletta) costituito rispettivamente dall’etichetta del lemma precedente (predecessore), di quello corrente e di quello seguente (successore). Per es., una frase del tipo «Nel mezzo del cammin di nostra vita» produce i seguenti 5 microcontesti: «In mezzo di», «mezzo di cammino», «di cammino di», «cammino di nostro», «di nostro vita». Essi, in conseguenza della numerazione univoca attribuita a ogni lemma (per es., 1 per «in», 2 per «mezzo», 3 per «di», 4 per «cammino», 5 per «nostro», 6 per «vita»), si trasformano nei seguenti microcontesti «1 2 3», «2 3 4», «3 4 3», «4 3 5», «3 5 6» e così di seguito per le altre parti della Commedia (il corsivo nei versi indica le chiavi). La rete neurale può ora operare poiché riceve in ingresso una lunga stringa di frasi, numericamente espresse, costituita dal vettore dei microcontesti. I calcoli eseguiti dal sistema producono una distribuzione delle chiavi all’interno della mappa a due dimensioni (altezza e larghezza) ove si possono vedere le agglomerazioni (nodi) costituite dai gruppi di parole: quelle di significato simile sono fisicamente più vicine rispetto a quelle che hanno invece un significato diverso (Bozzi, Cignoni, Fedele 2007).
La filologia dei documenti digitali
Ricadute assai significative della tecnologia digitale interessano anche le discipline filologiche: mentre nel secolo scorso sono stati realizzati molti strumenti per la produzione di indici e concordanze (Informatica e scienze umane, 2003), si apre ora una stagione di promettenti innovazioni nel settore della produzione di edizioni critiche elettroniche. Questa espressione necessita di essere chiarita perché denota, in sintesi, due attività che sono simili nei risultati, ma diverse nei metodi e nelle procedure adottate. La prima si riferisce principalmente ai lavori che utilizzano tecniche ipertestuali per rappresentare e collegare fra loro i dati relativi all’edizione critica di un testo quando sia già stata prodotta e la si voglia mettere in rete facilitandone la consultazione. In questo caso la versione elettronica contribuisce a farne conoscere in dettaglio i contorni; favorisce, quando possibile, la consultazione degli originali anche da parte di studiosi che non hanno facile accesso a essi; semplifica, in maniera determinante, la presentazione dell’edizione in ambito didattico-formativo. Senza volerne diminuire l’importanza e il ruolo, l’edizione elettronica eseguita con questa metodologia, tuttavia, appare orientata alla presentazione di dati piuttosto che al processo di produzione di un’edizione. In breve, si sostituisce un supporto (il libro) sul quale un prodotto (l’edizione) è tradizionalmente depositato e distribuito, con un altro tipo di supporto (un CD, un sito Internet) sul quale quello stesso prodotto viene memorizzato.
Una seconda accezione si riferisce, invece, a un’attività più tecnica perché, sulla base di dati in formato digitale (immagini, immagini e testi, oppure soltanto testi) e mediante moduli software specializzati, può effettivamente collaborare al processo critico-testuale fino alla sua naturale conclusione (la produzione di una pubblicazione cartacea o in formato elettronico). In questo caso, dunque, non si dovrebbe parlare più di editoria elettronica, ma di filologia digitale computazionale. Vale la pena ribadire, comunque, che mentre l’edizione realizzata grazie a un sistema di filologia computazionale deriva da una stretta interazione che si viene a stabilire fra i dati, lo strumento informatico e la competenza personale dell’editore, quella ottenuta dalla conversione in formato elettronico di una edizione cartacea (o concepita come tale) mediante tecniche ipertestuali e multimediali, invece, si configura più semplicemente come un’attività di organizzazione e presentazione dei dati secondo un codice linguistico diverso (il linguaggio di codifica ipertestuale) e molto attraente sotto il profilo grafico.
Le principali differenze fra le due modalità emergono in modo evidente se si mettono a confronto i seguenti due ambiti della ricerca filologica: la critica genetica e la critica testuale.
Testi a stampa antichi e manoscritti di autori moderni e contemporanei
Una situazione particolare si verifica nei progetti di studio dei ripetuti interventi introdotti da molti autori moderni e contemporanei sui propri manoscritti: la modalità elettronica ipertestuale consente di organizzarli e presentarli in una forma semplice e chiara. Questo settore è noto con il nome di critica genetica e si occupa di studiare il processo costitutivo di un’opera a partire dagli autografi. Il fenomeno non è comunque limitato ai manoscritti poiché non sono affatto rari i casi nei quali un autore introduca varianti anche sul volume in corso di stampa o già stampato di una propria opera, come nel caso della Scienza nuova di Giambattista Vico, nell’edizione pubblicata nel 1730, della quale sono giunti fino a noi circa 60 esemplari. Il filosofo napoletano è intervenuto di suo pugno sui volumi inserendovi correzioni, aggiunte, eliminazioni, chiose che, naturalmente, l’edizione critica moderna (G. Vico, La scienza nuova, 1730, a cura di P. Cristofolini, 2004) registra in apparato. È evidente, tuttavia, che il supporto cartaceo limita molte forme di consultazione che solo il mezzo elettronico è in grado di garantire grazie, per es., a un indice alfabetico che collega testo edito e varianti (e viceversa). Dal punto di vista informatico, si inseriscono nel testo degli elementi di marcatura grazie ai quali si produce il collegamento con la zona delle immagini digitali degli esemplari superstiti ove compare una nota manoscritta. La consultazione dell’indice alfabetico delle parole consente così di esaminare contemporaneamente anche le note manoscritte che a esse si riferiscono. Se si intende poi ottenere una completa indicizzazione del testo degli interventi manoscritti, si possono attivare tanti campi quanti sono gli esemplari superstiti, vi si trascrive il testo delle annotazioni vichiane e si produce l’indice. La selezione di ogni entrata dell’indice comporta la visualizzazione immediata sia della parte del testo critico moderno alla quale la variante rinvia, sia di tutte le porzioni di immagine corrispondenti negli altri esemplari digitalizzati. Questo metodo offre una struttura più articolata di quella dell’apparato critico tradizionale e più facilmente consultabile. Vi sono casi ancora più complessi di questo come, per es., quello della Monadologie di Gottfried Wilhelm von Leibniz (Lamarra 2004), dello Stirrings still di Samuel Beckett (van Hulle 2004) o dei taccuini di Friedrich Wilhelm Nietzsche (Gerike 2000). La possibilità dei sistemi tipografici tradizionali di rendere visibili gli interventi autografi, sia pure in situazioni più semplici rispetto a quelle sopra esposte, è stata dimostrata già in passato: basti qui ricordare l’esempio di Riccardo Folli che, nella sua edizione de I promessi sposi del 1877-1879, mise a raffronto la ‘quarantana’ e la ‘ventisettana’ dell’opera manzoniana, e quello di Lanfranco Caretti che pubblicò, nel 1971, il capolavoro manzoniano nelle due edizioni del 1840 e del 1825-1827 raffrontate tra loro. Con lo sviluppo dei sistemi di fotocomposizione si sono potuti ottenere in seguito altri importanti risultati, ma nessuno di essi sarebbe stato mai in grado di documentare, rappresentare visivamente e, soprattutto, far consultare in maniera non sequenziale dati per loro natura così refrattari a una precisa sistematizzazione.
Critica testuale elettronica dei manoscritti antichi
Se ora il punto di osservazione si sposta verso lo studio dei documenti manoscritti antichi (su papiro, pergamena, carta, pietra, ceramica), ossia si rivolge l’attenzione alla critica testuale, le innovazioni dovute alla tecnologia sono recentissime e in ulteriore espansione. I vantaggi della riproduzione digitale che sono stati descritti sopra assumono, in questo campo, una validità particolare soprattutto quando sono accompagnati da programmi di elaborazione dei dati strettamente correlati alle finalità molto specifiche della filologia. Quando un testo antico, del quale non si possiede l’originale, è conosciuto solo attraverso delle copie realizzate nel corso dei secoli, si pone il problema di raccogliere tutte le fonti, confrontarle, registrarne le varianti ed eventualmente proporre la ricostruzione del testo che si presume possa essere quello concepito dall’autore, ma che è andato perduto. La critica testuale ha messo a punto un metodo che si è evoluto e modificato nel corso del tempo e che ora viene in un certo senso a costituire la base almeno per una serie di moderne realizzazioni sperimentali. Esse sono costituite da due componenti principali: i dati, oggetto di raccolta (recensio) e confronto (collatio), e un sistema computazionale per organizzarli nella maniera più adatta al fine di valutare le divergenze e le somiglianze documentate nei codici. Altri programmi, inoltre, sono rivolti ad assistere il filologo nelle fasi più delicate del proprio lavoro: spiegare e rappresentare graficamente (stemma codicum) i rapporti di parentela più o meno stretti che intercorrono fra le fonti recensite e che sono correlati alla quantità e qualità delle varianti memorizzate in un apparato critico; ipotizzare quale avrebbe potuto essere il testo originario (constitutio textus).
La fase di raccolta, seguita alla conversione in formato digitale della documentazione, produce un archivio di immagini che, secondo quanto detto in precedenza, possono essere visualizzate, ingrandite e sottoposte a procedimenti di manipolazione grafica per consentire una lettura più sicura e una più rapida interpretazione e trascrizione. Ogni pagina di un documento può essere confrontata con quelle degli altri documenti che trasmettono la stessa porzione di testo in modo da rilevarvi le varianti. Esse vengono registrate in un apposito archivio (la base dati di apparato) che viene sottoposto a un programma di indicizzazione. Il filologo, quindi, ha a disposizione un mezzo veloce per poter contemporaneamente consultare l’insieme delle divergenze da lui stesso individuate sui codici e riferite a ciascuna porzione del testo (anche una sola parola) che egli ha trascritto. Il sistema informatico mette, inoltre, a disposizione un campo della base dati nel quale lo studioso può commentare le varianti e dire le ragioni per le quali egli ritiene di averle o non averle prese in considerazione ai fini della ricostruzione del testo originario; egli, infine, se lo ritiene opportuno, può utilizzare un’altra sezione del programma che gli consente di proporre il testo da lui ricostruito.
Appare evidente, dunque, che la filologia computazionale applicata alla tradizione manoscritta di un’opera antica il cui originale è andato perduto ricalca una procedura di confronto e valutazione delle varianti che è tradizionalmente adoperata da molto tempo, da quando, cioè, Karl Lachmann la mise in pratica nel 1852 per stabilire il testo del De rerum natura di Lucrezio e che successivamente è stata da altri filologi modificata. Uno degli aspetti che oggi accendono maggiormente il dibattito fra coloro che si occupano di filologia computazionale riguarda le modalità del confronto fra i codici per l’individuazione delle varianti e la possibilità di mostrare la relazione esistente fra i membri della tradizione manoscritta. Entrambi questi aspetti sono poi correlati a un terzo e ancora maggiore problema: se sia cioè giusto che lo studioso, al termine della propria indagine, si esponga a proporre il testo da lui ipotizzato come quello originariamente concepito dall’autore. Chi vuole affidare alla macchina un ruolo maggiore è obbligato a trascrivere il contenuto di tutti i codici, registrando anche quegli errori banali che un copista ha introdotto e che potrebbero perfino risultare fuorvianti, se molto numerosi, qualora si affidi a un calcolatore il compito di stabilire gli eventuali legami di parentela che esistono fra le fonti. Il risultato del calcolo prodotto dal programma e affidato a un sistema di visualizzazione delle informazioni si presenta nella forma di una ragnatela nella quale nodi e rami sono rispettivamente le fonti manoscritte e le relazioni fra esse. Quando i nodi appaiono sul grafico in posizione ravvicinata rispetto ad altri, significa che le varianti che li differenziano sono inferiori e, pertanto, essi risultano caratterizzati da maggiori legami di parentela (per es., potrebbero essere due codici che hanno copiato da una medesima fonte). Tale approccio metodologico ritiene sufficiente aver offerto una rappresentazione dei rapporti che intercorrono fra i membri della tradizione, e aver messo in condizione altri studiosi di poter leggere tutte le versioni del testo come trasmesso da ciascun membro, senza offrire un testo ricostruito.
Chi, invece, non intende affidare alla macchina un compito tanto delicato, preferisce adottare una posizione che è, da un lato, rispettosa dell’impianto metodologico tradizionalmente adottato in campo critico editoriale, dall’altro innovativa perché delega a uno strumento informatico il ruolo di organizzare e favorire nuove modalità di interrogazione dei dati (Bozzi, Corradini 2002). Tale posizione presenta alcuni vantaggi che possono essere così sintetizzati. Lo studioso:
a) trascrive il testo presente nell’immagine digitale di una sola fonte, quella che egli, per ragioni interne (linguistiche, stilistiche) ed esterne (codicologiche), ritiene degno di essere considerato come base di confronto con il testo trasmesso dalle altre fonti;
b) distingue tra errori e varianti, evitando in tal modo di registrare nell’apparato critico informazioni irrilevanti per lo studio dei rapporti fra codici e per la eventuale ricostruzione del testo;
c) utilizza il sistema informatico per registrare le varianti: egli ha a disposizione tanti campi quanti sono i codici che ha recensito;
d) ottiene, grazie al sistema di indicizzazione del testo e delle informazioni di apparato, dati sufficienti a dimostrare come i codici siano correlati fra loro, favorendo la predisposizione di uno stemma che si presenta non in forma di ragnatela, ma di albero;
e) può attivare, grazie alla eventuale presenza di un campo dell’apparato riservato all’inserimento del testo che egli ritiene sia quello originario o a esso più vicino, un programma in grado di generare automaticamente il testo da lui stabilito e che può venire stampato su carta oppure su un sito Internet per essere poi consultato dagli utenti della rete.
Le innovazioni tecnologiche hanno già mostrato di poter intervenire positivamente in altri ambiti degli studi filologici, quali la papirologia egizia, greca e latina, e anche in epigrafia e paleografia. La consultazione contemporanea di testo e di immagini ad alta definizione apre prospettive di grande interesse per facilitare l’integrazione di parole che, a causa di danni subiti dal supporto materiale, si presentano incomplete. La disponibilità di grandi archivi computerizzati unitamente a sistemi di acquisizione multispettrale, che permettono di ricostruire fedelmente i colori degli oggetti e di ritrovare tracce anche debolissime di inchiostro, fanno prevedere una collaborazione fra la linguistica, la filologia e i sistemi di elaborazione delle immagini con ricadute importanti sia nel campo della tradizione culturale, sia nella formazione di nuove figure professionali. Gli informatici umanisti o umanisti informatici, a seconda di quale sia la componente prevalente del proprio curriculum di studi e della propria esperienza lavorativa, potranno aiutare le scienze umane a riguadagnare uno spazio che la società contemporanea, fortemente ancorata al profitto e a quella tecnologia che è a esso funzionale, sembra da tempo avere loro indebitamente limitato.
Bibliografia
L’eclisse delle memorie, a cura di T. Gregory, M. Morelli, Roma-Bari 1994.
A. Bozzi, Character recognition and the linguistic spelling checker: an integrated technique, in Computer-aided recovery and analysis of damaged text documents, ed. A. Bozzi, Bologna 2000, pp. 161-86.
I. Gerike, Les manuscrits et les chemins génétiques du Voyageur et son ombre, in HyperNietzsche. Modèle d’un hypertexte savant sur Internet pour la recherche en sciences humaines, éd. P. D’Iorio, Paris 2000, pp. 129-62.
T. Kohonen, Self-organizing maps, Berlin-Heidelberg-New York 2001.
A. Bozzi, M.S. Corradini, New trends in philology: a computational application for textual criticism, «Euphrosyne», 2002, 30, pp. 267-85.
D. Broia, Algoritmi e scienze umanistiche: il digitale per il recupero della conoscenza, in Matemáticas y tratamiento de corpus. Actas del segundo seminario de la Escuela interlatina de altos estudios en Lingüística aplicada, Logroño 2002, pp. 309-26.
G. Fedele, Restauro di documenti a stampa antichi per il riconoscimento automatico dei caratteri, in Matemáticas y tratamiento de corpus. Actas del segundo seminario de la Escuela interlatina de altos estudios en Lingüística aplicada, Logroño 2002, pp. 289-308.
Informatica e scienze umane. Mezzo secolo di studi e ricerche, a cura di M. Veneziani, Firenze 2003.
D. van Hulle, Compositional variants in modern manuscripts, «Linguistica computazionale», 2004, 20-21, pp. 513-27.
A. Lamarra, Digitising philosophical texts and manuscripts. The Leibniz case, «Linguistica computazionale», 2004, 20-21, pp. 287-303.
S. Marinai, M. Gori, G. Soda, Artificial neural networks for document analysis and recognition, «IEEE Transactions on pattern analysis and machine intelligence», 2005, 27, 1, pp. 23-35.
A. Bozzi, L. Cignoni, G. Fedele, Linguistic tools for navigation in a virtual museum, «Archeologia e calcolatori», 2007, 1, suppl.: Virtual museums and archaeology. The contribution of the Italian national research council, ed. P. Moscati, pp. 209-20.