CRITICA TESTUALE E INFORMATICA

di Maurizio Lana - XXI Secolo (2009)

Critica testuale e informatica

Maurizio Lana

Nell’ambito dello studio critico dei testi l’informatica entrò fin dai suoi inizi, grazie al lavoro di padre Roberto Busa sugli scritti di Tommaso d’Aquino. Tuttavia, a quasi sessant’anni di distanza, la presenza dell’informatica nel mondo dello studio dei testi non è ovvia. L’accoglienza per il connubio testi-informatica è in genere entusiastica da parte dei pochi che dominano le tecniche e la strumentazione, cauta e sospettosa da parte dei più. Il risultato è che ben pochi studi che utilizzano strumenti informatici e metodi quantitativi raggiungono il consenso e la diffusione che di solito accompagna i risultati di alto livello. Ci sono motivazioni fondate, ma anche pregiudizi, che possono spiegare questa situazione. Si potrebbe partire dall’annoso dibattito sulle «due culture», come le chiamò Charles Snow nelle sue famose lezioni del 1959 e del 1963, dibattito che, anche se non vi ricorre più l’espressione chiave, è tuttora vivo e vivace come testimonia una quantità di scritti recenti. I metodi e gli strumenti delle discipline matematico-fisico-naturali appaiono agli umanisti segnati dalla freddezza e dalla distanza dall’oggetto di studio, spesso costituito da un gruppo, da una classe di oggetti o di fenomeni; gli studiosi di area matematico-fisico-naturale vedono nei metodi e negli strumenti degli umanisti la carenza di protocollo (cioè di metodologia consolidata e dichiarata per la raccolta dei dati da studiare), per non parlare del fatto che lo studioso di testi spesso non si pone nemmeno il problema di definire in modo formale quali siano i dati da studiare. In questo dibattito gli umanisti sostengono con forza l’unicità di ogni loro oggetto di studio (tema che, per es., nell’ecdotica ricorre spesso nella discussione sulla formalizzazione del metodo di derivazione lachmanniana, non necessariamente in riferimento all’uso di strumenti informatici), fino al concetto espresso dal detto «ci sono le scienze dure, e poi ci sono le scienze difficili», con le sue numerose varianti, dove le scienze difficili sono quelle di area umanistica. Le scienze dure si basano su metodi e teorie, in certo modo ogni ricerca mira alla dimostrazione di una teoria, o alla costruzione di una nuova, mentre le scienze umanistiche riconoscono in ogni testo una unicità che richiede una disponibilità totale a ripartire da zero, perché nulla del già noto è necessariamente utile o utilizzabile per lo studio del nuovo; una unicità non sistematizzabile e quindi non trasformabile in teoria capace di spiegare altri fenomeni simili. Vi sono però tra gli umanisti anche coloro che riconoscono negli strumenti offerti dall’informatica un potente mezzo di sviluppo delle conoscenze e dei metodi. Si può ricordare la lezione sempre attuale di Joseph Carl Robnett Licklider (e con lui di Douglas Engelbart) che cinquant’anni fa osservò sperimentalmente come in una sua giornata di lavoro intellettuale l’85% del tempo fosse speso in attività ripetitive e di modesto impegno mentale (reperimento di persone; reperimento, ordinamento, confronto, stampa/visualizzazione di informazioni e così via) e si chiese se esse non potessero essere demandate a un ‘aiutante informatico’ così da ampliare il tempo disponibile per le attività intellettuali di alto livello (analisi di dati, formulazione di ipotesi e loro verifica, confronto di possibili soluzioni ecc.). L’elemento centrale di tale riflessione è che gli strumenti informatici interessano non in quanto sono veloci, ma in quanto svolgono operazioni tediose, difficili per l’intelligenza umana che non opera efficacemente in compiti ripetitivi e di dettaglio e che ha così più tempo a disposizione per le attività in cui meglio eccelle (in cui è insostituibile, si vorrebbe dire). Ciò costituisce una componente importante della spinta costante, per quanto minoritaria tra i filologi, al ricorso agli strumenti informatici per lo studio della tradizione testuale delle opere antiche.

Se nello studio e ricostruzione della tradizione si vede come elemento dominante la quantità delle operazioni di confronto tra lezioni (siano esse varianti o errori) allora il motivo del ricorso agli strumenti informatici è chiaro: lo studioso spende il suo tempo nella progettazione e verifica delle regole di confronto fra testimoni, ma poi ne demanda al computer l’applicazione. Se invece si vede come elemento dominante dello studio di una tradizione testuale la specificità e unicità di ogni testimone, è chiaro che solo la lettura e l’analisi minuziosa di ogni testimone da parte dello studioso saranno adeguate al compito. Che il computer possa svolgere compiti prima demandati all’intelligenza umana (situazione che si potrebbe sintetizzare nelle parole: ‘compiti noti con strumenti nuovi’), non significa che esso possa e debba svolgere solo quei compiti. Si possono, infatti, immaginare e progettare compiti nuovi, non concettualmente innovativi in assoluto ma praticamente non realizzabili senza di esso (si potrebbe dire in sintesi: ‘compiti nuovi con strumenti nuovi’). Un esempio semplice può essere il seguente: dato un testo, reperire tutti i passi che contengono la parola tempesta a una distanza massima di 5 parole dalla parola mare. Una tale ricerca, il cui contenuto e la cui procedura sono semplici, sarebbe impossibile non solo dovendo operare con carta e penna sul testo dato, ma anche se si avesse a disposizione una concordanza a stampa. Tuttavia, si può procedere sulla strada dei ‘compiti nuovi con strumenti nuovi’ arrivando a ricerche inimmaginabili in assenza del computer. Esso rende infatti possibile effettuare analisi di tipo statistico o matematico miranti a evidenziare le caratteristiche del linguaggio di un testo o la sua somiglianza con un altro testo. Nell’ambito statistico i metodi più interessanti sono quelli che si collocano nell’area della statistica multivariata e specificamente dell’analyse des correspondances sviluppata negli anni Settanta del 20° sec. dal matematico francese Jean-Paul Benzécri; nell’ambito matematico si tratta delle distanze misurate ricorrendo agli n-grammi e dell’entropia relativa (sulle quali si veda oltre). Si possono così eseguire analisi che arrivano a investigare la natura matematica dei testi. Come un affresco medievale può essere oggetto di studio storico-critico, ma può anche essere analizzato con uno spettrometro di massa per conoscere la composizione dei pigmenti; o l’analisi acustica degli armonici che compongono il suono di uno specifico pianoforte permette di distinguerlo da ogni altro; allo stesso modo un’opera letteraria può essere oggetto di studio storico-critico ma può anche essere analizzata con strumenti che ne mettono in luce una struttura matematica soggiacente.

Occorre infine ricordare che il ricorso a procedure e strumenti di tipo matematico e informatico spinge (quasi obbliga) il letterato, o il filologo, verso la costruzione di modelli formali che descrivano la ricerca e ne permettano l’attuazione. La spinta è insita nel fatto che il materiale testuale da studiare deve essere preparato in modo tale da poter essere lavorato con gli strumenti matematico-informatici che si è deciso di utilizzare; e che ancor prima gli strumenti devono essere scelti avendo ben ponderato quale tipo di analisi si intende effettuare in funzione degli scopi che si intende raggiungere. Ma questa spinta, questo movimento talora forzato dalle circostanze, verso la costruzione di un modello della ricerca dotato di coerenza formale non è tutto. Lo stadio successivo è quello in cui si riconosce che la ricerca deve essere avviata partendo dalla costruzione di un modello, che per Willard McCarty (2004) è «uno stato temporaneo di un processo che porta a conoscere, piuttosto che una struttura rigidamente definita del sapere». Costruire modelli pone in una prospettiva formalmente rigorosa e insieme aperta alla scoperta: i modelli sono fatti per essere messi alla prova, per essere verificati e poi abbandonati se risultano non validi, conservati come base per il successivo stadio della ricerca se invece risultano validi. E il computer è in modo eminente una macchina per la sperimentazione e la verifica di modelli.

Critica testuale come ecdotica

Nell’ultimo decennio il ricorso all’uso di strumenti informatici nella critica testuale non è cessato, nonostante che i filologi diffidenti verso l’informatica non abbiano perso occasione per segnalare le lacune, le debolezze, i limiti delle attività di studio e di ricerca che fanno ricorso ai programmi informatici per gestire la collazione dei manoscritti e poi, eventualmente, anche per ricavare da tali confronti lo stemma, cioè il grafo ordinato che descrive le relazioni di tipo genealogico che collegano i manoscritti. I filologi fiduciosi nell’informatica, invece, non smettono di farvi ricorso, con un approccio che da qualche tempo viene chiamato new philology, con ciò, da una parte, segnalando una prevalenza anglosassone, dall’altra, implicando una connotazione svalutativa (o orgogliosamente innovativa, secondo i punti di vista) di cui gli anni a venire diranno se è fondata. Delle tre fasi principali del lavoro del filologo che cura l’edizione critica di un testo (il confronto tra i manoscritti – collazione –; la ricostruzione delle loro parentele; la costruzione e pubblicazione dell’edizione del testo), la fase più delicata e critica è quella della collazione poiché da essa dipende tutto il lavoro successivo, ed è su di essa che si è venuta chiarendo e radicalizzando nel tempo la diversità di posizione tra i filologi classici e i filologi medievalisti: gli uni ritengono che dell’opera si debba mirare a pubblicare il testo migliore oggi ricostruibile a partire dai testimoni (i manoscritti) in nostro possesso; gli altri che l’edizione (edizione aperta) debba testimoniare la situazione attuale delle conoscenze sulla trasmissione testuale, senza necessariamente mirare a ricostruire una singola forma migliore del testo – anche in conseguenza del fatto che la tradizione dei testi medievali è spesso multilineare (non è possibile individuare un antenato comune di tutti i manoscritti noti) e le contaminazioni la rendono molto complicata. La collazione dei manoscritti è un’operazione complessa poiché, nella prospettiva classica che ha origine dalle linee guida dello studioso tedesco Karl Lachmann, essa mira a essere oggettiva e rigorosa applicazione di pochi e semplici criteri secondo i quali, nel confrontare i manoscritti uno per uno contro uno specifico scelto come riferimento, si distinguono le varianti (per es., nel carme LXVI di Catullo, noto come La chioma di Berenice, al v. 45 si legge, a seconda dei codici: «cum Medi peperere novum mare» o «cum Medi properare novum mare») dagli errori (nel caso appena citato, la lezione dei codici che riportano «cum Medi prorupere novum mare» è sbagliata perché metricamente non corretta). Ma distinguere e riconoscere le une e gli altri è questione complessa. Si può ricordare, sempre restando al carme LXVI di Catullo, che il testo tramandato al v. 93 riporta «sidera cur iterent». Di fronte a tale testo, di non semplice interpretazione, ci sono stati commentatori e filologi antichi e moderni che hanno argomentato per accettarlo rendendone ragione; e altri che, ritenendolo erroneo, hanno proposto vari emendamenti: «sidera corruerint» (così Lachmann in Q. Valerii Catulli Veronensis liber, 1829), «sidera cur retinent» (da Alessandro Guarini, in C.V. Catullum Veronensem per Baptistam patrem emendatum expositiones, 1521, sino ai giorni nostri), «sidera cur haerent» (Costantino Nigra in La chioma di Berenice, 1891), «sidera cur iterentur» (Dante Nardo nella recensione a N. Marinone, Berenice da Callimaco a Catullo, 1986, apparsa nella rivista «Paideia», 1986, 41, pp. 90-94). Questi richiami testuali, pur nella loro brevità e sommarietà lasciano intravedere la difficoltà di applicare con rigore scientifico il metodo lachmanniano (che è ben più complesso di quanto gli accenni fatti qui sopra possano dare a intendere), a partire da una definizione precisa di variante e di errore, per non parlare poi del loro rispettivo riconoscimento nella varietà dei passi dei testi; senza dimenticare che pur adottando il medesimo metodo è improbabile che in una tradizione testuale data due filologi concordino totalmente nel distinguere varianti ed errori. Riferimento importante per la discussione sul metodo lachmanniano sono gli scritti dei filologi Giorgio Pasquali – Storia della tradizione e critica del testo, 1934 – e Sebastiano Timpanaro – La genesi del metodo del Lachmann, 1963. Negli anni Venti del secolo scorso Henri Quentin per eliminare l’insanabile complessità (o ambiguità?) della distinzione tra variante ed errore propose di catalogare semplicemente ogni discrepanza tra i manoscritti esaminati a due a due (Gianfranco Contini lo definì «nuovo sconcertante metodo») e di basarsi su tale catalogo per costruire lo schema delle relazioni tra i manoscritti (H. Quentin, Essais de critique textuelle. Ecdotique, 1926); lo seguirono poi negli anni Sessanta Gian Piero Zarri e Jacques Froger, i quali informatizzarono la procedura quentiniana di confronto tra i manoscritti (J. Froger, La critique des textes et son automatisation, 1968). Tali procedure non portarono a conclusioni apprezzabili.

Per superare i limiti dell’approccio quentiniano, la collazione automatica dei manoscritti mostra oggi una tendenza a essere eseguita sulla base di regole dettagliatamente definite dal filologo volte a descrivere che cosa sia variante e che cosa sia errore, con una seria difficoltà data dal fatto che il dettaglio con cui si possono definire le regole di collazione non è mai pienamente adeguato all’infinita varietà dei casi che il testo presenta, per i quali occorre il giudizio umano. Tale situazione richiama per certi aspetti la vicenda degli anni passati del ricorso all’‘intelligenza artificiale’ nei sistemi esperti: dato un ambito di conoscenza specifico – per es., l’analisi geologica stratigrafica mirante a individuare nuovi giacimenti di petrolio –, si cercava di definire con i geologi (gli esperti) l’insieme delle regole cui essi ricorrevano per analizzare i dati sperimentali e concludere se si poteva ipotizzare o no la presenza di petrolio in una data zona, per poi costruire con queste regole un programma – il sistema esperto – capace di analizzare con molto maggiore velocità i dati delle prospezioni. Ma apparve chiaro, nei tentativi di costruzione di sistemi esperti, che gli esseri umani a volte non rispettano le regole che pure hanno indicato; a volte ne utilizzano altre che non hanno esplicitato, a volte si basano sull’intuito in assenza di regole precise e procedimenti deduttivi veri e propri, a volte danno più peso a un elemento, a volte a un altro; ma questa incoerenza formale non significa che si giunga a conclusioni erronee, bensì che la realtà è troppo complessa perché si possa interagire efficacemente con essa ricorrendo solo a un numero finito di regole prestabilite, soprattutto quando ci si trova a operare in situazioni limite, particolarmente difficili o complesse. Un’altra tendenza è quella che vede nei manoscritti e nelle loro varianti un analogo degli individui di una specie con il loro codice genetico; e giacché esistono da tempo procedure e programmi consolidati che, dato per es. un insieme di informazioni sul codice genetico di una serie di scimmie, ricostruiscono le relazioni evolutive tra di esse (per ognuna qual è il suo antenato/i suoi antenati, e quale il suo successore/i suoi successori), si è provato ad applicare tali procedimenti effettuando sulla tradizione testuale di un’opera analisi cladistiche e generando dei cladogrammi che non sono altro che l’analogo degli stemmi. In genere, per chi utilizza mezzi informatici per la collazione dei manoscritti, la ricostruzione delle parentele tra i manoscritti e la generazione dello stemma costituiscono un momento culminante della ricerca. Di per sé la ricostruzione delle parentele è importante perché, com’è ovvio, si tende a ritenere che un manoscritto più antico (che sta più in alto nell’albero genealogico) presenti una forma del testo più vicina a quella originale dell’autore, ma la rappresentazione grafica per mezzo dello stemma non è indispensabile. Il fascino particolare che la generazione dello stemma da parte del computer esercita dipende forse dalla natura logico-creativa del processo: partendo da dati elementari (la collazione), con procedimento logico-deduttivo si costruisce un oggetto (lo stemma, che è un grafo orientato) che condensa al proprio interno tutta l’informazione dispersa nei singoli dati di collazione. La disponibilità di strumenti informatici ha portato mutamenti di prospettiva anche nell’ambito della pubblicazione delle edizioni critiche. Come si è detto, ogni edizione critica di un testo, nella prospettiva tradizionale della filologia classica, mira a ricostruire il testo migliore a partire dai testimoni esistenti sulla base del giudizio del filologo curatore; tale testo è accompagnato da un apparato di note che mostra le varianti più importanti presenti nei manoscritti della tradizione, permettendo così a ogni studioso di valutare il testo stabilito dal curatore ed eventualmente preferire varianti che egli non ha accolto nel testo. Tuttavia, l’edizione a stampa, per motivi di spazio, di leggibilità, di costi, non accoglie tutte le varianti e quindi l’intento dell’apparato di permettere a ogni studioso le sue autonome valutazioni non si realizza pienamente. Edizioni critiche di testi medievali (per i quali è più forte e sentita l’esigenza di dar conto nell’edizione critica in modo pieno dell’intera tradizione testuale) iniziano così da qualche tempo a essere pubblicate on-line o su disco ottico (v. su questo tema alcuni contributi in Digital philology, 2007), edizioni nelle quali il filologo curatore mette a disposizione tutte le varianti della tradizione testuale che ha studiato rendendo possibile leggere, se lo si vuole, il testo di ogni singolo manoscritto. L’edizione di un testo si presenta così in una duplice veste: da una parte, punto di arrivo del filologo curatore; dall’altra, repertorio di materiali e officina in cui ogni studioso può lavorare allo studio dell’intera tradizione testuale. Non per questo comunque scomparirà lo studio de visu dei manoscritti: anche solo perché, come ricordava Cesare Segre (1999), non viene meno la necessità di verificare e di scegliere le proprie fonti: «La superiorità, straordinaria [dell’edizione che contiene la raccolta integrale delle varianti di tradizione], è nella quantità dei dati squadernati alla nostra riflessione e nella velocità con cui vengono richiamati. Ma i dati che vengono forniti sono la totalità di quelli immessi nel computer, non di quelli reperibili. Il nostro dialogo col computer non deve implicare l’esclusione di ciò che, assente nel computer, esiste nella realtà» (p. 15).

Critica testuale come attribuzione di testi

Un ambito ancora ristretto e specialistico – ma contiguo a quello dell’ecdotica in quanto costituisce anch’esso per certi versi una fase preparatoria allo studio del testo – è quello dell’attribuzione di testi con metodi quantitativi. Dati uno o più corpora di autore noto, e dato un insieme di scritti anonimi, si vuole capire se e quali degli scritti anonimi sono di uno o un altro degli autori noti. In termini formalizzati di tipo matematico-statistico si può definire il problema in questo modo: data una serie di popolazioni p1, p2, ..., pn, si cerca una variabile o un insieme di variabili tali per cui la varianza all’interno di una popolazione sia minima e la varianza tra popolazioni differenti sia massima. Occorre a tale scopo definire con precisione le popolazioni; definire con precisione, e scegliere, la variabile o le variabili da utilizzare e il modo di misurarle; mostrare in modo convincente che la varianza intra-popolazione è significativamente minore di quella tra popolazioni (in termini più generici se si è in grado di mostrare che la distanza tra un sottoinsieme degli scritti anonimi e il corpus di un autore noto è molto piccola, mentre la distanza rispetto a tutti gli altri autori noti è molto più grande, allora quel sottoinsieme di scritti anonimi è con buon grado di probabilità da ascrivere all’autore noto cui è più vicino). Le variabili su cui si misurano le distanze sono le caratteristiche stilistiche del testo, intese non tanto in una prospettiva estetica o storico-critica, quanto in una prospettiva analitica di tipo prevalentemente lessicale (lunghezza media delle parole, lunghezza media delle frasi, rapporto nomi-verbi ecc.); la misurazione (il conteggio) delle caratteristiche di stile è oggetto di valutazione della stilometria. L’attribuzione può essere necessaria in quanto, se in situazione normale i testi sono attribuiti sulla base di esplicite indicazioni autoriali dell’edizione a stampa, possono però esistere casi in cui essa non riporta alcuna indicazione relativa all’autore e può quindi essere necessario cercare di individuarlo studiando le evidenze interne al testo: evidenze fattuali, quali dichiarazioni esplicite nel testo stesso, riferimenti a fatti, situazioni, persone; o evidenze testuali, quali il lessico utilizzato, le combinazioni ricorrenti di parole del lessico ecc., lo stile che, come molti fenomeni fisici, si caratterizza per la regolarità probabilistica, non deterministica, delle sue manifestazioni. Le evidenze interne testuali sono oggetto di studio da parte dell’attribuzione con metodi quantitativi, seguendo un percorso che va dall’individuazione delle caratteristiche dello stile del testo, alla misurazione di tali caratteristiche, all’elaborazione dei dati risultanti dalle misurazioni. Il punto dolente è l’individuazione delle caratteristiche che permettono di descrivere lo stile di un testo: dalla fine del 19° sec. (con l’inizio degli studi stilometrici per opera di Wincenty Lutosławski, The origin and growth of Plato’s logic, 1897) a oggi non si è arrivati a definire il consenso su quali siano le caratteristiche stilistiche di un testo misurabili e utilizzabili per l’attribuzione, cosicché ogni studioso fa le sue scelte. Lutosławski contava caratteristiche di stile complesse, di tipo non solo sintattico, quali «risposte indicanti assenso soggettivo che non siano più di 1/60 del totale delle risposte», ma da allora l’attenzione si è spostata progressivamente su elementi di tipo morfologico o lessicale: frequenza delle parole vuote (anche dette parole grammaticali: congiunzioni, preposizioni e simili), lunghezza media delle parole, lunghezza media delle frasi, preferenza tra sinonimi o espressioni equivalenti (per es., in riferimento all’italiano: fino/sino, poiché/dal momento che e simili) e così via. Questi indicatori di stile, presi in considerazione singolarmente, o in varie combinazioni, costituiscono la base del successivo lavoro di attribuzione vera e propria. Benché ogni ricerca in questo ambito presenti risultati positivi, non si è oggi in grado di affermare con certezza quali siano gli specifici elementi quantitativi di stile capaci di discriminare tra due testi scritti nel medesimo periodo e nella medesima lingua in quanto non sono mai state effettuate procedure comparative di efficacia sui vari elementi e ogni studioso presenta risultati ottenuti sui suoi testi ricorrendo ai suoi criteri. Un serio limite alla possibilità di generalizzare le acquisizioni di una singola ricerca è dato dal fatto che, per es., trovata una variabile capace di discriminare tra testi di autori diversi, non sempre si verifica se la stessa variabile per caso discriminerebbe testi del medesimo autore; o viceversa che, trovata una variabile capace di classificare correttamente un insieme di testi del medesimo autore, non sempre si verifica se essa per caso assocerebbe a esso anche testi di autori differenti. Gianfranco Contini esprimeva cautela sull’attribuzione con criteri quantitativi, che chiamava attribuzione su base stilematica: «Corrente è anche l’attribuzione su base stilematica, ma occorre una grande oculatezza nel determinare se un certo stilema o sistema di stilemi possa davvero esser considerato una firma interna. L’illusione di poter adoperare impunemente i calcolatori elettronici per una determinazione automatica di paternità su base lessicale o sintattica (presenza o assenza di vocaboli e locuzioni, loro proporzione numerica, rapporti fra le parti del discorso, misura media dei segmenti sintattici e, chi volesse, valori timbrici in percentuale), per esempio al fine di determinare quali lettere e quali dialoghi pseudo platonici siano davvero spuri, non sopravvive che circondata di cautele e riserve presso gli operatori più accorti, coscienti del fatto che quegli indici, o una loro parte, individuano strutture di ‘genere’, comuni a più personalità, mentre viceversa in uno stesso individuo convivono più strutture» (Breviario di ecdotica, 1990 [1^a ed. 1986], p. 56). Importante punto di svolta, per l’intento chiaramente fondativo e metodologico che la mosse, fu la gara internazionale di attribuzione di testi denominata Ad-hoc authorship attribution competition, promossa da Patrick Juola, matematico della Duquesne university di Pittsburgh, e svoltasi nel 2004, nel corso della quale una ventina di studiosi di vari Paesi lavorarono all’attribuzione di set testuali scritti in una dozzina di lingue antiche e contemporanee sui quali non avevano ricevuto alcuna informazione (Juola 2008, pp. 287-98). Ogni set conteneva campioni di testo scritti in una medesima lingua o variante (inglese contemporaneo, del 19° secolo, di scrittori elisabettiani; middle english; francese; serbo-slavonico; latino; olandese), tra i quali potevano esserci nessuna, una, o più relazioni di parentela. I migliori risultati furono ottenuti da studiosi che avevano misurato le distanze tra i testi utilizzando come criterio di misura gli n-grammi, che cioè avevano contato le occorrenze delle sequenze di n segni (lettere, numeri, spazio, interpunzione ecc.; quale sia n, cioè quanto lunghe debbano essere queste sequenze di segni capaci di misurare la distanza tra due testi, non è definibile a priori) presenti nei testi (cane_nero, per es., si scompone nei seguenti 4-grammi: ‘cane’, ‘ane_’, ‘ne_n’, ‘e_ne’, ‘_ner’, ‘nero’). Negli stessi anni un gruppo di matematici italiani (Benedetto, Caglioti, Loreto 2002) metteva a punto un metodo per misurare l’entropia relativa di due testi, cioè per misurare la distanza fra due testi utilizzando l’entropia di Claude Elwood Shannon come criterio di misura (la quantità di informazione contenuta in un messaggio è il minimo numero di bit necessari per codificarlo, e l’entropia è il rapporto tra quel numero di bit e il numero di caratteri; cfr. C.E. Shannon, A mathematical theory of communication, «Bell system technical journal», July 1948, pp. 379-423 e October 1948, pp. 623-56).

Si può descrivere l’entropia relativa in termini che rimandano a un’esperienza comune, quale è la compressione dei file del computer: la compressione di un testo t1 costituito da 100 ricorrenze di un medesimo simbolo ‘a’ sarà molto efficiente perché il messaggio è molto ripetitivo e l’entropia è bassa; anche la compressione di un testo t2 costituito da 100 ricorrenze del simbolo ‘b’ sarà molto efficiente, e la sua entropia bassa. Ma se il testo t2 venisse concatenato al testo t1 e si comprimesse il testo risultante, la compressione sarebbe meno efficiente per quel testo, poiché le regolarità presenti nei due testi sono diverse e dunque la loro entropia relativa è di una certa entità.

La misura della distanza tra testi per mezzo degli n-grammi o dell’entropia relativa, che costituisce lo sviluppo più recente in questo ambito e ha dato significativi risultati (Basile, Benedetto, Caglioti, Degli Esposti 2008), rivela due aspetti interessanti: da una parte, non si selezionano distinte caratteristiche di stile ma si lavora sul testo nel suo complesso; dall’altra, si utilizza un approccio eminentemente matematico centrato sulla misurazione di distanze tra i testi, diverso da quello più diffuso in anni passati (e peraltro ancora presente) di tipo statistico multivariato, che mira, a partire da una serie di dati di osservazione, a darne una sintesi capace di evidenziare le dimensioni più importanti (da una tabella di dati di dimensioni di 2 colonne per n righe, ottenuta con il rilevamento delle occorrenze del lessico di 2 testi differenti, si ricavano dati che permettono una rappresentazione dei dati in uno spazio a 2 dimensioni, cioè in un piano; se le colonne della tabella – cioè i testi analizzati – sono 3, le dimensioni in cui si collocano i punti che rappresentano le parole del lessico sono 3; se le colonne della matrice sono più numerose i punti che rappresentano le parole si collocano in uno spazio iperdimensionale, le cui dimensioni si possono ridurre, sintetizzare, utilizzando procedimenti statistici consolidati). L’approccio matematico allo studio dei testi qui descritto in modo sintetico (del quale il volume del 1969 Statistics and style, curato da L. Doležel ed E. Bailey, benché datato negli aspetti più operativi, costituisce un importante punto di riferimento iniziale), operando sui testi nel loro complesso, senza pre-selezione di caratteristiche di stile esplicitamente identificate, può costituire il punto di partenza da cui muovere per costruire dalla base un metodo robusto di attribuzione dei testi. Esso implica che i testi abbiano anche una struttura matematica e che studiare tale struttura, contenuta nelle parole che li costituiscono, permetta operazioni di analisi e valutazione più efficaci per l’attribuzione di quelle praticabili al livello linguistico nelle sue varie forme (fonologico, grammaticale, sintattico, stilistico). Le tradizionali linee storico-critiche di lettura e analisi dei testi conservano tutta la loro validità, ma non solo per l’attribuzione dei testi. In tale prospettiva lo studio dei testi è una delle forme in cui si può presentare il tema dell’analisi dei segnali, quali possono essere in ambito biologico l’analisi del tracciato di un elettrocardiogramma o delle immagini di una TAC. Ciò, se da un lato sembra sminuire l’unicità dell’oggetto di studio, dall’altro lo colloca in un contesto scientifico consolidato le cui metodologie e procedure non sono inventate ad hoc.

Critica testuale come analisi del testo

In un’accezione più estensiva di critica testuale come studio analitico e accurato del testo, la novità portata dall’utilizzo di strumenti informatici consiste principalmente nell’agevole generazione di concordanze. La concordanza di un testo è una pubblicazione a stampa che presenta in ordine alfabetico le parole del testo e per ognuna fornisce una riga di testo contenente la parola stessa. L’idea-guida nell’invenzione dello strumento concordanza è quella dei passi paralleli: i passi che contengono una medesima parola sono accomunati da tale occorrenza, concordano in quanto usano il medesimo termine; dunque il significato della parola può essere approfondito studiando i passi in cui essa ricorre; e i passi a loro volta, pur nella loro diversità, sono accomunati dall’uso di quella medesima parola. Si tratta di uno strumento lessicografico di lunga tradizione: la più antica conosciuta, una concordanza della Vulgata realizzata nel convento domenicano di Saint-Jacques a Parigi, risale al 1247. In tempi in cui non esistevano i computer produrre una concordanza a stampa richiedeva un lavoro complesso e ripetitivo di schedatura manuale del testo che veniva dedicato solo a opere cui fosse riconosciuto un alto pregio culturale. Per tali opere era possibile quindi una lettura attenta e fedele del testo al livello lessicale. Oggi, essendo disponibili testi in formato digitale e appositi programmi per computer, è possibile generare concordanze più o meno ampie (dell’intero lessico o solo di specifiche parole) pressoché per qualsiasi testo, che può essere così studiato in grande dettaglio lessicale. Per es., se si volesse capire che cosa significhi il colore turchino dei capelli della Fata presente nelle Avventure di Pinocchio si cercherebbero nell’opera tutte le occorrenze dell’aggettivo turchino e in base all’uso nei vari passi se ne delineerebbe lo specifico significato. O se si volesse valutare la presenza negli scritti giovanili di Gramsci di tematiche di tipo filosofico, si potrebbe esaminare la lista delle parole presenti nei testi in esame, individuare quelle che hanno o possono avere connotazioni filosofiche, e poi cercarne le occorrenze nel testo per osservarne l’uso e i significati. È importante sottolineare, per cogliere bene il senso delle letture di testi effettuate attraverso strumenti di analisi testuale come i programmi per la generazione di concordanze, che la lettura di un testo si può orientare secondo due prospettive: lettura come mezzo per acquisire e interiorizzare il ‘mondo’ che un testo comunica, in un approccio emico in quanto si tenta di immedesimarsi, di far propria dall’interno, la visione del mondo che uno scritto contiene e tenta di comunicare; oppure lettura come mezzo di ricerca di informazioni, in un approccio etico: dall’esterno si opera per mettere a fuoco il significato o il valore di un termine. Lo studio dei testi con strumenti di analisi testuale si colloca in questa seconda linea di lettura: si ricercano non solo e non tanto informazioni interne al testo che riguardano eventi a esso esterni, ma soprattutto si ricercano informazioni sulla lingua del testo stesso, sul modo in cui è costruita e organizzata. Sembrerebbe dunque che, in certo modo, nessuna lettura e interpretazione di un testo possa prescindere dal ricorso a uno strumento lessicografico come la concordanza («vi esorto alle concordanze», diceva Contini), cioè da uno studio che parta dalla valutazione e analisi attenta delle specifiche parole utilizzate per veicolare i significati. Ciò però oggi non accade troppo frequentemente, probabilmente perché fino a ora le concordanze a stampa sono state prodotte solo per un numero ristretto di opere e comunque nella forma a stampa non sono di consultazione molto agevole; e ciò fa sì che oggi non si colgano ancora pienamente le possibilità offerte dall’insieme ‘testi in formato digitale + programmi per concordanze’.

Prospettive future

Come si è accennato nelle pagine precedenti, è forte la necessità di chiarire in modo rigoroso l’efficacia delle procedure ecdotiche informatizzate. Occorrerebbe a tale scopo che le ricerche descrivessero in dettaglio i passi operativi effettuati, così che chi volesse seguire gli stessi passi lavorando su un differente materiale testuale lo potrebbe fare, verificando in tal modo l’efficacia metodologica della singola esperienza; oppure, potrebbe lavorare con la stessa procedura sullo stesso testo, verificando la correttezza procedurale della ricerca; oppure potrebbe provare ad adottare una differente procedura per valutare una sua possibile maggiore efficacia. Ove questo non avvenga, ove manchi un protocollo della ricerca sul testo, è difficile poter pensare in termini di scientificità così come molte discipline la definiscono. Nell’ambito delle procedure di attribuzione con metodi quantitativi occorre che ogni studioso in qualche misura prenda le distanze dal suo specifico oggetto di studio (il testo di una specifica opera) e lo consideri in rapporto ad altri che gli sono simili, dedicando il suo lavoro di studio anche al gruppo (alla classe) di cui è parte; e cerchi di costruire una teoria che sia valida non solo per l’individuo ma anche per il gruppo cui esso appartiene; e che sia convalidata dalla non applicabilità a gruppi simili ma differenti. Per es., se si ha un insieme di testi anonimi t1, t2, t3, tn, di cui si immagina che possano essere dell’autore A, non basta individuare elementi di vicinanza tra i testi t2, t3 e l’autore A, ma si deve anche valutare la loro possibile attribuzione agli autori B e C, molto simili ad A per epoca, argomenti, lingua, punti di vista. In caso contrario l’attribuzione all’autore A non è robusta. In sostanza, dopo anni di risultati variamente discussi e accolti, è arrivato il momento di dare fondazione metodologica all’impiego di strumenti informatici nella critica testuale.

Bibliografia

J.C.R. Licklider, Man-computer symbiosis, «IRE Transactions on human factors in electronics», March 1960, vol. HFE-1, pp. 4-11.

D.C. Engelbart, R.W. Watson, J.C. Norton, The augmented knowledge workshop, «AFIPS Conference Proceedings», 1973, 42, pp. 9-21.

C. Segre, Prolusione a I nuovi orizzonti della filologia ecdotica, critica testuale, editoria scientifica e mezzi informatici elettronici, Atti del Convegno internazionale (Roma, 27-29 maggio 1998, Accademia Nazionale dei Lincei), Roma 1999.

D. Benedetto, E. Caglioti, V. Loreto, Language trees and zipping, «Physical review letters», 2002, 88, 4, pp. 048702-1 - 048702-4.

H. Love, Attributing authorship, Cambridge 2002.

D. Fiormonte, Scrittura e filologia nell’era digitale, Torino 2003.

W. McCarty, Modeling. A study in words and meanings, in A companion to digital humanities, ed. S. Schreibman, R. Siemens, J. Unsworth, Oxford 2004 (anche on-line: http://www.digitalhumanities.org/companion, 27 genn. 2009).

Digital philology and medieval texts, a cura di A. Ciula, F. Stella, Ospedaletto 2007.

C. Basile, D. Benedetto, E. Caglioti, M. Degli Esposti, An example of mathematical authorship attribution, «Journal of mathematical physics», 2008, 49, pp. 1-20.

C. Basile, M. Lana, L’attribuzione di testi con metodi quantitativi: riconoscimento di testi gramsciani, «AIDAinformazioni», 2008, 1-2, pp. 165-83.

P. Juola, Authorship attribution, Hanover (Mass.) 2008.