Archivi digitali
Principi, metodi e criticità organizzative
La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile adozione. L’obsolescenza tecnologica è la ragione principale, anche se non l’unica, di questa difficoltà. A differenza di quanto avviene per le fonti documentarie analogiche, per le quali il passare del tempo determina in assenza di situazioni patologiche l’effetto duplice di accrescere il valore della risorsa che si mantiene inalterata nel tempo e di assicurare le condizioni per la verifica della sua au-tenticità (per es., analizzando il supporto, i materiali scrittori, la scrittura, la struttura del documento, la tipologia delle annotazioni), la gestione e la tenuta di documenti digitali deve far fronte a un continuo, inarrestabile e inevitabile processo di trasformazione tecnologica, cui né le organizzazioni, né gli individui riescono a sottrarsi senza mettere a rischio, da un lato, l’accessibilità nel tempo ai contenuti, dall’altro, le garanzie di integrità delle fonti medesime.
La complessità del problema è da tempo chiara agli addetti ai lavori, ma solo da alcuni anni si sono avviate iniziative di ricerca internazionali in grado di assicurare la quantità di risorse finanziarie e, soprattutto, la continuità nel tempo dei programmi di lavoro necessaria a ottenere risultati significativi. La letteratura tecnico-scientifica e le esperienze fin qui realizzate, pur con alcuni limiti, hanno consentito di rendere disponibile un quadro generale in grado di orientare i futuri investimenti e assicurare condizioni favorevoli alle iniziative di conservazione in corso o in progetto. In particolare, è condivisa la consapevolezza che la funzione conservativa debba essere gestita in ambiente digitale con precocità e senza interruzioni, dal momento che i tempi degli interventi necessari al mantenimento delle memorie risultano tanto più efficaci e tanto meno costosi quanto più vicini o, meglio, contemporanei sono alla loro formazione e gestione corrente. Appare altrettanto indiscutibile il riconoscimento del fatto che la diversificazione dei prodotti applicativi non consenta soluzioni univoche e richieda inoltre competenze professionali e conoscenze dinamiche e flessibili. La fragilità dei supporti, la facilità nella manipolazione, la frequenza e rilevanza delle trasformazioni tecnologiche hanno altresì messo in evidenza, soprattutto negli anni più recenti, la necessità irrinunciabile della creazione di depositi/archivi capaci di garantire un alto livello di affidabilità e sicurezza, come si avrà modo di sottolineare in seguito.
In sostanza, la conservazione digitale non solo non è compatibile con la trascuratezza che ha caratterizzato il sistema tradizionale della conservazione delle memorie documentarie, ma è un processo dinamico che presuppone un presidio continuo delle attività di sperimentazione e ricerca e soprattutto richiede investimenti tali da rendere imprescindibile la creazione di reti di cooperazione e un’organizzazione del lavoro basata sulla condivisione di pratiche e, se possibile, sulla federazione delle organizzazioni che operano nel settore. Molte delle questioni irrisolte dipendono peraltro dalla specifica ambivalente natura congenita dei documenti, formati e conservati in quanto testimonianze durevoli, ma allo stesso tempo valorizzati per la capacità – non esclusiva del digitale, ma notevolmente amplificata in quell’ambiente – di un loro utilizzo sempre più dinamico. La manipolazione (in termini di rielaborazione) dei contenuti informativi di un documento archivistico è nello stesso tempo fonte di seria preoccupazione (qualora venga messa in pericolo l’autenticità della fonte originaria), ma anche oggetto di investimenti positivi (nel caso in cui consenta di risparmiare ripetitive e talvolta addirittura pericolose attività di copiatura).
L’indifferenza del mercato (qualche volta anche del legislatore nazionale e di quello europeo, nonché degli stessi responsabili delle organizzazioni che producono e utilizzano i documenti) per le esigenze conservative di lungo periodo è ampiamente testimoniata tra l’altro dall’assenza di standard internazionali stabili e riconosciuti, dall’insufficienza di normative generali e di procedure interne alle amministrazioni e alle imprese, ma anche – e in questa prima fase soprattutto, in particolare in Italia – dalle scarse risorse per la ricerca in questo settore.
La fragilità dei supporti, come già sottolineato, è un fattore di rischio soprattutto in termini di sicurezza, mentre l’evoluzione incessante del software e dei formati ha conseguenze impegnative sui processi di lavoro in quanto implica la necessità di intervenire direttamente sui documenti, sui loro contenuti e sulle informazioni di contesto (quelle informazioni cioè che consentono di collegare reciprocamente i documenti all’interno di una pratica e mantenere il legame con la persona fisica o giuridica che li ha prodotti o acquisiti e conservati nel proprio archivio). I documenti digitali – qualunque sia la loro funzione e la loro natura – non possono essere conservati in forma di originale sia, paradossalmente, al fine di trasmetterli fedelmente nel tempo, sia perché l’opportunità di disporre di tecnologie di gestione e fruizione più avanzate accrescono le possibilità e funzionalità d’uso.
Numerosi sono quindi i vincoli e i requisiti che una seria politica conservativa deve rispettare e, soprattutto, molteplici sono le finalità di cui tenere conto, spesso in contraddizione reciproca e sin dalla fase di creazione delle memorie.
Perché gli archivi informatici siano conservati è comunque indispensabile che siano contemperate due esigenze sostanzialmente contrastanti: l’autenticità (che consiste principalmente nelle attività di identificazione certa e garanzia dell’integrità dei documenti e delle loro relazioni) e l’accessibilità generalizzata e di lungo periodo dei sistemi documentari (dei documenti in termini di struttura e contenuti e delle relazioni di contesto garantite dalla corretta gestione dei metadati), resa possibile dal ricorso a soluzioni tecnologiche e organizzative che consentano il superamento dei problemi di obsolescenza ma che, tuttavia, per ciò stesso implicano la modifica del flusso di bit e in alcuni casi anche il rischio di perdita di componenti e informazioni inerenti ai documenti conservati.
In sostanza, la funzione conservativa si configura sempre più nettamente come un complesso articolato e dinamico di attività, strumenti, procedure che, con l’obiettivo di assicurare le condizioni per la sopravvivenza dei materiali digitali, richiedono oltre a principi chiari, a un quadro normativo di riferimento, a luoghi significativi di sperimentazione anche occasioni frequenti di confronto e verifica.
Prima di analizzare la necessaria dimensione tecnica della conservazione digitale (per es., in termini di metadati, depositi, formati) è tuttavia necessario approfondire il nodo concettuale dell’autenticità, con specifico riferimento alle ultime riflessioni in materia condotte in questi anni dalle discipline di settore (archivistica e diplomatica del documento digitale).
L’autenticità dei documenti
L’autenticità dei documenti costituisce uno dei requisiti fondamentali per lo svolgimento stesso della funzione conservativa e si assicura garantendo, come detto, l’identità certa del documento (vale a dire l’appartenenza certa del singolo documento al complesso documentario – fascicolo, serie, fondo – nel quale è stato organicamente inserito al momento della sua formazione) e la sua integrità. In ambiente archivistico e soprattutto con riferimento alle memorie digitali, tuttavia, rispettare questi principi richiede che le informazioni rilevanti a tali fini siano presenti nella fase attiva e siano mantenute integralmente in tutte le fasi di gestione successiva delle fonti, contrastando i problemi dell’obsolescenza tecnologica non soltanto per i documenti originari, ma anche per l’insieme di informazioni di gestione e di descrizione che ne garantiscono la fruizione nel tempo. Tale garanzia è peraltro consentita, come già ricordato, grazie a interventi che in molti casi producono modifiche di notevole importanza sui documenti stessi.
Ai fini del mantenimento del patrimonio documentario il problema è, quindi, identificare quali siano per un archivio digitale destinato alla conservazione nel tempo le trasformazioni accettabili che non ne impediscano la verifica di autenticità. Questa contraddizione deve, comunque, trovare una composizione, un punto di equilibrio operativo, che può essere raggiunto solo attraverso un impegnativo lavoro di analisi e di ricerca che, riconoscendo l’inevitabilità di un processo di trasformazione (in alcuni casi anche di perdita e deterioramento) del patrimonio documentario originario, stabilisca quali componenti possano/debbano subire modifiche necessarie alla conservazione senza compromettere l’autenticità delle risorse stesse conservate, fornendo in sostanza modalità nuove per interpretare e soprattutto verificare i requisiti di autenticità di un documento, individuando modalità e procedure perché tale verifica possa essere condotta e l’autenticità ragionevolmente presunta e opportunamente documentata.
In questo contesto di ricerca e di riflessioni, i risultati che sono stati conseguiti dal progetto internazionale InterPARES (avviato nel 1999 e già alla sua terza fase di sviluppo destinata a concludersi nel 2011) sui requisiti di autenticità dei documenti digitali meritano un’approfondita analisi per alcune essenziali – e internazionalmente riconosciute – conclusioni concettuali e di metodo cui il gruppo di lavoro è pervenuto e al cui raggiungimento la comunità scientifica italiana ha ampiamente contribuito.
Una prima conclusione, importante e ormai indiscussa, ha riguardato il fatto che, in ambiente digitale, a causa proprio dell’obsolescenza tecnologica e della necessità di continua migrazione dei documenti verso nuove piattaforme tecnologiche, la conservazione a lungo termine non può assicurare la tenuta di originali, ma solo il mantenimento di copie autentiche oppure può addirittura limitarsi, come nel caso di documenti interattivi e dinamici (per es., data-base e pagine web), alla sola capacità di riprodurli, mediante la tenuta di componenti in copia autentica e la documentazione dettagliata delle funzioni dei sistemi di produzione e fruizione originari.
Il problema dell’autenticità acquista perciò una rilevanza di gran lunga maggiore rispetto al passato e implica un’analisi complessa che tenga conto anche di tutte le fasi e i processi di gestione che hanno interessato i documenti da conservare e delle diverse responsabilità in gioco. InterPARES, in particolare, distingue almeno tre piani di analisi (o per meglio dire una definizione che si configura su più piani), rispettivamente dedicate a documenti attivi che siano stati sottoposti ai processi di migrazione pur rimanendo sotto la responsabilità del soggetto che li ha prodotti; documenti già versati negli archivi storici e destinati alla conservazione permanente; documenti oggetto di trasferimento dall’ambiente di produzione originario a quello di consultazione per fini di ricerca.
A fronte di questa crescente diversificazione dei piani di trattamento e intervento archivistico, la definizione di specifiche politiche per la conservazione digitale a lungo termine (per es., sulle modalità di acquisizione delle fonti, sull’assunzione di responsabilità rispetto alla qualità dei materiali ricevuti, sugli strumenti e sulle procedure a supporto dell’azione di verifica dell’autenticità) è destinata ad assumere valore cruciale e non potrà più limitarsi al semplice riconoscimento di prassi consolidate sia nell’acquisizione dei documenti sia in relazione alle successive attività di gestione e tenuta nei depositi.
Con particolare riferimento al versamento di un archivio digitale presso un deposito di conservazione e custodia, quest’ultimo dovrà, per es., aver definito per tempo e adeguatamente pubblicato procedure specifiche che da un lato assicurino il soggetto che trasferisce i materiali del buon esito dell’operazione e dell’adeguatezza degli interventi conservativi, dall’altro garantiscano gli utenti sulle possibilità di una qualificata e documentata fruizione, inclusiva anche della possibilità di valutare il grado di accuratezza e completezza con cui i documenti sono stati accumulati e custoditi nel tempo.
Il controllo sui processi di formazione
I documenti digitali, proprio perché non più legati indissolubilmente al supporto originario e sottoposti a ripetuti interventi di mantenimento, non contengono di per sé alcuno degli elementi e degli attributi tradizionali che in passato consentivano anche a ricercatori poco avvertiti la verifica a distanza di tempo dell’autenticità delle entità documentarie. L’ispezione stessa del documento, quasi sempre conclusiva quando concerne fonti tradizionali, nel caso di materiali digitali dovrà richiedere l’uso di tecnologie talvolta sofisticate e non sempre permetterà di rilevare direttamente l’esistenza di manipolazioni non autorizzate. In mancanza di eventi che la mettano in discussione, l’autenticità dei documenti originali digitali potrà essere, quindi, solo presunta. Tuttavia, è evidente che tale presunzione debba essere garantita/resa possibile e sostenuta dal rispetto – opportunamente e accuratamente documentato – di requisiti e procedure nel corso delle diverse fasi di esistenza dell’archivio.
Sarà compito dell’istituto di conservazione individuare tali condizioni, originali o sopravvenute, e testimoniarne la presenza, sia nel momento in cui acquisisce il materiale, sia nei successivi interventi, prestando particolare attenzione alla fase in cui il patrimonio viene messo a disposizione degli utenti esterni. La conservazione in ambiente digitale richiede dunque che sia adeguatamente documentata l’intera procedura di conservazione, non solo, quindi, in termini di ‘catena ininterrotta’ della custodia (l’unbroken custody cui fa riferimento con felice espressione la tradizione archivistica anglosassone), ma anche con attenzione a tutti quegli atti del processo conservativo che hanno permesso nel tempo il mantenimento dell’accessibilità e la salvaguardia della fonte. La verifica stessa dell’autenticità da parte dei ricercatori futuri non potrà che basarsi sulla preesistenza, nella fase di formazione, di condizioni e procedure – adeguatamente documentate – che abbiano assicurato l’autenticità dei documenti anche grazie all’affidabilità del sistema originario di formazione e gestione e sulla disponibilità delle informazioni relative.
La presunzione dell’autenticità in ambiente digitale richiederà, comunque e non diversamente da quanto già sottolineato, che i documenti siano identificati con certezza, quindi univocamente, e che non solo le informazioni (per es., i dati di registrazione di protocollo e di classificazione e fascicolazione) ma anche i documenti medesimi siano mantenuti integri. Nel concreto è di conseguenza necessario che sia sviluppata una metodologia capace di definire (ancora meglio predefinire) lo schema generale degli elementi costitutivi e degli attributi descrittivi del documento e del suo contesto di produzione (amministrativo, giuridico, documentario) e individuare le procedure che hanno garantito l’integrità della fonte in tutte le fasi della sua gestione: esse dovranno essere adeguatamente rappresentate nel materiale di supporto che accompagnerà con sempre maggiore ricchezza il versamento e la custodia delle nuove fonti. Sarà, per es., indispensabile documentare le modalità di controllo degli accessi, le politiche per la sicurezza, i processi di migrazione e acquisterà una rilevanza crescente il manuale delle procedure documentarie, che alcune legislazioni – a cominciare da quella italiana – hanno previsto come obbligatorio per gli archivi delle pubbliche amministrazioni.
La condizione di identificare univocamente i documenti nel contesto di produzione si traduce, in particolare, nell’esigenza di mantenere, a tempo indeterminato e in forma leggibile e intelligibile, oltre ai documenti medesimi, i seguenti elementi e attributi: a) i dati di provenienza (organizzazione responsabile, autore); b) la struttura logica del documento, ovvero l’articolazione delle componenti interne (la cui quantità, qualità e significato variano in base al tipo di documento, alla sua funzione e alla sua specifica forma); c) la registrazione univoca e con data certa che testimoni in modo incontrovertibile l’avvenuta acquisizione del documento; d) le relazioni documentarie che identificano le modalità di accumulazione, formazione e organizzazione stabile dell’archivio, con particolare attenzione, per es., alle informazioni relative alla classificazione e alla fascicolazione, che in ambiente archivistico costituiscono gli strumenti con cui si ordina stabilmente sin dalla nascita la memoria di un soggetto produttore: si tratta naturalmente di relazioni la cui specifica natura varia in ambiente digitale anche in base alla tipologia dei sistemi informatici nel cui ambito i documenti si producono (data-base, sistemi di document management, pagine web ecc.); e) gli elementi informativi sui sistemi di protezione dell’integrità e della provenienza del documento al momento della sua formazione, tra cui, per es., le relazioni attinenti all’impronta e al certificato concernenti l’utilizzo della firma digitale.
Tali indicazioni devono essere ‘espresse in modo esplicito e inestricabile’ per ciascun documento, per es. mediante la predisposizione e il mantenimento nel tempo di profili informativi finalizzati a rappresentare per ogni tipologia di entità e per ogni singola entità gestita dal sistema informatico tutti gli elementi necessari alla loro identificazione e gestione nel tempo anche in termini di struttura interna e di relazioni esterne (includendo per ciascun documento d’archivio informazioni relative all’autore, al destinatario, alla data della spedizione, a quella della registrazione, all’oggetto o alla denominazione del documento, all’indice di classificazione e al numero del fascicolo, agli uffici di assegnazione e di trattamento, alla presenza di annotazioni aggiunte, all’esistenza di allegati).
Il mantenimento dell’integrità implica l’acquisizione di informazioni sugli strumenti e sulle procedure di controllo nella stessa fase attiva, in modo da consentire all’istituto di conservazione esterno o all’ufficio interno competente per la conservazione (per es., nel caso dell’archivio storico di un ente pubblico) di verificare direttamente e rendere verificabili in futuro tutte quelle azioni che hanno modificato la struttura e i contenuti dell’archivio, inclusi i vari interventi di migrazione e di selezione. Nel rapporto elaborato dall’Authenticity task force del citato progetto InterPARES, sulla base dei numerosi studi di casi predisposti, sono elencate alcune condizioni di cui la struttura di conservazione dovrebbe verificare l’esistenza (sia in fase di formazione della fonte sia nelle successive fasi di tenuta) prima di acquisire l’archivio informatico: privilegi di accesso (soggetti a effettivo e continuo monitoraggio), relativi alla formazione, modifica, annotazione e distruzione dei documenti; procedure di protezione dell’integrità dei documenti, per es. mediante sistemi di tracciamento, sempre aggiornati, delle informazioni di localizzazione e delle copie di sicurezza e ambienti di conservazione certificati, al fine di prevenire, verificare e recuperare perdite di natura sia accidentale sia dolosa; procedure di protezione tecnologica, in relazione al deterioramento dei supporti e alle trasformazioni tecnologiche; definizione di forme documentarie associate a ciascuna procedura e regole di autenticazione dei documenti (chi e con quali strumenti) sulla base dei vincoli stabiliti dal sistema giuridico e dai bisogni organizzativi del soggetto; procedure per l’identificazione dei documenti di riferimento principale (authoritative è il termine specificamente utilizzato nel rapporto) nel caso di esemplari multipli; documentazione relativa alle procedure utilizzate per la rimozione e il trasferimento degli oggetti digitali dai sistemi attivi a quelli semiattivi a fini di conservazione (identificazione di responsabilità definite, del supporto di conservazione, dei luoghi fisici per la conservazione e definizione delle informazioni che devono accompagnare i documenti medesimi: in particolari indici di classificazione, dizionari di dati, data-directory, profili e così via).
A sua volta l’istituto di conservazione assume le proprie responsabilità e svolge le proprie funzioni rispettando requisiti specifici di natura generale, assicurando, per il versamento dei documenti e per la loro tenuta, procedure e sistemi di controllo e monitoraggio che ne garantiscano l’identità e l’integrità (continuità della custodia, sicurezza, integrità dei contenuti nelle fasi di riproduzione), documentando, inoltre, i processi di riproduzione e le relative conseguenze sulle fonti trattate e dimostrando il legame tra i materiali ricevuti e quelli riprodotti (le informazioni essenziali includono la data della riproduzione e il nome del responsabile, la descrizione del rapporto tra i documenti riprodotti e la fonte, l’impatto del processo di copiatura sulla forma, sui contenuti, l’accessibilità dei documenti, il metodo e le tecnologie prescelti, l’eventuale valutazione sullo stato di inaffidabilità della fonte originaria) e, infine, descrivendo l’archivio sia dal punto di vista del contesto documentario e giuridico, sia in relazione alle modifiche che i documenti hanno subito dal momento della loro formazione.
È peraltro evidente che i principi, gli strumenti e le procedure su elencati non sono in grado di assicurare che un documento conservato sia autentico, bensì si limitano a fornire le basi per una presunzione di autenticità di cui si potrà naturalmente dimostrare nelle sedi opportune la falsità, dato che la prova incontrovertibile e assoluta non esiste in un settore tradizionalmente basato sull’analisi e sulla valutazione della realtà in termini di probabilità e ancor più in una dimensione digitale per sua natura dinamica.
Accanto alle conoscenze tradizionali, nuove competenze e nuove strutture sono necessarie per affrontare la complessità dei sistemi documentari contemporanei, soprattutto in questa fase di lunga transizione che vede da un lato un’evoluzione/rivoluzione incessante delle tecnologie, dall’altro un’insufficienza grave delle conoscenze e degli strumenti disponibili. La ricerca nazionale e quella internazionale sono destinate a diventare una componente centrale del lavoro archivistico non soltanto all’interno degli istituti universitari ma anche nelle situazioni operative.
I metodi per la conservazione e i formati standard
Un elemento vincolante ai fini della conservazione è, naturalmente, quello del contenimento dei costi e della ‘scalabilità’ delle soluzioni, tenuto conto dell’esiguità delle risorse finanziarie a disposizione delle istituzioni cui è affidato il compito della conservazione permanente delle memorie documentarie, incluse quelle digitali che le amministrazioni pubbliche e il settore privato hanno già cominciato a produrre in quantità rilevante. È tuttavia evidente che le possibilità di riuso sono legate a uno sviluppo significativo e a un adeguato riconoscimento di standard e di metodi sperimentati che dovrebbero determinare un’effettiva diminuzione delle risorse finanziarie necessarie e la riduzione dei rischi di perdita di informazioni dovuta all’obsolescenza tecnologica.
Per quanto riguarda, poi, la scelta di metodi sperimentati e l’individuazione di standard per organizzare e gestire concretamente la funzione conservativa, l’incertezza è ancora notevole. Le soluzioni suggerite dagli esperti non hanno sufficiente solidità e soprattutto si applicano a limitate tipologie di materiali, oltre a mancare di idonei strumenti di verifica. Si esclude ormai, tra le ipotesi sostenibili, la conservazione delle tecnologie hardware e software in particolare per l’alto grado di differenziazione delle tecnologie medesime e per i costi necessari ad assicurare il loro pieno funzionamento; in alcuni casi si considera l’opportunità di sviluppare programmi di emulazione delle piattaforme tecnologiche originali, sebbene si riconosca che tali interventi richiedano risorse elevate, non eliminino le rischiose e impegnative attività di migrazione né riducano le difficoltà dell’utenza, costretta a misurarsi con strumenti assai diversificati e spesso obsoleti anche dal punto di vista della presentazione e delle modalità di ricerca.
La maggioranza degli esperti ritiene quindi insufficienti le ipotesi su ricordate e ribadisce l’urgenza di elaborare alternative fattibili ed efficaci basate soprattutto sul mantenimento delle funzioni e dei dati relativi al contesto di produzione mediante interventi di migrazione, cioè attività che trasferiscano i dati da una piattaforma di elaborazione a un’altra, assicurando agli utenti la possibilità di utilizzare gli oggetti digitali migrati anche nei nuovi ambienti tecnologici.
La migrazione può mantenere integre tutte le funzioni del sistema e dei documenti originari, ma può implicare perdite o prevedere costi anche notevoli, soprattutto se l’intervento riguarda sistemi proprietari privi di capacità di esportazione che perciò rendono spesso necessaria la scrittura di codice o l’elaborazione di programmi specifici. Gli studi di settore individuano almeno quattro diverse strategie di migrazione, ciascuna delle quali più o meno adeguata alle diverse tipologie e ai formati dei documenti oggetto di intervento: a) la migrazione dei supporti secondo il principio di base per cui è opportuno trasferire le fonti digitali dai supporti meno stabili (per es., i nastri o i dischi magnetici) ai supporti più stabili (supporti ottici, microfilm, carta): uno svantaggio grave può tuttavia consistere nella perdita di funzioni informatiche oltre che di importanti informazioni; b) la migrazione su piattaforme o con prodotti che garantiscano la compatibilità retroattiva dei sistemi e degli archivi, anche se il processo non assicura la finalità conservativa di lungo periodo, dato che i prodotti commerciali hanno caratteristiche che sono fuori dal controllo del soggetto produttore dell’archivio o dell’istituto di conservazione, compreso il problema della disponibilità del prodotto sul mercato e i costi delle licenze necessarie per quella fruizione diffusa che è indispensabile assicurare al patrimonio culturale; c) la migrazione su piattaforme o con strumenti che sostengano l’interoperabilità e quindi l’accessibilità nel tempo, mediante l’utilizzo di prodotti di mercato orientati a sostenere funzionalità più generali di interscambio, che pur non escludono il rischio di perdite di dati, tanto maggiore quanto più complesso e articolato è il materiale destinato alla migrazione; d) la migrazione in formati standard, particolarmente adatta per grandi e complessi archivi digitali e ritenuta tra le più promettenti anche in contesti operativi diversificati di piccole dimensioni. La migrazione in formati standard, ovverosia la conservazione in formati indipendenti dalle tecnologie – basati, per es., ma non esclusivamente, sull’uso di linguaggi di marcatura e in particolare di XML (eXtensible Markup Language) – della rappresentazione originaria dei documenti e dei metadati di contesto e di relazione, sembra destinata, nel medio e lungo periodo, a un’applicazione diffusa, perché conforme ai requisiti ISO (International Organization for Standardization) per l’adozione di modelli di interconnessione di sistemi aperti per lo scambio di dati e la comunicazione tra sistemi diversi, e perché utilizza standard non proprietari, applicabili a sistemi informatici diversi, largamente diffusi, comprensibili anche da parte di non specialisti, indipendenti dall’hardware e ben documentati. Questo metodo presenta, in generale, il vantaggio (rilevante per le istituzioni preposte alla custodia) di ridurre enormemente il numero dei formati da gestire e di contenere la complessità e la quantità degli interventi di migrazione.
In particolare, tra i linguaggi standard XML si è imposto all’attenzione generale poiché offre un metodo diffuso, a basso costo e scalabile per affrontare la diversificazione e la frammentazione della produzione documentaria e delle sue articolazioni nonché delle molteplici necessarie informazioni descrittive e gestionali, la cui complessità informativa e il cui peso sono spesso ritenuti insostenibili per i bilanci limitati degli enti culturali e delle strutture di custodia. Lo standard apre ulteriori e rilevanti possibilità per lo sviluppo di sistemi documentari informatici, soprattutto perché consente, oltre alla gestione dei riferimenti esterni al documento e alle sue partizioni, anche il trattamento della struttura logica e semantica dei contenuti. Le qualità del formato e il progressivo riconoscimento della sua rilevanza sembrano destinati a produrre conseguenze significative in materia di conservazione, ma anche di formazione delle risorse, per es. promuovendo, all’interno di un’organizzazione, interventi di razionalizzazione e semplificazione delle tipologie documentarie mediante la definizione di rappresentazioni specifiche con lo scopo di ottimizzare l’elaborazione automatica dei documenti, garantire la coerenza, la qualità e l’uniformità dei materiali, ma anche sviluppando strumenti di recupero e riutilizzo di documenti (o di componenti interne) con l’obiettivo di una distribuzione/condivisione di contenuti destinati a durare nel tempo e ottimizzando inoltre il ciclo di gestione dei nuovi documenti.
I metadati per la conservazione digitale e i modelli OAIS e PREMIS
Per quanto riguarda la questione, lungamente dibattuta nella comunità internazionale, dei metadati per la conservazione digitale, ovvero di quei dati o elementi informativi relativi ai documenti rilevanti nei processi specifici di conservazione, la sfida più impegnativa e allo stesso tempo non eludibile riguarda in maniera preponderante la loro identificazione in relazione alla natura del materiale specifico da mantenere e alle attività e funzioni di sistema di cui è necessario tenere traccia storica nel lungo periodo (in particolare informazioni descrittive della risorsa e del contesto di provenienza e metadati di natura gestionale sui veri e propri processi conservativi).
Il tema della categorizzazione dei metadati per la conservazione ha suscitato e suscita ancora notevoli discussioni tra gli specialisti e ha dato vita a numerosi tentativi non sempre coerenti e rigorosi dal punto di vista dell’analisi concettuale. Da un lato i metadati sviluppati come standard dalle diverse comunità professionali sono considerati insufficienti, dall’altro la loro concreta e quotidiana applicazione si rivela alquanto impegnativa. Una prima conclusione, comune a quasi tutti i progetti di ricerca sviluppati dalla fine degli anni Novanta, oltre a definire concretamente gli elementi specifici, ritiene comunque indispensabile disporre di un’adeguata architettura di riferimento, coerente con il modello proposto proprio a fini conservativi dallo standard ISO 14721 OAIS (Open Archival Information System). In particolare, il modello OAIS stabilisce che le informazioni di riferimento ai documenti debbano essere organizzate per componenti funzionali, distinguendo e individuando almeno quattro categorie di metadati/informazioni finalizzate ad assicurare l’integrità delle unità documentarie singole e delle collezioni/archivi, delle relazioni di contesto e delle informazioni per l’accesso, ma stabilisce anche il mantenimento nel lungo periodo in forme stabili delle modalità originarie di reperimento dei documenti e della loro accessibilità, cioè della capacità di comprensione e di elaborazione degli oggetti informatici da parte delle macchine e degli esseri umani: reference information, informazioni identificative del contenuto (per es., nel caso degli archivi la segnatura); context information, informazioni di contesto che documentano le relazioni tra il contenuto e l’ambiente di produzione; provenance information, informazioni di provenienza che documentano la storia del contenuto e le trasformazioni subite (per es., la formazione, la catena della custodia, le attività di conservazione e le loro conseguenze); fixity information, informazioni di validazione che documentano i meccanismi e i processi per l’integrità delle informazioni (firma digitale, checksum).
Su tale modello si sono basate (anche se spesso semplificando notevolmente la struttura originaria delle componenti informative e le funzionalità) le applicazioni sviluppate nella costruzione di depositi per la conservazione digitale e, soprattutto, su tale base hanno lavorato i principali progetti di ricerca internazionali con l’obiettivo di definire schemi e procedure condivise, tra i quali l’Online computer library center/Research libraries group (OCLC/RLG) Metadata framework (2002). Approfondimenti successivi sono stati affrontati a partire dal 2003, sempre per iniziativa di OCLC/RLG nell’ambito del progetto internazionale PREMIS (Preservation Metadata Implementation Strategies) con l’obiettivo di sviluppare un insieme di elementi cruciali e facilmente implementabili per la conservazione degli oggetti digitali e, più in generale, di sistemi documentari digitali. I risultati principali hanno portato (dopo due anni di lavoro) alla definizione di un insieme essenziale di metadati coerente con altri rilevanti standard di metadati descrittivi basati su domini specifici, che nel caso degli archivi vengono identificati con gli standard ISAD (International Standard Archival Description) e ISAAR (International Standard Archival Authority Record) e con la loro traduzione in linguaggio XML (EAD, Encoded Archival Description, ed EAC, Encoded Archival of Context). È stato inoltre definito un dizionario dei dati finalizzato a facilitare l’uso dello schema elaborato.
Le componenti principali del prodotto finale (schema e dizionario dei dati) sono state completate e approvate nel maggio 2005 e aggiornate nel 2008 e riguardano (anche in questo caso coerentemente con i requisiti previsti dallo standard ISO 14721 OAIS) i metadati di conservazione in quanto informazioni che un deposito digitale utilizza per assicurare il processo di conservazione digitale, ovvero le informazioni necessarie a garantire la possibilità della tenuta, l’accessibilità, l’intelligibilità, l’autenticità delle risorse digitali. Particolare attenzione è stata dedicata alla documentazione relativa alla provenienza (la storia dell’oggetto) e alle relazioni fra oggetti diversi (soprattutto interne al deposito digitale).
In particolare, il modello di dati PREMIS ha individuato nell’ambito delle attività conservative cinque tipi di entità: intellectual entity, insieme coerente di contenuti che sia ragionevolmente descritto come un’unità (un libro, una fotografia, un data-base, un documento), in grado tuttavia di includere altre entità (per es., un sito web può includere una pagina web, una pagina web può includere una fotografia; un documento può includere documenti allegati, relazioni introduttive, oppure redazioni dello stesso testo in formati diversi – PDF (Portable Document Format), XML, TIFF (Tagged Image File Format) ecc. – conservati nello stesso deposito o in depositi distinti); object, specifica unità informativa digitale (file, bitstream e rappresentazione); event, qualunque atto che riguardi almeno un oggetto o un attore e sia rilevante nel processo conservativo; right, dichiarazione di diritti relativi a un oggetto o a un attore (trattati in questo contesto esclusivamente con riferimento alla conservazione e non all’accesso e alla distribuzione); agent, una persona fisica o giuridica o un’applicazione associata a eventi di conservazione dell’oggetto.
PREMIS si concentra quasi esclusivamente sulla descrizione e sul trattamento di oggetti ed eventi, considerando che un deposito digitale abbia a che fare con oggetti da conservare e con eventi che interagiscono con gli oggetti nei processi conservativi e che la definizione e descrizione delle entità intellettuali e degli attori debbano essere approfondite dagli esperti di ciascun dominio in relazione ai propri standard di settore (archivistici, biblioteconomici ecc.).
È opportuno ricordare che, in considerazione del fatto che la conservazione digitale implica – al fine di fronteggiare l’obsolescenza tecnologica – la necessità di creare nuove copie e versioni degli oggetti memorizzati, PREMIS ha stabilito un principio generale che deve essere comunque rispettato: ogni descrizione definisce una sola risorsa; ogni oggetto custodito all’interno del deposito, qualunque sia il tipo (file, bitstream, rappresentazione) è identificato come un insieme statico di bit che non può essere modificato. Se è necessaria una migrazione o una modifica dell’oggetto, sarà necessario creare un nuovo oggetto e identificare una relazione di derivazione tra i due oggetti. Quindi un oggetto ha una sola data di formazione (dateCreatedByApplication) e non ha date di modifica.
Le unità semantiche sono le proprietà di ciò che viene descritto nell’ambito ricordato del dizionario dei dati ai diversi livelli (per es., entità intellettuale, oggetto, agente ecc.). Hanno valori che in alcuni casi si riferiscono a un solo livello, in altri si possono invece applicare a livelli diversi (a entità intellettuali, a oggetti, a eventi e così via). Talvolta le unità semantiche sono un contenitore (per es., un fascicolo o una serie di documenti o di fascicoli) che raggruppa un sottoinsieme di unità semantiche, identificate in questo caso come componenti semantiche.
Le unità semantiche sono descritte mediante informazioni dettagliate finalizzate a indicare anche i modi del loro utilizzo. Includono il nome dell’unità semantica e le sue eventuali componenti, la definizione, la ragione della sua inclusione in PREMIS, i vincoli e, nel caso degli oggetti, la categoria e gli attributi di obbligatorietà e ripetibilità, le annotazioni sui modi per identificare i valori o aggiornarli e le annotazioni integrative relative all’uso dei valori.
Nella direzione ora indicata – sia pure precedente alle più recenti conclusioni di PREMIS ma non in contraddizione con queste – si colloca anche il progetto italiano MAG (Metadati Amministrativi e Gestionali), diretto dal Gruppo di studio sugli standard e le applicazioni di metadati nei beni culturali, costituito nel 2000 dall’ICCU (Istituto Centrale per il Catalogo Unico) e operativo, con l’obiettivo di produrre nella forma di uno schema XML un insieme di metadati gestionali, amministrativi e strutturali estensibile a qualunque tipo di risorsa digitale, anche se – per le attività descrittive che peraltro costituiscono un aspetto cruciale della funzione conservativa – il contesto di riferimento è quello relativo alla documentazione di natura biblioteconomica, in particolare gli standard Dublin Core e Technical metadata for digital still images, quest’ultimo elaborato da NISO (National Information Standards Organization).
Il punto di partenza del progetto – in corso di aggiornamento – è l’assunto, derivato dalla letteratura internazionale, in base al quale i metadati possono essere distinti in due raggruppamenti generali: i metadati descrittivi, necessari per l’identificazione e il recupero degli oggetti digitali, costituiti da descrizioni normalizzate dei documenti fonte (o dei documenti nati in formato digitale), e i metadati amministrativi e gestionali, che evidenziano le modalità di archiviazione e manutenzione degli oggetti digitali nel sistema di gestione dell’archivio digitale e sono necessari per l’esecuzione delle relative attività.
Sulla base di questa prima considerazione, il gruppo MAG – concordando con quanto previsto in alcuni progetti internazionali di ricerca in questo ambito – ha sottolineato che proprio i metadati amministrativi e gestionali assumono un’importanza preponderante ai fini della conservazione permanente degli oggetti digitali, in quanto documentano le procedure tecniche correlate alle attività necessarie per la conservazione permanente, forniscono informazioni sulle condizioni e i diritti di accesso, certificano l’autenticità e l’integrità del contenuto, documentano la catena di custodia degli oggetti, identificandoli in maniera univoca. Gli oggetti trattati riguardano le immagini statiche, i testi prodotti con tecnologie OCR (Optical Character Recognition), i suoni, le immagini in movimento, gli oggetti multimediali e i documenti nati digitali.
Lo standard – orientato alla gestione a lungo termine in depositi dedicati di risorse digitalizzate (più che di documenti formati originalmente su supporto digitale) – prevede che il set di metadati sia del tutto indipendente dalle applicazioni hardware e software e sia coerente con il modello funzionale OAIS citato.
I depositi digitali accreditati: le criticità della transizione
Un ambito su cui si è lavorato in questi anni e su cui si concentreranno gli sforzi del prossimo decennio in questo settore è infine quello della predisposizione di depositi digitali affidabili (accreditati o certificati), non a torto considerata una delle condizioni primarie di esistenza delle memorie digitali non solo archivistiche. Lo standard OAIS (ISO 14721), ricordato in precedenza, ha costituito un punto di riferimento anche in questo contesto insieme agli standard sulla qualità (ISO 9000), sulla sicurezza dell’informazione (ISO 17799:2005) e sulla gestione dei documenti (ISO 15489:2001) utilizzati dalla Task Force on Digital Repository Certification di RLG (Research Library Group) e NARA (National Archives and Records Administration, United States) per la predisposizione di un primo documento di sintesi dei requisiti essenziali di un deposito digitale fidato, l’Audit checklist for the certification of digital repositories, pubblicato nella veste definitiva nel febbraio 2007. I criteri identificati sono riconducibili ad almeno quattro raggruppamenti: organizzazione interna (presenza di linee d’azione per la conservazione, documentazione delle finalità, delle responsabilità, delle procedure e delle risorse, continuità, gestione della qualità, pianificazione delle risorse), cooperazione con i produttori e gli utenti finali (definizione della comunità di riferimento, criteri di selezione, linee guida per l’acquisizione, accordi e cooperazione con i produttori, politiche per l’accesso, servizi di consultazione), gestione tecnica del sistema (gestione della qualità, conformità agli standard, documentazione dei processi tecnici, garanzie di autenticità e integrità del sistema, ambiente hardware e software adeguato, fattibilità della migrazione, flessibilità del sistema), gestione tecnica degli oggetti digitali (gestione della qualità, metadati descrittivi, di conservazione e di accesso, vocabolari controllati, codici di identificazione persistenti, autenticità e integrità degli oggetti, formati di archiviazione controllati, disponibilità a lungo termine degli oggetti).
Molti interrogativi rimangono ancora aperti, per es. sulle responsabilità per la certificazione soprattutto se affidata a terzi, sull’opportunità di definire gradi diversi di controllo della qualità dei depositi, sull’esigenza di individuarne distinte tipologie. Si tratta in ogni caso di un processo rilevante che richiederà la creazione di infrastrutture adeguate a livello nazionale sia di monitoraggio dei depositi esistenti sia di cooperazione, di cui le normative interne ai singoli Paesi dovranno tener conto.
Emerge con chiarezza da quanto finora espresso che le implicazioni metodologiche e operative per la funzione conservativa esercitata nei nuovi ambienti digitali riguardano innanzi tutto l’individuazione di responsabilità e competenze interdisciplinari che tengano in debito conto, più che gli aspetti tecnologici, le questioni specifiche di trattamento descrittivo delle memorie documentarie e di organizzazione dei processi e delle responsabilità per la conservazione. Tra gli elementi di complessità che non possono essere trascurati, e che in parte sono stati oggetto di analisi nelle pagine precedenti, è necessario ricordare: la difficoltà di assicurare una gestione unitaria nel caso (sempre più diffuso) di sistemi ibridi; la verifica delle condizioni di leggibilità e intelligibilità nel tempo dei contenuti e delle strutture documentarie, considerata, tra l’altro, la molteplice serie di interrelazioni esistenti sin dalla formazione delle fonti archivistiche (indici di classificazione, codici di fascicolazione, dati di registrazione, indicazione delle responsabilità amministrative ecc.); la garanzia che siano rispettate le condizioni di integrità e autenticità nel tempo delle risorse; l’opportunità di utilizzare sin dalla formazione della risorsa digitale formati standard non proprietari; l’esaustività delle informazioni contenute nei profili elettronici (metadati) associati ai documenti e relativi alla loro corretta gestione, fruizione e conservazione; l’esplicitazione e formalizzazione delle regole di produzione delle fonti e di accesso al sistema documentario (parzialmente riconducibili all’obbligo previsto per le pubbliche amministrazioni italiane di predisporre un manuale delle procedure documentarie); la qualità e l’adeguatezza dei processi di validazione, verifica e monitoraggio delle soluzioni adottate, soprattutto in termini organizzativi; infine, la definizione chiara di obiettivi misurabili.
È probabile che l’attuale sistema nazionale di tenuta e conservazione degli archivi – che prevede il versamento negli archivi di Stato per le amministrazioni statali e l’organizzazione di sezioni separate di archivio (programmi e servizi archivistici interni) per gli enti pubblici – sia destinato a subire cambiamenti significativi sia per quanto riguarda la normativa di tutela sia con riferimento agli assetti istituzionali dedicati, come sembra preannunciare anche qualche significativo progetto regionale finalizzato a dar vita a poli archivistici digitali di concentrazione (si vedano in particolare il progetto PAR-ER, Polo Archivistico Regionale dell’Emilia Romagna e la proposta toscana per la definizione di un sistema archivistico digitale).
È soprattutto ormai chiaro (almeno ai ricercatori del settore) la necessità di definire presto linee d’azione generali per il Paese e indicazioni operative interne alle istituzioni, commisurate alle dimensioni di ciascuna e ai mezzi disponibili per l’esercizio della funzione conservativa. Una politica nazionale dovrà comunque affrontare e superare la condizione attuale del settore per cui la sostenibilità e i compiti in questo ambito sono caricati sulle spalle fragili degli organismi di tutela del patrimonio culturale sia in termini di ricerca di soluzioni tecniche sia di sensibilizzazione dell’opinione pubblica, di reperimento di fondi e di fattibilità della conservazione medesima.
Come e ancor più che nel caso delle memorie tradizionali, il nodo costituito dal digitale, tuttavia, non può essere trattato come un’opzione lasciata alla buona volontà e alla capacità dei singoli operatori, ma deve invece essere considerato come un debito morale che la generazione attuale ha contratto con il futuro e per il cui saldo si richiedono investimenti significativi sia nel campo della ricerca sia, soprattutto, nell’adeguamento delle politiche e delle misure organizzative.
Bibliografia
M. Guercio, Archivistica informatica. I documenti in ambiente digitale, Roma 2002.
C. Magliano, Metadati: dibattito nazionale e internazionale, in Futuro delle memorie digitali e patrimonio culturale, Atti del Convegno internazionale, Firenze 16-17 ott. 2003, a cura di V. Tola, C. Castellani, Roma 2004.
Metadata in preservation. Selected papers from an ERPANET seminar at the Archives School Marburg, 3-5 September 2003, Marburg 2004.
The long-term preservation of authentic electronic records: the findings of the InterPARES project, ed. L. Duranti, San Miniato 2005 (le traduzioni italiane delle relazioni principali sono state pubblicate su alcuni numeri della rivista «Archivi & Computer», 2002 e 2003).
Archivi informatici per il patrimonio culturale, Atti del Convegno internazionale, Roma 17-19 nov. 2003, Roma 2006.
Managing and archiving records in the digital era. Changing professional orientations, ed. N. Bütikofer, H. Hofman, S. Ross, Baden 2006.
M. Guercio, La conservazione delle memorie digitali, in Biblioteconomia: principi e questioni, a cura di G. Solimine, P.G. Weston, Roma 2007, pp. 395-412.
Webgrafia
M. Jones, N. Beagrie, Preservation management of digital materials: the handbook, London 2001, http://www.dpconline.org/ graphics/handbook/index.html.
OCLC/RLG Working Group on Preservation Metadata, Preservation metadata and the OAIS information model. A metadata framework to support the preservation of digital objects, Dublin (Ohio) 2002, http://www.oclc.org/research/projects/ pmwg/pm_framework.pdf.
Invest to save. Report and recommendations of the NSF-DELOS Working group on digital archiving and preservation, 2003, http://delos-noe.iei.pi.cnr.it/activities/internationalforum/ Joint-WGs/digitalarchiving/Digitalarchiv-ing.pdf.
P. Caplan, DCC Digital Curation Manual. Instalment on “Preservation Metadata”, 2006, http://www.dcc.ac.uk/ resource/curation-manual/chapters/preservation-metadata.
S. Ross, A. McHugh, The role of evidence in establishing trust in repositories, «D-Lib Magazine», 2006, 12, 7-8, http:// www.dlib.org/dlib/july06/ross/07ross.html.
Center for Research Libraries, Trustworthy repositories audit & certification (TRAC): criteria and checklist, 2008, http:// www.crl.edu/content.asp?l1=13&l2=58&l3=162&l4=91.
Si veda, inoltre: per il progetto InterPARES, http:// www.inter-pares.org; per il progetto PREMIS, www.oclc.org/ research/projects/pmwg; per il progetto MAG, http:// www.bncf.firenze.sbn.it/progetti/mag.
Tutte le pagine web s’intendono visitate per l’ultima volta il 27 aprile 2009.