DOCIMOLOGIA

di Mauro Laeng - Enciclopedia Italiana - V Appendice (1991)

DOCIMOLOGIA

Mauro Laeng

Si tratta di disciplina recente nell'ambito pedagogico (il termine è composto dal greco δόϰιμοϚ, "esaminato", "saggiato", e di −logia, e vale "studio delle tecniche di valutazione"), sviluppatasi negli anni Trenta, a partire da alcuni lavori di pedagogia ''quantitativa'', stimolati dalla necessità di porre su basi più valide e attendibili le valutazioni scolastiche.

Le premesse della d. vanno trovate nella pratica diffusa dell'uso dei test in psicologia applicata fin dagli inizi del 20° secolo. Un test è una prova consistente nel sottoporre a un soggetto un breve quesito cui egli deve rispondere, mediante atti o parole constatabili in maniera oggettiva e se possibile automatica. Il quesito dev'essere naturalmente scelto fra quelli più indicativi del possesso di un'abilità o cognizione, ossia fra quelli il cui risultato ha la più alta correlazione con ciò che s'intende valutare. Scopo del testing è di ottenere informazioni sintetiche e rapide, traducibili in misure quantitative secondo distribuzioni e scale.

Va introdotta tuttavia una distinzione fra i test psicologici e quelli pedagogici o più propriamente ''docimologici'' impiegati nella pratica scolastica. La distinzione è di oggetto e di metodo. In psicologia, oltre a usare largamente metodi d'indagine individuale che si riconducono al colloquio clinico, si studiano mediante i test attività o funzioni che appartengono ai processi psichici o mentali, resi manifesti o palesi in comportamenti verbali e non verbali su singoli quesiti o items descrivibili e misurabili, e possibilmente confrontabili su più soggetti. A seconda degli usi, si distinguono test di sviluppo, d'intelligenza, di attitudini, di atteggiamenti. In pedagogia si può fare riferimento ai test psicologici, ma per lo più ci si limita ad accertare il conseguimento di certi risultati in base a un apprendimento. I test pedagogici o di acquisizione costituiscono quindi una sottocategoria abbastanza ristretta e tipica, della quale però va sottolineata la grande importanza applicativa, con riflessi anche di indole sociale.

Anche dal punto di vista del metodo, di solito le prove scolastiche non aspirano alla validità e attendibilità stabilite mediante norme standardizzate su grandi campioni, cui invece tendono per lo più i test psicologici; quelle scolastiche si limitano molto spesso alle popolazioni per le quali vengono costruite. Tuttavia sono prove oggettive assai più stabili delle consuete forme di accertamento occasionali e soggettive praticate empiricamente nella scuola e consentono confronti altrimenti impossibili. In tempi recenti inoltre sono state costruite prove anche per popolazioni vaste e numerose, oltre i confini di una regione o di una nazione.

Tra le tecniche di redazione delle prove oggettive più semplici sono frequentemente usate le prove che richiedono la risposta alternativa Si/No oppure Vero/Falso, o anche quelle che chiedono di completare una lacuna in una frase, o di abbinare parole aventi un legame di significato. Queste tecniche incontrano alcune obiezioni perché sono adatte soltanto a controllare apprendimenti puntuali di tipo mnemonico, come nomenclature o terminologie, e sono inoltre esposte al rischio d'indovinare a caso. Più sottili sono le prove ''a scelta multipla'' (solo esteriormente simili a quiz) che invitano a scegliere la risposta migliore fra altre (4 o 5) formulate in maniera plausibile ma meno appropriate. Ancora più complesse sono le prove costruite come ''questionari'' o proposte come ''brevi saggi'' (talvolta fissando il numero di parole o di righe da non superare), per non menzionare infine le ''dissertazioni'', purché su argomenti ben definiti, e i ''temi'' o composizioni di tipo tradizionale, sottoposti a griglie di valutazione. Queste prove sono complesse e multidimensionali, e nella pratica corrente sono esposte ai maggiori rischi di difformità: possono pertanto diventare oggettive solo se assoggettate a criteri molto precisi. Tali prove si chiamano ''oggettive'', in primo luogo, perché vengono stabilite in anticipo fissando i criteri di valutazione (punteggi) senza lasciarli alla discrezionalità soggettiva dei vari giudici; in secondo luogo, perché possono essere somministrate in maniera del tutto automatica, anche in assenza dell'insegnante, distribuendo schede e fogli che vengono corretti con maschere o griglie trasparenti o perforate, oppure letti otticamente da qualche dispositivo (oggi più facilmente tramite le periferiche di un computer). Le prove oggettive hanno avuto fortuna, oltre che per il controllo dell'apprendimento di masse molto numerose di allievi, anche per l'uso delle ''macchine per insegnare'' audiovisive, e infine nei corsi ''a distanza'', ove varie decine di migliaia di protocolli possono essere esaminati rapidamente dandone automaticamente, per corrispondenza o con mezzi elettronici, le risposte di controllo agli allievi.

Il problema principale della d. concerne la possibilità stessa, ed eventualmente le procedure da seguire per una valutazione nella scuola. Da tempi remoti questa è sempre stata largamente praticata, ma di recente se ne è contestato il fondamento, soprattuto in base a principi egualitari e al rifiuto di logiche selettive. La d. deve quindi trovare la propria strada evitando gli estremi contrapposti delle concezioni ideologiche di tipo elitario o collettivistico. Un migliore accertamento di capacità e competenze giova a tutti e a ciascuno.

Il caso più semplice di valutazione è costituito dal giudizio mediante il quale effettuiamo l'attribuzione di appartenenza di un certo contenuto (percettivo, immaginativo o concettuale) a una categoria o classe. Tuttavia, già in questo caso relativamente semplice l'esistenza di una categorizzazione è legata al livello di sviluppo dal senso comune alla scienza. Oltre alle attribuzioni categoriali di tipo nominale ''sostantivo'', aventi per referenti quelli che chiamiamo ''oggetti'', ve ne sono altre di tipo ''aggettivo'' che definiscono ''qualità'' o ''quantità''. Qualcuno sostiene che le attribuzioni sostantivali sono in realtà un grappolo di attribuzioni aggettivali fra loro legate. È da notare che mentre i sostantivi tendono a demarcare per lo più in maniera abbastanza netta, salvi i casi citati, i confini di appartenenza, gli aggettivi invece offrono quasi delle gamme più o meno continue da un minimo a un massimo, o almeno in direzione di una diminuzione o di un aumento. Ciò accade soprattutto quando si ha a che fare con attributi qualitativi. Allora si devono stabilire criteri di scaling. È chiaro che questa procedura è del tutto empirica, ma la si può migliorare prendendo nota delle valutazioni di un certo numero di giudici indipendenti fra di loro, e assegnando poi il posto definitivo in graduatoria che risulta dalla maggioranza dei giudizi concordanti. In tutti questi casi il problema basilare è trovare una scala comune per tutti; ma a ben vedere il problema diventa più generale, in quanto si tratta di trovare comunque una regola per trasformare le misure prese secondo un'unità arbitraria in quelle prese secondo una diversa unità altrettanto arbitraria. Se ci è impossibile esprimere tutte le misure alla stessa maniera, o disponiamo di dati già espressi secondo misure diverse, abbiamo almeno bisogno di sapere come passare dalle une alle altre.

Nelle scienze sociali e comportamentali, e quindi anche in pedagogia, interessano i casi di previsione in rapporto al comportamento dei nostri simili: molto spesso infatti gli schemi o modelli da noi supposti rappresentano un quadro di ''come vorremmo o non vorremmo andassero le cose''. Poiché questo atteggiamento implica che per noi alcune cose siano desiderabili e altre meno, si dà il nome di ''valori'' alle prime, e di ''disvalori'' alle seconde. È il caso, per es., delle opposizioni sano-malato, utile-dannoso, lecito-illecito, bene-male, vero-falso, bello-brutto, e agiamo in modo che si realizzino i valori e siano evitati i loro opposti. In tutti questi casi, il confronto fra il costrutto atteso e la realtà si dice ''valutazione'' in senso stretto, proprio perché implica un giudizio di valore.

I dati dell'esperienza comune sono intuitivi, globali, qualitativi, ma i dati qualitativi vengono ormai sempre più sottoposti a operazioni di conteggio e di misura, ossia a operazioni quantitative; queste sono applicabili non solo a misure fisiche, ma anche a fatti comportamentali. Noi suddividiamo il continuo contando per unità discrete, poi le reintegriamo nel tutto. L'esempio più vistoso è la misura del tempo. La scienza, quando la scienza è riuscita a matematizzare un settore, quasi sempre è progredita dal piano grossolanamente descrittivo a quello di un'analisi rigorosa. Si è passati, come dice il titolo di un celebre saggio di A. Koyré, dal ''mondo del pressappoco all'universo della precisione''.

Talvolta il conteggio del numero di oggetti e delle loro ''occorrenze'' (numero delle volte in cui compare uno stesso oggetto) costituisce un primo passo verso la comprensione di un fenomeno a livello di distribuzione di frequenze entro una scala nominale, come abbiamo spiegato. Il secondo passo consiste nella misurazione digitale o analogica rispetto a unità di riferimento, che fungono da ''unità di misura''. Nelle scienze umane, le grandezze considerate possono essere diversissime. Le operazioni di conteggio di frequenze permettono una distribuzione su scale nominali, oppure ordinali, o meglio ancora su scale a intervalli o a rapporti.

È implicito nell'assunzione di un criterio che esso ponga un ''punto di taglio'': o nella separazione dicotomica (''i casi sono due: o questo o quello'') o nell'assegnazione di un punto iniziale o finale (''soglia minima o soglia massima'') o di qualsivoglia intervallo che abbia un carattere rilevante. Nei test di rendimento, per es., si può assegnare un livello di semplice ''sufficienza'' oppure uno di ''idoneità''. Al di sotto del primo si è esclusi, al disopra del secondo si ottengono determinate qualificazioni utili per il lavoro, per un posto, ecc. In alcuni test si procede con l'esercizio finché non viene raggiunto un livello di prestazione che viene chiamato ''criterio''; in quel caso le variabili di tempo, fatica, numero di prove vengono commisurate al raggiungimento del traguardo che viene considerato appunto criteriale (per es. in quanto tempo il soggetto esegue una prova di labirinto con zero errori, oppure con non più del 10% di errori, ecc.). Un altro esempio di criterio è quello che stabilisce il limite alla probabilità di errore. Se applichiamo un test a un campione casuale e poi a un altro della medesima popolazione, dobbiamo attenderci un'indeterminazione, che è tanto più larga quanto più ristretti sono i campioni confrontati. In questo caso occorre stabilire quanto dev'essere ampio il campione sul quale è stato tarato inizialmente lo strumento per ottenere risultati accettabili.

Nella sperimentazione didattica, spesso capita di chiedersi se la differenza riscontrata fra i rendimenti di un gruppo e quelli di un altro gruppo che hanno ricevuto diversi trattamenti siano un effetto dei trattamenti stessi oppure del caso. Intuitivamente, bisogna sottrarre dalle differenze riscontrate quelle che si avrebbero per le pure oscillazioni casuali dei gruppi, che si comportano come semplici campioni della popolazione. Se si hanno dati distribuiti su una scala a intervalli, si può controllare il valore del cosiddetto t di Student, che dice di quante volte la differenza fra le medie dei due gruppi eccede la mera oscillazione casuale. Di solito, basta che la differenza sia almeno il triplo dello scarto campionario perché il rischio di errore non superi l'1%. Una differenza quadrupla ridurrebbe il rischio all'1‰. Si dice allora che la differenza è ''significativa'' con un P=.01 oppure con un P=.001. P vuol dire probabilità; lo zero prima della virgola (in inglese e in informatica prima del punto) di solito non si scrive.

Il confronto fra rendimenti scolastici può essere effettuato fra alunni che svolgono un medesimo corso, o fra i risultati di due classi, o di due scuole, o di due regioni, ecc., assumendo che i termini confrontati si trovino in condizioni parallele. In questo caso di solito prescindiamo da altre circostanze e consideriamo il confronto alla pari come ''trasversale'': se la popolazione ha sensibili differenze al suo interno, viene suddivisa in strati o blocchi più omogenei. Il punto di vista è ''sincronico''. Appartengono a questo tipo le ricerche su grandi campioni (anche di decine o centinaia di migliaia di soggetti) per es. effettuate cross-countries fra diversi paesi, come le ricerche IEA (International Educational Achievement) sul profitto scolastico a 10 anni di età, a 14 anni, e a 18÷19 anni o comunque nella classe secondaria terminale. I processi educativi e formativi sono in ogni modo, proprio per la loro natura ''processuale'', distesi nel tempo. Accanto alla considerazione trasversale o sincronica, essi offrono contenuto a una ''longitudinale'' o ''diacronica'', che è del massimo interesse pedagogico. Potremmo dire che mentre il primo tipo consente confronti fra ''questo e quello'', il secondo consente confronti fra ''prima e dopo''. Il confronto temporale è praticato soprattutto sugli stessi soggetti in momenti successivi del loro sviluppo e della loro formazione (possibilmente tenendo conto distintamente dei due aspetti, uno genetico maturativo e l'altro interattivo comportamentale). Poiché favorisce il confronto con se stessi ed evidenzia i progressi di ogni soggetto, è un tipo di confronto solitamente preferito dove esista un clima scolastico non selettivo.

Bibl.: M. Gattullo, Didattica e docimologia: misurazione e valutazione nella scuola, Roma 1967; O. Andreani Dentici, Abilità mentale e rendimento scolastico, Firenze 1968; A. Zuliani, Statistica per la ricerca educativa, Torino 1976; G. De Landsheere, Elementi di docimologia, trad. it., Firenze 1976.