STATISTICA (XXXII, p. 506; App. I, p. 1018)
Metodo scientifico che ha per oggetto lo studio quantitativo di fenomeni di massa, cioè di quei fenomeni naturali e sociali che si presentano come insiemi (collettivi statistici), finiti o infiniti, di casi individuali. La s. viene tradizionalmente distinta in s. metodologica e s. applicata. La s. metodologica è costituita dal complesso degli strumenti concettuali, delle norme tecniche e dei procedimenti matematici che s'impiegano per lo studio dei fenomeni collettivi nelle loro caratteristiche e relazioni reciproche, e che sono diretti ad acquisire la documentazione di base, a classificare e rappresentare sinteticamente (in forma tabellare, grafica e analitica) il materiale osservazionale o sperimentale rilevato, a formulare ipotesi, teorie e modelli esplicativi dei fenomeni investigati, e a verificarne la plausibilità. Negli ultimi decenni è andata affermandosi l'opportunità d'indicare con la denominazione di s. matematica l'insieme delle teorie matematicoprobabilistiche utilizzate nello studio dei fenomeni collettivi; anche se si considera parte della s. metodologica, la s. matematica ha raggiunto uno sviluppo e un'importanza tali da acquisire una propria autonomia. La s. applicata è ripartita, in relazione ai campi di applicazione, in varie discipline o rami, alcuni dei quali, come la s. demografica, la s. economica, la s. aziendale, la s. sociale, la s. sanitaria e la s. giudiziaria (v. oltre) hanno raggiunto o stanno raggiungendo, nell'incessante processo di specializzazione delle scienze, fisionomia e autonomia proprie. L'articolazione della s. applicata nelle varie discipline deriva quindi dalla natura stessa dei fenomeni e non dal metodo d'indagine, che è comune a esse pur traendo da ciascuna l'ispirazione, e che consiste nella raccolta dei dati, nella loro elaborazione matematico-probabilistica e nell'interpretazione dei risultati in relazione ai fattori che li determinano e ai loro meccanismi.
La s. metodologica viene solitamente trattata nei manuali, specialmente a fini didattici, distinguendo l'aspetto descrittivo da quello inferenziale. La s. descrittiva studia i collettivi considerati come "popolazioni" o "universi", cioè come insiemi di tutti i casi che li costituiscono. La s. inferenziale comprende invece quei processi logico-operativi mediante i quali, sulla base di "campioni" di dati desunti da osservazioni o esperimenti, ossia sulla base di segmenti scientificamente scelti delle popolazioni che interessano, si perviene a conclusioni la cui validità viene estesa a collettivi più ampi ed espressa in termini probabilistici. Essa riguarda, pertanto, varie esigenze, quali per es. la stima delle caratteristiche di una popolazione in base alle informazioni ricavate da campioni, ovvero la stima dei parametri di un modello esplicativo di un fenomeno (cioè la legge probabilistica che si suppone regoli il suo presentarsi) e la verifica a posteriori delle ipotesi presupposte, in base alla conformità ai dati osservati delle implicazioni teoriche cui il modello assunto dà origine. La s. descrittiva e la s. inferenziale s'integrano vicendevolmente, poiché, secondo il contesto di utilizzazione, uno stesso collettivo può considerarsi o come popolazione o come campione.
Negli ultimi decenni l'importanza della s. si è andata via via accrescendo; i notevoli progressi conseguiti nella metodologia (v. oltre: statistica metodologica), valorizzata in tutti i campi in cui sia possibile quantificare fenomeni di massa, e resa operativamente utile sia dalla diffusione di calcolatori elettronici di elevata potenza, sia dallo sviluppo di nuove tecniche di elaborazione (multiprogrammazione, time-sharing) e di revisione e correzione automatica di gran parte degli errori di osservazione, hanno schiuso nuove e feconde prospettive all'analisi e all'interpretazione dei dati. Oltre alle tradizionali finalità descrittive e investigative, la s. ha assunto peraltro un ruolo fondamentale nella sua funzione operativa, fornendo una base quantitativa alle decisioni per renderle più sicure ed efficienti anche in condizioni d'incertezza (v. oltre: inferenza statistica; e v. decisioni, teorie delle, in questa Appendice). La tecnica delle rilevazioni è stata affinata e la qualità dei dati migliorata, anche con l'ausilio di schemi d'indagine ("modelli di risposta") che, utilizzando campioni casuali, consentono non soltanto di accertare la presenza nei risultati di deformazioni sistematiche derivanti dal comportamento degl'intervistatori, dall'atteggiamento dei rispondenti e dalla loro interazione, ma anche di stimarne l'ordine di grandezza e di correggere i dati finali.
La metodologia statistica (v. oltre) ha fornito nuovi strumenti, specialmente nell'indirizzo inferenziale, o sviluppato e valorizzato metodi già esistenti, che hanno trovato larga applicazione non soltanto nelle scienze sperimentali (teoria della stima, piano degli esperimenti, ecc.), ma anche, come l'"analisi dei gruppi" (cluster analysis) in archeologia, nell'analisi dei linguaggi, nell'identificazione e nella caratterizzazione delle classi sociali, e in generale in molti problemi di classificazione. Il metodo statistico ha apportato rilevanti contributi non soltanto nei tradizionali campi di applicazione concernenti i fenomeni della popolazione, dell'economia e dell'azienda, ma anche in altre discipline in cui l'indagine osservazionale o la ricerca sperimentale abbiano assunto un ruolo importante. Così, le ricerche demografiche e sociali, specialmente nel campo dell'istruzione o in tema di previsioni a breve termine, si avvalgono utilmente degli schemi di contabilità demografica proposti dagli statistici sulla falsariga dei modelli input-output ormai da tempo operanti nel campo economico. L'impiego delle tecniche campionarie risulta essenziale nelle ricerche sociologiche empiriche, le quali, attraverso inchieste, sondaggi ed esperimenti, mirano allo studio delle opinioni, delle attitudini e dei comportamenti dei gruppi, tenendo conto della loro interdipendenza con le strutture sociali e psicologiche; per seguire l'evoluzione temporale di dette manifestazioni, viene solitamente impiegato il metodo statistico del panel, consistente nell'intervistare lo stesso gruppo di persone a determinati intervalli di tempo. Similmente, la s. è ormai un indispensabile strumento di lavoro per il fisico, il biologo, l'immunologo, il farmacologo; il genetista si avvale della s. nel controllo di rispondenza e di omogeneità di segregazioni, nell'analisi dei caratteri quantitativi, nello studio dell'ereditarietà, nell'analisi delle correlazioni genetiche e ambientali; la terapeutica clinica utilizza il metodo statistico nella valutazione dell'efficacia di terapie, di dosi e di regimi dietetici; la s. risulta infine basilare nelle ricerche biometriche e antropometriche, e nella psicologia sperimentale.
Anche nel campo aziendale la s. ha svolto un ruolo rilevante. Per il dirigente di azienda è necessario oggi non soltanto conoscere i dati contabili capaci di descrivere la situazione dell'impresa, ma anche disporre di altre informazioni, concernenti sia il settore specifico in cui essa opera sia l'intero sistema economico, circa i prezzi, la produzione, l'occupazione, le vendite, gl'investimenti, le innovazioni tecnologiche; a tal fine presso tutte le grandi e medie imprese si tende a istituire uffici statistici per raccogliere e analizzare la documentazione utile per la politica da seguire e le decisioni da prendere.
In particolare, la s. ha contribuito all'approfondimento di vari problemi, alcuni dei quali si fanno rientrare nella "ricerca operativa" (v. operativa, ricerca, in questa App.): per es., nella "teoria delle file di attesa", che interessa la gestione di centrali telefoniche e di magazzini, l'utilizzazione razionale di un insieme di mezzi di trasporto, il controllo del traffico; nella programmazione lineare e non lineare (v. in questa App.), che interessano problemi di trasporto e problemi d'interdipendenze settoriali dell'economia; nella teoria dei giochi (v. giochi, teoria dei, in questa App.), nei procedimenti di simulazione, nei problemi logistici. Significativi contributi la s. ha recato allo sviluppo di tecniche speciali, quali le ricerche di mercato che tendono a fornire preziosi elementi d'informazione e di giudizio ai dirigenti di aziende commerciali e industriali studiandone in particolare i fenomeni distributivi e l'azione della pubblicità, e il controllo di qualità delle fabbricazioni in serie.
Un notevole impulso alle ricerche teoriche e alle applicazioni della s. è stato dato dalle associazioni e società diffuse in tutti i paesi, e in modo particolare dall'Istituto internazionale di s., che organizza sessioni scientifiche a cadenza biennale per facilitare la diffusione e lo scambio dell'informazione scientifica, per migliorare le tecniche e le metodologie e richiamare l'attenzione dei governi sui più importanti problemi allo scopo di coordinare i rilevamenti statistici. In Italia le più importanti sono la Società italiana di statistica, la Società italiana di economia, demografia e statistica, la Società di statistica sanitaria, e l'Associazione italiana di ricerca operativa. La formazione professionale degli statistici si svolge in Italia nella facoltà di scienze statistiche, demografiche e attuariali dell'università di Roma, nella facoltà di scienze statistiche, demografiche e attuariali dell'università di Padova, e nelle numerose scuole di specializzazione funzionanti in altre università, fra cui quelle di Firenze e Bologna.
I notevoli progressi della s. teorica e applicata hanno stimolato la sua importante funzione di essere un mezzo potente d'informazione per gli organismi pubblici e privati. L'affermarsi di nuove forme di gestione della politica economica in campo nazionale e regionale, la diffusione di modelli econometrici, demografici e sociometrici proposti in forma aggregata o disaggregata per finalità scientifiche od operative, l'emergere di nuovi centri di decisione pubblici e privati, e il sorgere di imperiose esigenze di conoscenza da parte di comunità e istituzioni locali hanno moltiplicato le categorie di utilizzatori e reso pressante la domanda di ampie e dettagliate informazioni statistiche connesse con la specificazione dei correlati empirici corrispondenti alle variabili inserite nei disegni globali di ricerca, di gestione e di pianificazione. L'informazione statistica di base, che nasce dalla raccolta di dati individuali e si concreta nella loro traduzione in dati statistici aggregati attraverso le operazioni di classificazione, spoglio e tabulazione, si è sviluppata anzitutto in considerazione delle esigenze della pubblica amministrazione; le informazioni desunte dai censimenti generali e da indagini e rilevazioni correnti o speciali consentono ai pubblici poteri di partecipare attivamente alle varie iniziative di organismi internazionali e intergovernativi e di affrontare l'analisi e la programmazione in molteplici campi della vita economica e sociale ai fini della politica monetaria, doganale, fiscale, sanitaria, dei trasporti, del lavoro, delle abitazioni, della ricerca scientifica, ecc. La tumultuosa ed eterogenea dilatazione della domanda di informazioni ha sollecitato, sia da parte di organismi nazionali, fra cui essenzialmente l'Istituto Centrale di Statistica (ISTAT), sia internazionali quali l'ONU, la FAO (Food and Agriculture Organization), l'UNESCO (United Nation Educational and Cultural Organization), il BIT (Bureau International du Travail), l'OCDE (Organisation de Coopération et de Développement Economique), l'ISCE (Istituto Statistico delle Comunità Europee), a svolgere attraverso i propri uffici di s. un'intensa azione di coordinamento, per l'armonizzazìone dei concetti, delle definizioni e delle nomenclature ai fini della comparabilità dei dati, per la regolazione delle disaggregazioni territoriali, per la sincronizzazione dei tempi di pubblicazione e per un razionale impiego delle risorse disponibili.
Nuove importanti rilevazioni correnti si sono aggiunte a quelle già preesistenti: si ricordano quelle sulle forze di lavoro, sull'occupazione nella grande industria, sulle produzioni agrarie e zootecniche, sul valore aggiunto, sui bilanci di famiglia, sulle abitazioni, sui fitti, sugl'immatricolati nelle scuole superiori, sulle vendite della grande distribuzione al dettaglio, sull'attività edilizia, sulla ricerca scientifica. Altre importanti inchieste, indagini e ricerche socioeconomiche d'interesse generale vengono effettuate periodicamente da enti pubblici e privati, quali l'ISCO (Istituto per lo Studio della Congiuntura), l'ISPE (Istituto di Studi per la Programmazione Economica), la SVIMEZ (Associazione per lo Sviluppo dell'Industria nel Mezzogiorno), il CENSIS (Centro Studi Investimenti Sociali), e da numerosi altri istituti e centri di studio sindacali e regionali.
Fonti statistiche. - Sono rappresentate dai documenti e dalle pubblicazioni che costituiscono il contenuto empirico delle scienze di osservazione e da cui è possibile desumere le informazioni e il materiale di base per lo studio statistico di una vasta gamma di fenomeni; sono variamente classificate. Prescindendo da quelle a carattere storico, rappresentate da registri parrocchiali, da libri contabili e da fonti epigrafiche, letterarie e archivistiche, le fonti attuali di dati pubblicati possono essere anzitutto distinte in fonti ufficiali e fonti non ufficiali secondo che vengano poste in essere da organi ufficiali ovvero da altri enti privati e pubblici. Entrambe possono ulteriormente articolarsi in fonti nazionali, estere e internazionali: queste ultime sono poste in essere a cura di organismi supernazionali, quali l'ONU, l'UNESCO, la FAO, ecc.
La s. ufficiale nazionale si concreta essenzialmente nell'organico sistema di pubblicazioni dell'ISTAT, al quale è attribuita per legge la funzione di raccogliere, elaborare e pubblicare i dati statistici necessari per soddisfare le esigenze d'informazione degli organi di governo, dell'amministrazione pubblica in genere, e della collettività nelle sue componenti economiche, sociali e culturali. I servizi dell'ISTAT sono centralizzati, anche se con l. 6 agosto 1966, n. 628, è stata sancita l'istituzione di uffici regionali e interregionali di corrispondenza; l'ente si avvale per legge, ai fini delle varie rilevazioni statistiche, della collaborazione di tutti gli uffici locali dipendenti da amministrazioni dello stato nonché delle amministrazioni pubbliche locali. L'organizzazione del servizio statistico al livello provinciale è fondata sugli uffici provinciali di s. presso le Camere di Commercio, Industria, Artigianato e Agricoltura; essi funzionano quali organi periferici dell'ISTAT, espletando essenzialmente compiti di coordinamento e fungendo da intermediari tra l'ente centrale e i numerosi organi rilevatori, che vanno dai comuni agl'ispettorati provinciali dell'agricoltura o della motorizzazione, dalle prefetture alle dogane, ai tribunali, agli uffici del genio civile, agli ospedali, ecc.
L'enorme attività di produzione dell'ISTAT si è manifestata attraverso un crescente volume di pubblicazioni. Fra quelle a carattere periodico si ricordano: 1) l'Annuario statistico italiano, che in forma organica e completa riassume mediante tabelle e grafici i più diversi aspetti della vita nazionale in tutti i campi di attività, con particolare riguardo ai fenomeni demografici, economici e sociali; una pregevole sintesi della documentazione pubblicata nell'Annuario è rappresentata dal Compendio statistico italiano; 2) il Bollettino mensile di statistica, anch'esso di carattere generale, che costituisce l'aggiornamento corrente della maggior parte delle informazioni contenute nell'Annuario; 3) gli Annuari a carattere specifico, che espongono in maniera ampia e organica il materiale statistico disponibile nei vari settori; oltre a quelli che saranno citati appresso (v. oltre: s. economica, s. sociale, s. sanitaria, s. giudiziaria); si ricordano gli Annuari: di statistiche demografiche, di statistiche del lavoro e dell'emigrazione, dell'istruzione, dell'assistenza e previdenza sociale, delle statistiche culturali, del commercio con l'estero, della navigazione marittima, di statistiche meteorologiche, della pesca e della caccia, degl'incidenti stradali; 4) le pubblicazioni contenenti più approfondite analisi a livello territoriale, fra cui l'Annuario di statistiche provinciali e i Bilanci delle amministrazioni regionali, provinciali e comunali; 5) i Notiziari ISTAT, costituiti da fogli a periodicità variabile, contenenti brevi informazioni, tabelle e grafici che mettono sinteticamente in evidenza l'andamento nel breve periodo di vari fenomeni; essi sono suddivisi in "serie" concernenti l'attività produttiva, i prezzi e i salari, la popolazione, ecc. Formano peraltro oggetto di pubblicazione a carattere continuativo i risultati completi dei Censimenti generali (della popolazione e delle abitazioni, dell'industria, artigianato e commercio, dell'agricoltura) effettuati a cadenza di norma decennale. Infine, i volumi degli Annali di statistica raccolgono scritti di carattere scientifico o di analisi dei dati di alcune importanti indagini, mentre le serie Note e relazioni e Metodi e norme accolgono rispettivamente analisi di particolari argomenti di carattere statistico e le disposizioni tecniche per la rilevazione dei dati corredate da chiarimenti metodologici circa la loro elaborazione.
Alle fonti statistiche ufficiali dell'ISTAT si affiancano numerose pubblicazioni di enti pubblici e privati, quali le Statistiche del lavoro curate dal ministero del Lavoro e della previdenza sociale, l'Annuario statistico finanziario e le Statistiche sui consumi di tabacchi a cura del ministero delle Finanze, il bollettino trimestrale della Banca d'Italia contenente le s. del mercato monetario e finanziario e i dati sulla bilancia valutaria dei pagamenti, e inoltre annuari, compendi, bollettini e listini pubblicati da enti locali, tra cui principalmente alcune Camere di Commercio attraverso gli uffici provinciali di s. in esse funzionanti, e pubblicazioni varie di istituti assicurativi e previdenziali, di associazioni di categoria e associazioni sindacali, di istituti universitari, ecc.
Le s. internazionali hanno assunto rilievo sempre più spiccato nel quadro della collaborazione statistica fra i vari paesi, sviluppatasi sotto l'egida delle numerose organizzazioni internazionali al fine di coordinare i concetti e le definizioni, armonizzare le tecniche di rilevazione e le metodologie di elaborazione, e rendere il più possibile omogenea e confrontabile la documentazione statistica, migliorandone altresì la qualità. Tra le più significative pubblicazioni dell'ONU si ricordano: Statistical yearbook, compilato di norma nelle lingue inglese e francese, contenente dati relativi ai principali fenomeni demografici, economici e sociali di circa 300 paesi; Demographic yearbook, Yearbook of international irade statistics, e il Monthly bulletin of statistics. Accanto alle pubblicazioni effettuate dall'ONU o da organismi collegati, quali la FAO per le s. agricole, forestali e zootecniche, il BIT per le s. del lavoro, l'UNESCO per le s. dell'istruzione, ecc., fra cui lo Yearbook of labour statistics e il Monthly bulletin of agriculture economics and statistics, si segnalano altresì il Financial bulletin del FMI (Fondo Monetario Internazionale), l'Annuario dell'OMS (Organisation Mondiale de la Santé) e i bollettini e le note dell'OCDE. Una particolare menzione meritano le pubblicazioni dell'ISCE contenenti dati analitici e confrontabili per i paesi aderenti al Trattato di Roma; si segnalano fra le altre: le Statistiche generali, le Statistiche regionali, il Commercio estero, l'Annuario statistico degli associati d'oltremare, le Statistiche dell'energia, le Statistiche dell'industria, le Statistiche sociali, la Statistica agraria e le Statistiche dei trasporti. La crescente domanda di informazioni e il progresso delle tecniche elettroniche hanno dato un vigoroso impulso a numerose ricerche per la costituzione sia di "anagrafi centralizzate" (demografica, sanitaria, mutualistica, fiscale, ecc.) basate sull'attribuzione di numeri di codice o di matricola sempre identici per lo stesso soggetto, sia di banche dei dati, cioè di archivi unificati che raccolgano sistematiche informazioni in una determinata materia su supporti magnetici (nastri, dischi, memorie di massa) capaci di consentire l'immagazzinamento di un numero enorme di notizie e la loro rapida selezione e ricerca automatica. I problemi tecnici, operativi e giuridici derivanti dalla costituzione di detti archivi, dall'aggiornamento delle informazioni e dalla loro gestione e utilizzazione, resi più complessi dalla vastità delle materie, dal rilevante numero degli utilizzatori e dall'eterogeneità delle richieste, oltre che dall'esigenza di tutelare il segreto statistico dei dati individuali, non hanno ancora fatto registrare progressi sensibili in tale campo. Un notevole impulso è stato dato tuttavia allo studio di programmi parametrici e di generazione di tavole, ma l'attuale orientamento è quello di affrontare gradualmente i vari aspetti del problema, istituendo sottoinsiemi da integrare successivamente in un archivio generalizzato. In Italia è in fase avanzata la costituzione di un archivio comunale di dati statistici rilevati in occasione di censimenti o di indagini correnti.
Statistica metodologica.
Data la vastità dei contributi apportati negli ultimi decenni, s'illustrano soltanto alcuni procedimenti fra i più importanti dal lato teorico e applicativo.
Statistica descrittiva. - L'avvento dei moderni calcolatori elettronici ha reso comuni alcune analisi statistiche i cui fondamenti teorici erano stati già posti nei primi decenni di questo secolo. Tali analisi si riferiscono, in genere, a popolazioni e non a campioni. Esse possono rientrare quindi nel capitolo della cosiddetta "s. descrittiva". Qualora le applicazioni riguardino campioni di dati estratti da una popolazione, sorgono, ovviamente, anche complessi problemi inferenziali.
Per tutte le analisi che ricorderemo sono stati già approntati i relativi programmi di elaborazione elettronica; essi possono essere adoperati sia nelle elaborazioni di tipo tradizionale (batch), sia in quelle di tipo time sharing, con un terminale collegato a un elaboratore centralizzato. Caratteristica comune di alcune delle analisi statistiche che verranno ricordate in seguito è quella di supporre l'esistenza di relazioni lineari tra le variabili statistiche in questione; tale ipotesi può essere limitante per le analisi medesime e dev'essere tenuta ben presente nell'interpretazione dei risultati.
Qualora l'analisi statistica sulla variabile multipla debba essere condotta su variabili espresse in diverse unità di misura (per es. peso espresso in kg, altezza in cm, ecc.) o su variabili che, pur avendo la stessa unità di misura, hanno ordine di grandezza diverso (per es. peso della madre e peso del neonato) si ricorre alla standardizzazione delle variabili Xi, trasformando cioè le Xi nelle
che hanno media uguale a zero e varianza unitaria.
Le analisi effettuate sulle variabili Xi possono portare a risultati diversi da quelle condotte sulle variabili Zi Così nel "metodo delle componenti principali" i valori dei coefficienti che si ottengono con riferimento alle variabili standardizzate sono, in generale, diversi da quelli ricavati per le variabili originali. Pertanto, qualora i dati siano sufficientemente omogenei, sia per quanto riguarda il tipo di fenomeni cui si riferiscono, sia per quanto riguarda le unità di misure, è consigliabile condurre l'analisi sulle variabili Xi.
Analisi delle componenti principali e analisi fattoriale. - Nelle scienze sperimentali si cerca di spiegare la variabilità di alcuni fenomeni, facendo variare, spesso in laboratorio, altri fenomeni che prendono il nome di fattori sperimentali. Al variare di questi ultimi (trattamenti), effettuando successive replicazioni, il fenomeno oggetto di studio assume diverse determinazioni; la variabilità dei valori viene spiegata in funzione del piano sperimentale adottato. Nelle scienze sociali, invece, non è possibile, quasi mai, effettuare replicazioni in laboratorio; il ricercatore non conosce i fattori sperimentali, ma solamente le manifestazioni di alcuni fenomeni in una data popolazione: egli vuole conoscere se esistono, e quali sono, i fenomeni che esercitano un'influenza preminente sulle determinazioni osservate.
Nel metodo delle componenti principali si cerca d'individuare le componenti che spiegano tutta (o quasi tutta) la variabilità lineare del fenomeno. Nell'analisi fattoriale si è interessati all'individuazione dei fattori che esercitano un'influenza sulla struttura d'interdipendenza delle variabili osservate.
Il metodo delle componenti principali fu introdotto da K. Pearson (1901) e sviluppato da H. Hotelling negli anni Trenta. I presupposti scientifici dell'analisi fattoriale si trovano nei lavori dello psicologo C. E. Spearman (1904) il quale riteneva che la diversa abilità dimostrata dagl'individui nel risolvere test di varia natura, fosse dovuta alla presenza di alcuni fattori di fondo o generali della personalità umana (quali l'intelligenza, l'abilità manuale, ecc.), e a fattori specifici (quali la predisposizione per una determinata disciplina, ecc.).
Il metodo delle componenti principali consiste nel trasformare un insieme di variabili X1 X2, ..., Xp in un nuovo insieme Y1, Y2, ..., Yp che ha le seguenti proprietà: a) ogni Yi è una combinazione lineare delle Xi cioè Yi =
air Xr; b) la somma dei quadrati dei coefficienti aij è 1 (j = 1, 2, ..., p); c) tra tutte le possibili combinazioni lineari, Y1 ha la varianza maggiore; d) tra tutte le possibili combinazioni lineari delle Xi, non correlate con Y1, Y2 ha la varianza più grande (dopo quella di Y1). E così via per Y3, Y4, ..., Yp.
In tal modo si definisce un nuovo insieme di p variabili non correlate tra loro, in ordine decrescente di varianza. Se Σ è la matrice delle varianze e covarianze (la cosiddetta matrice di dispersione), si tratta d'individuare un vettore a che massimizzi la forma quadratica a′ Σ a sotto il vincolo a′ I a = 1 (I è la matrice unità e l'apice indica le trasposizione). Si deve determinare uno scalare λ che soddisfi la relazione Σ a = λa, cioè ∣ Σ − λI ∣ = 0. L'equazione in λ ammette in generale p radici positive. La radice più grande corrisponde alla prima componente principale a′ X; la seconda radice alla seconda componente e così via (X è la matrice le cui colonne sono X1, X2, ... Xn).
Per una proprietà delle equazioni caratteristiche la somma degli autovalori λi, è uguale alla traccia della matrice Σ e si ha
Poiché la varianza lineare totale della variabile statistica multipla viene riprodotta se si considerano tutte le componenti principali, il rapporto λ/tr(Σ) fornisce una misura del contributo della i-esima componente principale alla varianza lineare totale della variabile di partenza. Nelle applicazioni si considerano solo le prime componenti principali che spiegano una parte sufficiente della varianza totale (per es., il 95% della varianza totale). Il metodo delle componenti principali ha una semplice interpretazione geometrica. L'equazione X′ Σ-1 X = k rappresenta un ellissoide in uno spazio a p dimensioni. I calcoli per determinare le componenti principali sono i medesimi di quelli necessari per individuare gli assi dell'ellissoide. Se gli autovalori λi sono tutti uguali, l'ellissoide diviene una sfera, mentre se alcune radici caratteristiche sono uguali a zero significa che l'ellissoide è degenere e può essere rappresentato in uno spazio di dimensione inferiore a p.
Alcune volte le prime componenti principali possono essere facilmente interpretate dal punto di vista del fenomeno in analisi. In generale, però, l'interpretazione delle componenti principali non è sempre agevole.
Nell'analisi fattoriale si suppone che esistono r(≤ p) fattori latenti F1, F2, ..., Fr che spiegano la correlazione lineare riscontrata tra le p variabili X1, X2, ..., Xp.
Si assume come modello fattoriale il seguente:
ove X è il vettore corrispondente alla i-esima variabile, A è la matrice dei coefficienti incogniti aij(p × r), F è il vettore degli r fattori, U è il vettore accidentale nel quale è sintetizzato l'effetto degl'infiniti fattori non considerati nel modello. I coefficienti aij costituiscono le incognite del problema; essi sono chiamati coefficienti di saturazione (factor loadings).
Per stimare la aij che intervengono nel modello fattoriale precedente si fa ricorso spesso al "metodo di Lawley"; si stimano i coefficienti aij e le varianze dei residui ui applicando il metodo della massima verosimiglianza supponendo che X, F, U abbiano una distribuzione multinormale di vettore medio nullo e di matrici di dispersione rispettive Σ, I, V con V matrice diagonale. Il modello fattoriale precedente è indeterminato per due ordini di motivi; variando l'unità di misura di uno dei fattori F, e corrispondentemente i relativi coefficienti di saturazione, il modello rimane invariato; inoltre se l'insieme dei fattori Fi è sostituito con una combinazione lineare dei fattori stessi, il modello non varia e i coefficienti di saturazione rimangono invariati. In termini di matrici, sostituendo il vettore F con il vettore B F si ha A B F = A F. Poiché esistono infinite matrici B che soddisfano tale condizione, si devono imporre delle restrizioni arbitrarie sui fattori per potere individuare i coefficienti di saturazione. Tale problema è indicato spesso come rotazione dei fattori.
Il metodo di Lawley permette di risolvere in maniera iterativa il sistema di equazioni di massima verosimiglianza. Il sistema da risolvere è il seguente:
Esistono i programmi per l'elaboratore elettronico per risolvere il sistema precedente nelle incognite A e V.
Anche nel caso dell'analisi fattoriale l'interpretazione del significato dei fattori risulta, in generale, particolarmente complessa; in primo luogo perché non vi è ragione per cui i coefficienti di saturazione derivati con il metodo di Lawley debbano avere una semplice interpretazione in termini di logica del fenomeno. Prima di effettuare l'interpretazione dei risultati occorre effettuare la rotazione dei fattori. Inoltre i fattori derivati sono non correlati e una loro combinazione lineare rimane non correlata per cui non vi è ragione che la combinazione dei fattori determinata debba essere facilmente interpretabile.
Correlazione canonica. - Nell'analisi della regressione si pone in relazione lineare una variabile dipendente con più variabili X1, X2, ..., Xp. Estendendo tale idea, si vuole porre in relazione lineare un insieme di variabili Y1, Y2, ..., Yq con le p variabili Xi. Nella correlazione canonica si cerca quella combinazione delle Xi che ha massima correlazione lineare con una combinazione lineare delle Yi. Per es., si può cercare di porre in relazione lineare la fauna di una zona con le condizioni ambientali (suolo, vegetazione, clima, ecc.).
Sia Σ la matrice di dispersione delle p + q variabili X e Y. Essa può essere "partizionata" nelle matrici Σ11 (matrice di dispersione delle X), Σ22 quella delle Y, ΣI2 matrice di dispersione tra le X e le Y, Σ21 (trasposta di Σ12) quella tra le Y e le X. Se a′X e b′ Y sono rispettivamente due funzioni lineari delle Y e delle X, le loro varianze sono a′ Σ11 a, b′ Σ22 b e la covarianza è a′ Σ21 b. Si vuole massimizzare la covarianza (a′ Σ21 b) sotto il vincolo che le due varianze siano unitarie. Per fare ciò applicando il metodo dei moltiplicatori di Lagrange, occorre determinare le p radici caratteristiche (autovalori) dell'equazione:
Le p radici quadrate degli autovalori forniscono le correlazioni canoniche. A ciascuna di esse corrispondono due insiemi di coefficienti che si possono determinare risolvendo il sistema
Gli elaboratori elettronici disponibili e i relativi programmi approntati, rendono i problemi di calcolo delle soluzioni non particolarmente complessi.
Analisi discriminante. - I modelli di classificazione sono utilizzati per classificare un'unità statistica sulla base di p caratteristiche rilevate sull'unità medesima. I metodi dell'analisi discriminante tendono a risolvere i due seguenti problemi:
a) individuare criteri statistici adeguati per stabilire a quali di due o più gruppi preesistenti si deve assegnare un'unità statistica sulla base delle caratteristiche rilevate;
b) valutare il grado di discriminazione, cioè calcolare la probabilità di classificazioni errate in base alle quali si attribuisce a un gruppo un'unità che invece dovrebbe essere classificata in un altro o viceversa. Per es., si tratta di classificare le malattie di un gruppo di pazienti in base ai sintomi riscontrati, oppure di classificare una pianta in base alle caratteristiche morfologiche.
L'analisi discriminante generalmente si applica a misure multiple, perché nelle applicazioni (per es., economiche, biologiche, naturalistiche, ecc.) è difficile individuare un solo carattere che consenta una discriminazione tra due gruppi non molto differenziati tra loro, sì da poter classificare in base a esso un nuovo soggetto che si sa appartenere all'uno o all'altro gruppo.
Come idea generale si cerca d'individuare una combinazione lineare delle p caratteristiche rilevate sull'unità statistica in modo di avere una nuova grandezza in base alla quale gli elementi dei due gruppi possono essere differenziati con un grado di certezza più elevato di quanto si possa ottenere considerando separatamente le singole determinazioni.
Se un'osservazione caratterizzata dal vettore X, deriva da una distribuzione normale multipla con matrice di dispersione Σ e media μ, la funzione di verosimiglianza di X è proporzionale a
Date due distribuzioni, con stimatori delle medie XA e XB e matrice di dispersione Σ, è naturale assegnare l'unità su cui si è rilevato il vettore X, a quella popolazione per cui la funzione di verosimiglianza è massima. La differenza tra i logaritmi delle due stime di verosimiglianza è fornita da:
Tale espressione è funzione lineare di X ed è positiva qualora la verosimiglianza di X è maggiore di quella del gruppo A, e negativa qualora quella di B è maggiore. La funzione γ è la funzione di discriminazione tra gruppi.
Il problema della formazione dei gruppi è risolto dalle tecniche di cluster analysis. Quindi mentre nell'analisi discriminatoria si suppone che i gruppi preesistano, e le unità vengano classificate in uno dei gruppi, nella cluster analysis si tratta d'individuare i gruppi.
Cluster analysis (analisi dei gruppi). - È quel complesso di tecniche con le quali si tenta di risolvere il problema di raggruppare le unità di un collettivo, su ognuna delle quali sono state osservate le intensità assunte da p variabili, in un certo numero di gruppi o grappoli (cluster) in modo che le unità contenute in un gruppo siano omogenee tra loro rispetto ai p caratteri considerati e ogni unità del collettivo sia incluso, in uno e in un solo gruppo.
La cluster analysis si è sviluppata solamente negli ultimi anni quasi parallelamente allo sviluppo degli elaboratori elettronici, giacché tutti i metodi richiedono molti calcoli ed elaborazioni praticamente non eseguibili con i metodi tradizionali. Quantunque i progressi raggiunti nel campo della velocità di elaborazione siano notevolissimi (milioni di operazioni elementari in un secondo), i metodi di cluster sono applicabili praticamente solo a un massimo di alcune migliaia di casi. Altri metodi sono utilizzabili solo per alcuni casi come avviene, per es., per quello proposto da W. Edwards e L. Cavalli - Sforza.
La cluster analysis ha trovato applicazioni in archeologia per la classificazione di strumenti di epoche diverse, nella classificazione di linguaggi pittorici, in biometria, nell'analisi dei linguaggi umani, nell'individuazione delle classi sociali, nella classificazione degli aggregati urbani (comuni, ecc.), e così via.
Sia un insieme di n unità statistiche su ognuna delle quali siano state rilevate p caratteristiche quantitative o qualitative. Sia Xij la determinazione della i-esima caratteristica rilevata sulla j-esima unità. Si tratta di determinare m(m ≪ n) clusters di unità in modo che ogni unità appartenga a uno e un solo insieme e gl'individui di un cluster siano h simili" e quelli di clusters diversi siano differenti. Il concetto di similitudine e di diversità è stabilito attraverso il concetto di "distanza tra le unità"; in un cluster le distanze devono essere sufficientemente piccole e tra cluster sufficientemente grandi.
Nel caso di variabili quantitative le distanze a cui si fa più sovente ricorso sono quella euclidea (definita da d2(Xi, Xj) = [Σ(Xkj − Xkj)2]1/2 e quella di Mahalanobis (D2 (Xi, Xj) = (Xi − Xj)′ Σ-1 (Xi − Xj) ove Σ è la matrice di dispersione). Per le variabili qualitative s'introducono i coefficienti di similarità in funzione del numero di caratteristiche comuni (o diverse) di due unità statistiche.
I metodi di cluster si possono classificare come "metodi scissori" (si suddivide il collettivo di partenza in due e su ognuno si opera successivamente) e in metodi "aggregativi" ove s'individuano dapprima m elementi (nuclei dei clusters) e poi a questi sono associate le altre unità; tale è, per es., il metodo di M. Kendall. Molti metodi si basano sulla minimizzazione della varianza entro i gruppi (within group) e sulla massimizzazione di quella tra gruppi (between groups).
I metodi di cluster possono trovare applicazione nella cosiddetta analisi tipologica, cioè in quei casi di trattamento delle informazioni aventi per scopo di riassumere la quantità d'informazione riducendo il numero degli oggetti (individui) e rimpiazzando un certo numero di essi con un oggetto tipo (da qui il nome di "analisi tipologica"). Sono stati applicati nelle tecniche di riconoscimento delle forme (pattern recognition), in particolare per il riconoscimento automatico da parte di un congegno elettronico di simboli (lettere, numeri, ecc.) scritti a mano o a macchina.
Inferenza statistica. - L'obiettivo di ogni processo d'inferenza statistica è di elaborare l'informazione ottenuta sperimentalmente (mediante campioni casuali o altro) allo scopo di conoscere, per quanto possibile, la struttura del fenomeno osservato. L'elemento statistico risiede nel fatto che, qualunque sia la struttura, ossia la spiegazione del fenomeno, il materiale osservato risulta in generale variabile, anche in eventuali ripetizioni delle osservazioni, per la presenza di errori di misura o errori di campionamento o comunque di fonti aleatorie di disturbo che possono includere anche un'imperfetta adeguatezza del modello. Pertanto, secondo tale impostazione teorica, ogni possibile ipotesi esplicativa assegna ai risultati potenziali non un valore certo, il che sarebbe incompatibile con l'asserita variabilità, bensì una determinata distribuzione di probabilità. A spiegazioni diverse corrispondono naturalmente leggi di probabilità diverse. Nella teoria dell'inferenza viene adoperato spesso un linguaggio riferito a situazioni concrete e particolari, e quindi termini capaci di un'interpretazione intuitiva. Per es., si parla di popolazioni da cui si estraggono a sorte campioni anche in casi in cui non ha alcuna esistenza oggettiva la popolazione in questione, che talvolta è definibile esclusivamente in modo ipotetico, e in cui inoltre i campioni non sono propriamente estratti ma, in realtà, sono costruiti in esperimenti di laboratorio. Si può voler inferire la proporzione di persone che in un determinato collettivo posseggono una certa caratteristica (un'opinione, un livello di reddito, ecc.); si può voler stabilire, mediante prova su alcune piante, quale fertilizzante è più efficace (in tal caso la popolazione è l'insieme di tutte le possibili piante del tipo esaminato da pensarsi trattate con uno dei fertilizzanti confrontati, e non è quindi data fisicamente una volta per tutte); oppure si può voler conoscere la durata media di funzionamento di un determinato tipo di congegno, sulla base di alcune prove di laboratorio che costituiscono nel complesso una frazione trascurabile di tutte le prove possibili e inoltre sono normalmente influenzate da innumerevoli elementi di disturbo, anche indipendenti dalla qualità del congegno da valutare. La varietà dei fenomeni, cui ci si può riferire, viene formalmente sintetizzata in un "modello statistico" in cui sono esplicitate tutte le possibili popolazioni (quindi più precisamente tutte le corrispondenti leggi di probabilità) suscettibili di offrire una spiegazione del fenomeno, e l'insieme di tutti i risultati a priori osservabili. Tutta la problematica dell'inferenza, inizialmente collegata a specifiche situazioni concrete, viene tradotta in termini matematici, basandosi sul modello; le indicazioni operative verranno infine utilizzate nelle applicazioni. L'adeguatezza del modello ai fenomeni che si vogliono rappresentare è essenziale affinché il prodotto dell'elaborazione formale abbia reale utilità. Ciò rimanda peraltro, dal punto di vista teorico, agli schemi che consentono l'applicazione del calcolo delle probabilità ai fatti reali (per es., schemi di prove ripetute, teoria degli errori, ecc.), tenendo naturalmente presente che un'analisi approfondita del fenomeno sotto esame può imporre l'adozione di schemi del tutto nuovi. Nel seguito si suppone dato il modello statistico, cioè una coppia [Z, V] dove Z è l'insieme dei possibili risultati sperimentali e V è un insieme di possibili leggi di probabilità su Z. Si suppone di aver osservato un particolare z ∈ Z e ci si chiede quale sia la legge di probabilità effettivamente operante, o almeno se appartenga a prefissate sotto-classi di V. In taluni casi gli elementi di V sono identificabili tramite il valore di un parametro reale o vettoriale θ, il cui insieme di valori possibili sarà indicato con Θ. Allora si dirà che il problema è "parametrico"; tali sono i problemi più studiati nella letteratura. In molte applicazioni, per es. quando l'esperimento genera un campione casuale di dimensione n > 1, Z è uno spazio euclideo multidimensionale. Si pone allora il problema di "riassumere" i dati osservati tramite opportune funzioni s(z) dette statistiche. Tra queste hanno grande importanza le s. dette sufficienti (o anche: "riassunti esaustivi"), cioè le funzioni s(z) che contengono tutta l'informazione contenuta nel risultato sperimentale. Sono noti i criteri per determinare se una data famiglia V ammette s. sufficienti, e quale sia la forma analitica delle s. stesse.
Le procedure per l'inferenza si possono classificare, nella maggior parte, in due grandi categorie: frequentiste e bayesiane (dal nome di Thomas Bayes, 1702-1761) che riflettono differenti impostazioni della teoria della probabilità, in particolare le impostazioni oggettivista e soggettivista. La differenza fondamentale sta nel fatto che, nel primo caso, si considera come unica informazione legittimamente adoperabile quella fornita dai dati sperimentali effettivamente osservati, con l'esclusione di ogni informazione esterna rispetto all'esperimento. Il ruolo centrale dell'elaborazione è allora assunto dalla cosiddetta "distribuzione campionaria" della s., cioè la sua distribuzione di probabilità corrispondente a ogni valore fissato di θ. Nel secondo caso, invece, oltre all'informazione sperimentale, si ammette l'esistenza di informazioni collaterali, a priori rispetto all'esperimento, relative alle possibili spiegazioni del fenomeno. Dal punto di vista matematico ciò comporta, in definitiva, la possibilità d'introdurre una legge di probabilità (detta a priori o "iniziale") sullo spazio V, e quindi una più completa probabilizzazione del problema. Malgrado la differenza concettuale, le due impostazioni conducono talvolta a risultati non molto differenti dal punto di vista pratico. Per chiarezza, l'esposizione rispetterà la tradizionale divisione dei problemi parametrici d'inferenza in problemi di "stima", e di "test di ipotesi". L'impostazione bayesiana sarà trattata separatamente.
a) Stima. - Si supponga di dover stimare il parametro θ (i problemi non mutano di molto se si vuole stimare una sua funzione g(θ) dove g è una funzione nota). Si deve allora individuare una funzione dei dati t(z) che, qualunque sia il risultato z, fornisca un valore "vicino" a θ; si tratta, operativamente, di specificare dal punto di vista analitico tale criterio di vicinanza. Numerosi sono i metodi adoperati nella letteratura; ricordiamo il "metodo dei momentiz" (K. Pearson), che ha ormai interesse prevalentemente storico, il ben noto "metodo dei minimi quadrati" (Gauss) che ha trovato applicazioni moderne in connessione con i cosiddetti modelli lineari, il "metodo della massima verosimiglianza" (dovuto a R. A. Fisher, che ha ripreso e modificato precedenti impostazioni di Gauss), il "metodo della varianza minima" che è forse quello più utilizzato oggi nell'ambito frequentista.
S'indichi con vθ(z) la densità di probabilità (o la probabilità, nel caso discreto) associata al risultato generico z. Si dice allora che θ??? è uno "stimatore" di massima verosimiglianza se soddisfa la condizione
L'importanza di tali stimatori si basa su diverse proprietà di cui godono, a parte le giustificazioni intuitive che si possono dare della [1]. Si dimostra infatti che θ??? è invariante rispetto a trasformazioni invertibili del parametro e che nel caso di campioni casuali semplici di dimensione n e sotto opportune condizioni di regolarità, è consistente (cioè converge in probabilità a θ per n → ∞), asintoticamente efficiente (al limite ha per media θ e la varianza minima possibile), asintoticamente normale. Quest'ultima proprietà è notevole per il fatto d'indicare una distribuzione campionaria approssimata dello stimatore, che non sempre è determinabile come solusione esplicita del problema [1]. La ricerca di stimatori con varianza minima deve logicamente limitarsi alla classe U degli stimatori "non distorti", cioè tali che
dove l'integrale al primo membro, valor medio di t(z) (che si può indicare con ?Eθt), può anche essere multiplo, o ridursi a una somma, secondo la natura del modello [Z, V].
Talvolta per stimare il parametro θ si richiede, in un certo senso più realisticamente, non un valore puntuale t ma una regione C ⊂ Θ. Si definisce "regione di confidenza" al livello γ una regione C(z) aleatoria, in quanto dipendente dal risultato z, tale che per ogni θ ε Θ si abbia θ ε C(z) con probabilità γ per ogni valore fissato di θ.
La costruzione effettiva di intervalli di confidenza può farsi in vari modi, sia ricollegandosi a note diseguaglianze come quella di P. L. Čebyšev, sia, con risultati generalmente migliori, sfruttando la distribuzione campionaria degli stimatori corrispondenti. La costruzione teoricamente più soddisfacente si ricollega però alla "teoria dei test" di J. Neyman e di E. S. Pearson.
b) Test di ipotesi. - Si parla di "ipotesi statistiche" nel caso in cui Θ sia suddiviso in due sottoinsiemi disgiunti Θ0 e Θ1 e si voglia sapere se il valore vero del parametro stia in Θ0 oppure in Θ1. Per es., nelle applicazioni può interessare se una certa media (o un altro parametro della popolazione) superi o no un determinato valore di confronto, oppure se le medie di due popolazioni siano eguali, ecc. Quando gl'insiemi Θ0 e Θ1 contengono un solo elemento le ipotesi si dicono semplici; altrimenti si dicono composte. Pertanto ogni ipotesi semplice definisce completamente la legge di probabilità che caratterizza la popolazione in esame. La diffusione nella pratica scientifica di una formulazione induttiva in termini di ipotesi statistiche ha avuto il suo massimo impulso a partire dall'opera di R. A. Fisher (1890-1962). L'impostazione sostenuta da Fisher è rimasta nota come "teoria della significatività" ed è caratterizzata. dal ruolo centrale ivi assunto da un'ipotesi (generalmente semplice), detta "ipotesi nulla" e usualmente denotata con H0. Secondo un'espressione dovuta al medesimo autore, ogni esperimento avrebbe lo scopo di dare ai fatti un'occasione per confutare l'ipotesi nulla. Operativamente, si definisce in ogni possibile situazione una misura della distanza del risultato campionario z dell'ipotesi H0, e si rifiuta H0 quando tale distanza supera limiti convenzionali. Tali limiti vengono stabiliti con criteri probabilistici, individuando un sottoinsieme Z1 di z (detto "zona critica") tale che ogni z ∈ Z1 abbia distanza da H0 non inferiore a quella di ogni z ∈ Z − Z1, e valga la condizione
dove α ("livello di significatività") è generalmente scelto piccolo (per es. 0,05 o meno) per assicurare che i risultati in Z1, cioè quelli che conducono al rifiuto di H0, siano globalmente poco probabili subordinatamente alla validità della stessa H0.
Tale impostazone, pur essendosi largamente diffusa, è stata modificata e contrastata sotto vari aspetti. Un tipo di revisione, che in sostanza si raccorda con l'impostazione bayesiana, consiste nel considerare i test di significatività soltanto come strumenti atti a misurare la conformità dei dati osservati all'ipotesi teorica (logica della conformità, suggerita da G. Pompilj nell'ambito del dibattito sulla metodologia dell'inferenza stimolato da C. Gini), abbandonando la pretesa, poiché non si utilizzano le probabilità delle ipotesi, che una scarsa conformità statìstica possa bastare per rifiutare l'ipotesi stessa. Lo sviluppo più largamente condiviso, fermo restando il quadro frequentista, è quello dovuto a E. S. Pearson, J. Neyman e alla loro scuola. Vengono presi in esame elementi non considerati da Fisher, in particolare il ruolo delle ipotesi alternative e le differenti probabilità di sbagliare subordinatamente alle varie ipotesi (detti errori di prima e seconda specie).
Un test è sempre caratterizzabile tramite la corrispondente regione critica Z1, e l'etficacia del procedimento è descritta dalla funzione di potenza π(θ) = prob. (z ε Z1 ∣ θ). La quantità α = supθεΘπ(θ) viene chiamata "ampiezza" del test.
Una classe intuitivamente ottimale di test, dipendente dal parametro α, è la classe ℳα dei test aventi ampiezza α e funzione di potenza massima, cioè soddisfacente la condizione π(θ) ≥ π′(θ) per θ ε Θ1 dove π′(θ) è la funzione di potenza di un qualsiasi altro test con ampiezza α′ ≤ α. Nel caso di due ipotesi semplici, il noto "lemma fondamentale" di Neyman e Pearson (1933) insegna a costruire tali test, praticamente in ogni situazione possibile. Risultati analoghi sono stati ottenuti anche in altri casi, in particolare quando gl'insiemi Θ0 e Θ1 sono intervalli lineari adiacenti e la famiglia V soddisfa opportune condizioni. In casi ancora più generali, ma sempre importanti per le applicazioni, la classe ℳα risulta vuota e si debbono introdurre restrizioni allo scopo di poter individuare classi o elementi subottimali. È rilevante in tali studi il prevalente inquadramento nei termini della teoria delle decisioni di A. Wald, un'impostazione specificamente adatta proprio al confronto teorico tra procedure alternative. Giova solo menzionare, in ultimo, il "metodo del rapporto della verosimiglianze" che, proposto ancora da Neyman e Pearson prima dello sviluppo della loro teoria più rigorosa, resta notevole per semplicità e generalità di applicazione, nonché per le soddisfacenti proprietà asintotiche.
I più comuni esempi di test sono in genere giustificabili con i criteri esposti. Per es., assunta una popolazione normale con media μ e varianza σ2 incognite il procedimento basato sulla t di Student per scegliere tra l'ipotesi H0 : μ = μ0 (μ0 noto) e H1 : μ ≠ μ0 rientra sia nei test non distorti di potenza massima, sia nei test del rapporto di verosimiglianza. Costituisce in parte un'eccezione il celebre test χ2 (uno dei primi a essere usati nella pratica dell'inferenza statistica) sia come test di adattamento a una distribuzione data, sia come test di indipendenza in una tabella a doppia entrata. Tale test, particolarmente intuitivo nell'ambito della logica della conformità, risulta soltanto asintoticamente equivalente al test del rapporto delle verosimiglianze.
Problemi non parametrici. - Nelle applicazioni pratiche può essere difficile individuare una classe di distribuzioni V a cui appartenga sicuramente la popolazione sottoposta a campionamento, tanto più sotto il vincolo che l'elemento distintivo sia solo un parametro (reale o vettoriale). Sorge quindi il problema della "robustezza" delle procedure inferenziali, ovvero della validità delle conclusioni raggiunte quando la popolazione soggetta a campionamento non appartiene in realtà alla classe prefissata. Una soluzione radicale è quella di considerare al posto di V la classe di tutte le distribuzioni possibili o, in alcuni casi, di tutte le distribuzioni di tipo continuo, pur tenendo conto che tale generalità diminuirà inevitabilmente il grado di efficacia delle procedure adottabili. Anche nel caso non parametrico si possono distinguere problemi di stima e problemi di ipotesi; al posto di un parametro θ si ha però, diciamo, una funzione di ripartizione. Senza entrare in dettagli, ci limitiamo a ricordare che gran parte dei metodi non parametrici, nel caso di campioni casuali, si basano o sulla trasformazione del problema in forma parametrica (per es., in un problema binomiale come nel "test dei segni") o sull'uso della cosiddetta funzione di ripartizione empirica Fn, che rappresenta la distribuzione uniforme sugli n punti osservati x1, x2, ..., xn (per es., nei noti test di Kolmogorov e Smirnov), o infine sull'uso dei ranghi r1, r2, ..., rn cioè le posizioni dei valori xi espresse con i numeri 1, 2, ..., n dopo averli ordinati in modo crescente (per es., nel test di Wilcoxon-Mann-Whitney che ha funzioni analoghe alla t di Student nel campo non parametrico, o nel coefficiente di Spearman che è in definitiva un coefficiente di correlazione tra i ranghi).
Impostazione bayesiana. - Il nucleo concettuale dell'impostazione bayesiana sta nell'identificazione dell'incognito con l'aleatorio: la mancanza d'informazione circa la popolazione effettivamente sottoposta a campionamento deve comunque tradursi in una distribuzione di probabilità sullo spazio delle popolazioni possibili, cioè, nel nostro caso, lo spazio V. Nel seguito ci limiteremo a trattare problemi parametrici, in cui quindi va probabilizzato uno spazio Θ che è in generale un sottoinsieme di uno spazio euclideo. Si indichi con w(θ) una qualsiasi funzione di densità di probabilità su Θ (la sostanza della trattazione vale anche per distribuzioni discrete); in tal modo risulta assegnata una legge di probabilità allo spazio Θ × Z, tramite la funzione di densità u(θ, z) = w(θ) • vθ(z). Se, effettuato l'esperimento, si osserva il risultato z ∈ Z, la legge di probabilità che esprime l'informazione corrente su Θ diventa la distribuzione su Θ condizionata dal valore z, che è espressa (teorema di Bayes) dalla funzione di densità
Il meccanismo fondamentale dell'inferenza è proprio, secondo la scuola bayesiana, la trasformazione della legge di probabilità iniziale (o a priori) w nella legge di probabilità finale (o a posteriori) w′. Proseguendo nella sperimentazione, naturalmente, w′ diventerebbe la legge iniziale, e così via. Come soluzione al problema della stima si deve considerare a rigore la stessa distribuzione finale; tuttavia è usuale sintetizzarla tramite il valor medio o la moda o la mediana. La versione bayesiana degl'intervalli di confidenza di livello γ assegnato è costituita dalle cosiddette regioni di "densità massima e probabilità γ" (dette anche regioni di "credibilità"), cioè insiemi C ⊂ Θ tali che ∉Cw′(θ) dθ = γ, w′(θ) ≥ w′(τ) per θ ∈ C, τ ∈ Θ − C. Per la scelta tra le ipotesi H0 : θ ∈ Θ0 e H1 : θ ∈ Θ1 ci si riconduce ovviamente al confronto delle probabilità finali p(H0) = ∫Θ0w′(θ) dθ e p(H1) = ∫Θ1w′(θ) dθ, avendo la possibilità di scegliere l'ipotesi più probabile a posteriori. Si osservi che in questa impostazione dell'inferenza, a differenza dell'impostazione frequentista, non compaiono necessariamente aspetti decisionali, connessi con problemi di ottimizzazione. E possibile però introdurre criteri quantitativi di valutazione degli eventuali errori (di stima o nella scelta delle ipotesi) incorporando così il problema d'inferenza in un problema di decisione (v. decisioni, teorie delle, in questa App.). Nell'ambito bayesiano è inoltre possibile formulare in modo assai semplice i cosiddetti "problemi di previsione" (di risultati futuri) che invece risultano molto meno agevolmente trattabili in termini frequentisti.
Nelle situazioni concrete accade spesso che non si sappia facilmente scegliere la distribuzione iniziale su Θ perché le informazioni disponibili a priori sono poche e vaghe. Molti sforzi sono stati quindi fatti dalla scuola bayesiana per rappresentare matematicamente questa situazione, e quindi per definire, come si usa dire, le distribuzioni iniziali "non informative". Un punto fondamentale è quello messo in luce da L. J. Savage, cioè il concetto di distribuzione iniziale "diffusa", tramite il quale si dimostra che, sotto ampie condizioni corrispondenti ai casi di scarse informazioni a priori, la posizione w(θ) = costante è approssimativamente valida. In molti casi tali procedure assicurano la coincidenza pratica dei metodi bayesiani con i metodi frequentisti. Un esempio è il seguente: se θ è la media incognita di una popolazione normale con varianza unitaria e la distribuzione iniziale è ancora normale con media α e varianza β-1, la media finale risulta t = (αβ + m n)/(β + n) dove m è la media del campione casuale di n elementi supposto disponibile. La stima bayesiana t coincide con la stima frequentista m quando β → 0, cioè ancora nel caso di distribuzione iniziale approssimativamente uniforme. È ovvio d'altra parte che il problema della scelta della distribuzione iniziale tende a essere irrilevante al crescere della quantità dell'informazione sperimentale. Molte altre caratterizzazioni matematiche delle distribuzioni non informative sono state date, sfruttando differenti aspetti della situazione descritta.
Modelli lineari. - Supponiamo che i risultati statistici siano espressi da un vettore (y1, y2, ..., yn) che rappresenta le misure osservate su n unità sperimentali, che il parametro θ sia a sua volta un vettore (θ1, θ2, ..., θp) e che valgano le relazioni
dove le quantità xki (k = 1, 2, ..., p; i = 1, 2, ..., n) sono costanti note, ed e1, e2, ..., en sono variabili aleatorie di media uguale a zero. Si dice allora che le osservazioni sono strutturate secondo un modello lineare. Il modello lineare è uno strumento teorico dotato di grande generalità, e viene largamente impiegato nella pratica. Generalmente le ei hanno il significato di componenti accidentali che si aggiungono alla componente sistematica ηi = Σkxkiθk per determinare la risposta sperimentale. Spesso, quindi, si assume che le ei abbiano distribuzione normale, con varianza incognita σ2, e siano indipendenti. Particolarizzando il significato delle xki si vengono a rappresentare diverse strutture della componente sistematica, per es., espressioni polinomiali capaci di esprimere un legame funzionale tra la risposta sistematica η e una o più variabili indipendenti che assumono valori noti in ciascuna prova.
Questi tipi di modelli funzionali, che ammettono come caso particolare tutti i tipi di regressione semplice e multipla, sono la premessa per lo studio statistico delle cosiddette "superfici di risposta" posto in atto spesso per scopi di ottimizzazione, come per es. la ricerca di quale combinazione delle variabili indipendenti produca la massima risposta sistematica. In altri casi le variabili xki hanno semplicemente il ruolo di funzioni indicatrici; se per es., i risultati y1, y2, ..., yn sono costituiti da campioni casuali di p differenti popolazioni normali di medie incognite θ1, θ2, ..., θp si può porre xki = 1 se l'unità i-esima proviene dalla popolazione k-esima e zero altrimenti. Per p = 2 si ritrova il confronto tra campioni normali alla base dell'uso della t di Student. Nell'ambito dell'impostazíone frequentista, per la stima dei parametri θk, oppure più in generale delle funzioni parametriche del tipo ϕ = Σk ck θk si usa generalmente il metodo dei minimi quadrati, che dà risultati coincidenti (nell'ipotesi di normalità delle componenti accidentali) con il metodo della massima verosimiglianza. Anche prescindendo dal requisito della normalità, per i modelli lineari gli stimatori dei minimi quadrati, quando esistono, hanno varianza minima rispetto a tutti gli stimatori lineari (cioè del tipo Σi ai yi) e non distorti (teorema di Gauss-Markov). Per controllare le ipotesi sui parametri si usa una tecnica molto generale e adattabile, introdotta originariamente da Fisher, detta analisi della varianza.
Si consideri un'ipotesi del tipo H0: ϕ1 = ϕ2 = ... = ϕq = 0, dove ϕ1, ϕ2, ..., ϕq sono funzioni lineari dei parametri, linearmente indipendenti, e stimabili (cioè tali da ammettere almeno uno stimatore non distorto). Sia ora Ω il complesso delle condizioni [5], inclusa l'assunzione di normalità, e ω lo stesso complesso in cui però è introdotta anche l'ipotesi H0. Se con ïi(Ω) e con ïi(ω) (i = 1, 2, ..., n) s'indicano le risposte interpolate (calcolate usando le stime dei parametri incogniti) nei due sistemi di condizioni, l'analisi della varianza si basa sul confronto delle quantità d(Ω) = Σi[yi −ïi(Ω)]2 e d(ω) = Σi[yi − ïi(ω)]2. È chiaro che se d(ω), che in generale sarà superiore, non si discosta troppo da d(Ω), i risultati possono dirsi conformi all'ipotesi H0. Questo confronto si attua tramite il noto test F = [(d(ω) − d(Ω))/q]/[d(Ω)/(n − r)] dove r è il rango della matrice [xki]. È noto che, sotto la condizione H0, F ha la distribuzione detta di Fisher-Snedecor con q, n − r gradi di libertà. Nel caso, precedentemente accennato, in cui il modello [5] rappresenta la struttura di p campioni equinumerosi tratti da altrettante popolazioni normali, la quantità F diventa proporzionale al rapporto tra una varianza "tra" le medie dei campioni e una varianza "entro" i campioni. Oltre alla giustificazione intuitiva accennata, il test dell'analisi della varianza si può giustificare anche con il metodo del rapporto tra verosimiglianze. L'intero argomento è stato notevolmente approfondito nella letteratura, sia sviluppando lo studio delle caratteristiche del test (robustezza, potenza, ecc.) sia esaminando varianti delle condizioni [5]. La validità delle assunzioni [5] è poi controllabile tramite l'esame dei cosiddetti "residui", cioè le quantità yi − ïi(Ω). È stata anche studiata l'estensione al caso di osservazioni vettoriali, oltre che, naturalmente, la ristrutturazione del problema in forma bayesiana.
Piano degli esperimenti. - Nei casi finora descritti il modello statistico [Z, V] era un dato del problema, non oggetto di scelta. Si ha invece un problema di piano dell'esperimento quando si debbono effettuare delle scelte che determinano, almeno per qualche aspetto, il modello statistico da adottare. L'esempio più immediato è fornito dal campionamento da popolazioni finite. Allora, data una popolazione, matematicamente rappresentabile tramite una ben determinata funzione di ripartizione F, si può procedere a diversi tipi di campionamenti: con o senza ripetizione, stratificato o meno, a uno o più stadi, ecc. Non ci si tratterrà su tali aspetti, caratteristici della teoria dei campioni (v. campione, teoria del, in questa App.). Sono però in uso, nelle applicazioni, anche altri metodi di campionamento, spesso legati ad aspetti specifici del settore stesso. Per es., nell'esame statistico dei tempi di funzionamento dei congegni (prove di affidabilità) si usano talvolta metodi di "censura" del campione, limitando, per es., l'osservazione a un intervallo di tempo di dimensione da stabilire. Una categoria molto importante di problemi è quella dei piani sequenziali. Si suppone disponibile un flusso infinito x1, x2, ..., xn, ... di osservazioni, per es., (nel caso più semplice) provenienti da una stessa popolazione, appartenente al solito a una classe di popolazioni possibili. Si deve allora prescegliere una "regola d'arresto", cioè una norma di condotta secondo cui stabilire a ogni passo se proseguire o cessare il campionamento stesso. Questa impostazione, approfondita soprattutto da A. Wald negli anni della seconda guerra mondiale, ha trovato importanti applicazioni, per es., nel controllo della produzione industriale e in medicina, nel controllo dell'efficacia dei farmaci, ed è stata ulteriormente ripresa dal punto di vista bayesiano. Altri importanti problemi di piano degli esperimenti sono quelli connessi ai cosiddetti "esperimenti sui fattori".
Si può supporre in molti casi (produzione agricola, produzione industriale, ecc.) che la risposta sperimentale dipenda, a meno di componenti accidentali additive come nella [5], dalle modalità assunte da determinate variabili indipendenti, dette "fattori sperimentali"). Allora la componente viene scomposta nella somma algebrica di ulteriori parametri incogniti, definiti in modo da rappresentare l'effetto sulla risposta delle modalità dei diversi fattori e delle loro interazioni. Disponendo di un numero arbitrario di unità sperimentali, da trattare nei diversi modi possibili e su cui effettuare misurazioni, il problema può essere facilmente analizzato dal punto di vista statistico rifacendosi alla teoria del modello lineare. Sorgono però problemi di pianificazione quando per ragioni fisiche, economiche o altro, non è possibile esplorare tutte le combinazioni che risultano molto numerose, quando è alto il numero dei fattori. S'introducono allora disposizioni sperimentali incomplete per cui è possibile stimare solo alcuni parametri del modello o in cui è necessario assumere modelli restrittivi (per es., assenza di determinate interazioni). Rispondono a esigenze di questo tipo i "piani a blocchi completi", i "piani fattoriali frazionati", i "piani parzialmente bilanciati", i "quadrati latini", ecc. Problemi connessi sono ovviamente la scelta dei fattori da introdurre nel modello, ricordando che l'effetto di tutti gli altri resta conglobato nella componente accidentale, e la scelta delle corrispondenti modalità. Situazioni analoghe si presentano quando i fattori si possono trattare come variabili continue.
Statistica applicata.
Statistica economica. - La s. economica è il ramo della s. applicata che studia, con l'ausilio del metodo statistico, i fenomeni economici collettivi, cioè i fatti dell'attività umana risultanti dalla combinazione di numerosi soggetti economici; tali fatti scaturiscono dalle complesse azioni e interazioni originate nell'ambito dei settori istituzionali (imprese, pubblica amministrazione, famiglie) nei loro rapporti reciproci e nelle loro relazioni con i paesi esteri (resto del mondo), e si manifestano in attività rivolte alle fondamentali categorie della produzione, della distribuzione, del consumo e della formazione del capitale. In quanto scienza economica a base statistica, in cui teoria economica e realtà fattuale si compenetrano in un'armonica sintesi del metodo deduttivo e di quello induttivo, la s. economica viene da taluni designata "economia induttiva" o anche "economica sperimentale".
La s. economica è andata acquistando piena autonomia soltanto negli ultimi decenni; le sue origini storiche si confondono infatti con quelle della s. generale. I primi sporadici tentativi di analizzare con metodi quantitativi i fenomeni economici possono farsi risalire al Seicento, e più estesamente al Settecento. Il criterio, introdotto da J. Graunt nel campo della popolazione, dello studio collettivo dei fenomeni economico-sociali per gruppi e classi omogenee di soggetti, trovò feconde applicazioni a opera di W. Petty, che può considerarsi il vero fondatore della s. economica, di C. Davenant, G. King, R. Cantillon, e altri cultori dell'"aritmetica politica". Studiando problemi concreti riguardanti i tributi, la moneta e gli scambi internazionali, essi intravidero i concetti di velocità di circolazione della moneta, di reddito nazionale e di altri aggregati macroeconomici, e costruirono per la prima volta una curva di domanda in base a osservazioni empiriche, anticipando di duecento anni il fecondo filone di ricerche sviluppato da H. Moore nel primo Novecento. Di problemi di analisi quantitativa dei prezzi si occuparono B. Fleetwood, G. Evelyn e specialmente G. B. Carli, che costruì per primo, con metodo rigoroso, un indice sintetico dei prezzi. Sempre nel Settecento, P. Verri concepì e calcolò con criteri moderni la bilancia dei pagamenti, mentre F. Quesnay, capo della scuola fisiocratica, studiando i problemi dell'equilibrio economico, effettuò tentativi di valutazione di vari aggregati, fra cui il prodotto nazionale e la sua ripartizione, dando peraltro con il suo Tableau économique, considerato il progenitore della "Tavola input-output" introdotta dopo il 1940 da W. Leontief, una prima sistemazione organica dell'economia su basi induttive, che prelude alle moderne indagini econometriche. Malgrado i suggerimenti di P. S. Laplace, che auspicava la raccolta e l'analisi sistematica di dati statistici in campo economico, nella prima metà dell'Ottocento i progressi della s. economica furono piuttosto scarsi, poiché gli studi furono indirizzati piuttosto all'analisi microeconomica e allo sviluppo dell'economia deduttiva. Le ricerche di economia induttiva ripresero però nella seconda metà del secolo, sollecitate dall'esigenza di analizzare le crisi economiche determinate dalla trasformazione dei sistemi economici; dette ricerche furono notevolmente favorite dalla disponibilità di nuovi strumenti concettuali (curve di domanda e di offerta, elasticità dei prezzi, modelli di funzionamento dei sistemi economici, modelli di equilibrio economico generale, relazioni fra indici dei prezzi e problemi monetari, ecc.), introdotti dagli studi di economia matematica di A. Cournot, L. Walras, F. Edgeworth, V. Pareto e altri, e resi concreti sul piano operativo dai progressi conseguiti dalla s. teorica, specialmente per merito di A. Quetelet, F. Gauss e S. Poisson. Servendosi di serie cronologiche riguardanti i prezzi, i depositi bancari e i saggi d'interesse, C. Juglar e W. Jevons approfondirono vari aspetti dei problemi connessi con le oscillazioni stagionali e con i cicli economici a medio periodo; ulteriori decisivi progressi nell'analisi delle serie temporali e nella costruzione di barometri economici furono realizzati ad opera di W. Mitchell ed E. Wagemann. Notevoli contributi infine furono apportati da S. Laspeyres, H. Paasche e I. Fisher in tema di indici dei prezzi, e da E. Engel in tema di analisi dei bilanci familiari. Nel 1900 il rinvigorimento degli studi di macroeconomia condusse, ad opera di A. Marshall, di A. Pigou, e soprattutto di J. M. Keynes, ai concetti fondamentali che sono alla base di una visione globale del funzionamento dei sistemi economici, e ai corrispondenti correlati empirici. A essi seguirono notevolissimi contributi teorici e applicativi di C. Gini, R. Stone, S. Kuznets, C. Clark, J. Tinbergen, W. Leontief, R. Frisch, T. Koopmans, T. Haavelmo, particolarmente nei campi della contabilità nazionale e territoriale, dei problemi di sviluppo e di programmazione intesi in senso statistico, e dell'econometrica, fecondi rami della s. economica, cui hanno dato vigoroso impulso in Italia gli studi di R. Benini, G. Mortara, F. Vinci, L. Livi, L. Lenti, G. de Meo, A. Giannone, B. Barberi e numerosi altri.
Una delle finalità della s. economica riguarda la rilevazione dei dati economici e finanziari, operazione che si concreta nell'enumerazione, misurazione e classificazione delle attività economiche e delle unità economiche, e nell'acquisizione di tutti gli elementi d'informazione necessari per la determinazione dei fondi (mediante censimenti generali, catasti, ecc.) e dei flussi (mediante indagini correnti e speciali, totali o campionarie) di natura economica e finanziaria, ai fini della compilazione delle relative s.; il materiale grezzo delle rilevazioni statistiche è rappresentato da dati concernenti prezzi, produzioni, acquisti, occupazione e disoccupazione, salari, fitti, dividendi, profitti, risparmio, operazioni bancarie, gettito tributario e via dicendo, che confluiscono, sintetizzati in tabelle, nelle fonti statistiche ufficiali, nazionali o internazionali, o nelle documentazioni raccolte a cura di imprese private e pubbliche, associazioni sindacali, associazioni di categoria, ecc. L'importanza via via crescente della macroeconomia, che ha portato l'attenzione essenzialmente su grandezze fortemente aggregate quali il reddito, i consumi, gl'investimenti, l'occupazione, ha stimolato in misura notevole la raccolta delle s. necessarie per quantificare le grandezze stesse e per verificarne i reciproci rapporti. Il corpo delle rilevazioni economiche, originato da impellenti necessità di governo, dello stato e delle imprese prima ancora che da esigenze scientifiche, si è andato tuttavia articolando nelle varie parti con diverso ritmo di sviluppo. L'opportunità di ricomporre la vasta materia in un sistema organico e coerente è andata facendosi strada dopo la prima guerra mondiale; le tappe più notevoli, al cui raggiungimento hanno largamente contribuito le grandi organizzazioni internazionali, possono farsi corrispondere: a) alla Convenzione per le statistiche economiche, firmata a Ginevra nel 1928 sotto gli auspici della Società delle Nazioni; b) ai Sistemi di conti economici nazionali, proposti nel secondo dopoguerra dall'OECE e dall'ONU (nel cui ambito è da segnalare l'azione determinante della Conferenza degli statistici europei), nei cui quadri è riprodotta una sintesi coerente del circuito economico così com'è configurato dalla moderna teoria economica; dai sistemi di contabilità nazionale la s. economica ha tratto impulsi e sollecitazioni per l'impianto di nuove rilevazioni reciprocamente collegate e armonizzate. Recentemente l'Istituto Statistico delle Comunità Europee ha elaborato una versione comunitaria (SEC) di contabilità economica integrata, in cui trovano collocazione anche i flussi finanziari, le variabili afferenti ai flussi intersettoriali (Tavole input-output), e le variabili posizionali (per es., la ricchezza e il capitale nazionali).
Le rilevazioni statistiche che alimentano le fonti ufficiali italiane in materia economica vengono eseguite dall'ISTAT. Oltre ai censimenti economici generali condotti a intervalli decennali (gli ultimi risalgono al 1970 per l'agricoltura e al 1971 per l'industria e il commercio), e ad alcune indagini a carattere speciale (per es., sul catasto viticolo impiantato nel 1970, e le rilevazioni periodiche sulle abitazioni e sull'attrezzatura alberghiera), l'ISTAT effettua rilevazioni annuali, trimestrali e mensili, a carattere totale o campionario, atte a documentare i più importanti aspetti strutturali e dinamici della fenomenologia economica nazionale. I risultati vengono pubblicati in annuari specializzati (per es., gli Annuari di contabilità nazionale, di s. agrarie, di s. forestali, di s. zootecniche, di s. industriali, dell'attività edilizia e delle opere pubbliche, del commercio interno, della macellazione, del lavoro e dell'emigrazione, del commercio con l'estero), nelle varie serie di notiziari mensili sull'attività produttiva, sui prezzi e salari, sulle forze di lavoro e sugl'indicatori del lavoro nella grande industria, nei volumi degli Annali di statistica, nei volumi della collana Note e Relazioni, e infine in pubblicazioni speciali. Accanto alle fonti ufficiali dell'ISTAT sono da ricordare le raccolte di dati economici curate periodicamente da amministrazioni pubbliche, da associazioni di categorie e da enti locali, quali la Relazione generale sulla situazione economica del paese che il ministro del Bilancio presenta annualmente al Parlamento, la Relazione annuale del governatore della Banca d'Italia, la Statistica delle miniere, cave e torbiere curata dal Corpo delle miniere del ministero dell'industria, i Bollettini statistici e i Listini dei prezzi ingrosso pubblicati dalle Camere di Commercio, Industria, Artigianato e Agricoltura, e infine i bollettini e le rassegne degli Istituti assicurativi e previdenziali.
La s. economica non si arresta però alla rilevazione dei fenomeni economici; attraverso l'elaborazione e l'analisi quantitativa dei dati grezzi, utilizzando le procedure, le tecniche e gli strumenti logico-matematici approntati dalla s. metodologica, essa mira anche alla descrizione delle caratteristiche strutturali e dinamiche dei fenomeni stessi, e alla loro comparazione temporale e spaziale. Giova ricordare in tale contesto la Tavola input-output o "Tavola delle interdipendenze economiche", di fondamentale interesse ai fini dell'analisi strutturale del sistema economico. In essa sono registrati i flussi inerenti a tutte le transazioni su beni e servizi e su fattori della produzione che si verificano nel sistema, in un dato periodo, tra i vari operatori economici; l'aspetto più saliente della tavola è che essa mette in luce l'origine e la destinazione dei flussi, e quindi le interrelazioni esistenti fra gli operatori.
La tavola si presenta a doppia entrata, avendo in testata l'indicazione degli operatori che acquistano (branche produttive e settori finali), e in fiancata l'indicazione degli operatori che vendono (branche produttive e settori primari, questi ultimi costituiti dai fattori produttivi e dalle importazioni). L'analisi della tavola consente pertanto di accertare: a) la ripartizione dell'offerta totale di ciascuna branca produttiva fra usi intermedi, riguardanti la domanda dei suoi prodotti da parte delle altre branche, e usi finali inerenti ai consumi, agl'investimenti e alle esportazioni; b) la struttura dei costi di produzione di ciascuna branca, distintamente per prodotti e servizi intermedi e per fattori primari; c) le interdipendenze esistenti fra le diverse branche. Dai flussi di beni e servizi intermedi fra branca e branca disposti in forma di matrice (matrice di Leontief), possono derivarsi i "coefficienti tecnici", espressi dai rapporti, rispetto alla produzione di una determinata branca, dei beni e servizi forniti da altre branche e da essa utilizzati. Detti coefficienti risultano sufficientemente stabili nel tempo, e consentono di elaborare previsioni a breve termine dei livelli di produzione dei diversi settori di attività in funzione di prefissati livelli della domanda finale.
Ai fini dell'analisi storica, e in particolare dell'analisi congiunturale dei fenomeni economici, risultano di grande ausilio i "numeri indici sintetici" di prezzi o di quantità, che sono atti a esprimerne le variazioni relative nel tempo: fra essi si ricordano gl'indici mensili e annuali della produzione industriale, gl'indici mensili dei prezzi ingrosso, dei prezzi al consumo per la collettività nazionale, dei prezzi al consumo per famiglie di operai e impiegati (già denominati "indici del costo della vita"), del costo di costruzione di un fabbricato residenziale, dei salari minimi contrattuali, delle quantità e prezzi delle merci importate ed esportate, del corso delle azioni quotate nelle Borse Valori, e via dicendo. L'uso di numeri indici sintetici consente peraltro di "deflazionare" gli aggregati economici, cioè di esprimerne i valori a prezzi costanti e di determinare in conseguenza le variazioni "in termini reali" o "di volume" dei fondi e dei flussi, separandole dalle variazioni dovute al movimento dei prezzi. L'uso dei numeri indici permette inoltre di effettuare per gli aggregati economici (prodotto lordo, consumi, investimenti, ecc.) comparazioni internazionali più corrette di quelle ottenibili trasformando gli aggregati di valore mediante i tassi ufficiali di cambio: dette comparazioni risultano di notevole utilità non soltanto per fini pratici, ma anche per un raffronto dei livelli di benessere raggiunto dai vari paesi, per l'approfondimento dei meccanismi dello sviluppo economico, per l'individuazione di mutamenti delle strutture produttive in funzione delle variazioni del reddito, ecc.
Facendo, per es., riferimento all'aggregato dei consumi, se il confronto riguarda due paesi A e B, rapportando i relativi prezzi di beni e servizi identici o comparabili si ottengono le "parità economiche elementari"; una sintesi di detti rapporti permette di giungere a un'unica "parità economica" o "tasso di equivalenza delle monete" capace di esprimere, per il complesso dei consumi, quante unità monetarie del paese A sono equivalenti a un'unità monetaria del paese B e viceversa; come sistema di ponderazione per la sintesi può assumersi la struttura dei consumi dell'uno o dell'altro paese o una struttura intermedia. Se il confronto riguarda più paesi, la determinazione dei fattori di conversione delle monete può effettuarsi sia utilizzando gl'indici "binari" ottenuti comparando i paesi due a due, sia mediante procedimenti di "calcolo simultaneo". Il metodo dei confronti binari porta a costruire indici del tipo "Fisher", che non risultano però transitivi; un sistema di tassi di equivalenza circolari può ottenersi utilizzando una lista unica di prodotti e un unico sistema di ponderazione, ovvero imponendo agl'indici binari particolari condizioni. I procedimenti di calcolo simultaneo conducono invece o a sistemi di equazioni le cui incognite sono rappresentate dai tassi di equivalenza delle monete, o a indici complessi in cui gli elementi di calcolo riguardano tutti i paesi che si considerano. I confronti spaziali possono essere effettuati anche determinando, mediante il metodo della regressione, con riferimento ai paesi per i quali i dati sono disponibili, la migliore relazione statistica (di solito lineare) esistente fra l'aggregato che si vuole comparare e uno o più indicatori non monetari (per es., il consumo di acciaio, il consumo di carni, il numero degli autoveicoli, ecc.); la relazione trovata può essere poi utilizzata per valutare indirettamente l'aggregato considerato per i paesi per i quali il dato non è disponibile.
Ai fini delle analisi congiunturali dei fenomeni economici, si utilizzano le teniche di scomposizione delle serie cronologiche (o storiche o temporali), che, mediante procedimenti grafici e analitici, consentono d'identificare la componente "tendenziale" o trend del fenomeno, la componente "stagionale" e la componente "ciclica"; per "serie stazionarie", cioè prive di trend, sono disponibili schemi di analisi più sofisticati, quali l'analisi armonica e l'analisi periodale; notevole sviluppo ha avuto negli ultimi anni la tecnica del "filtraggio", usata specialmente nell'analisi spettrale delle serie economiche, mediante la quale si tenta di riprodurre il processo di generazione dei fenomeni; in Italia analisi approfondite delle serie cronologiche vengono effettuate essenzialmente dall'ISCO.
La s. economica tende infine a scoprire i rapporti reciproci tra i fenomeni economici e a ricercare, attraverso la verifica empirica, uniformità, regolarità e leggi statistiche, che vanno comunque intese in senso probabilistico e non deterministico, e sono quindi generalmente valide pro-tempore: sicché più propriamente si dovrebbe parlare di quasi-uniformità e di quasi-leggi. Quando le ricerche vengono condotte ai fini della costruzione di modelli teorici (principalmente macroeconomici) e della loro verifica empirica, il campo d'interesse della s. economica tende a sovrapporsi con quello dell'econometria. Nel campo dei consumi, per es., già dagli studi di E. Engel (1887) effettuati confrontando i consumi delle famiglie raggruppate in classi di reddito, risultò che la frazione di quest'ultimo, spesa in beni di prima necessità dalle famiglie povere, era superiore a quella delle famiglie ricche. Con lo sviluppo delle indagini sui bilanci di famiglie, le ricerche sulla condotta e sulle decisioni del consumatore si sono andate sempre più affermando, concretandosi nella concezione e nella verifica di varie specificazioni delle funzioni "engeliane" del consumo (lineare, semilogaritmica, doppio-logaritmica, funzione di Leser, ecc.), tenendo conto anche della composizione e della condizione socio-economica familiare; in questo ambito trovano collocazione gli studi sull'elasticità dei consumi. Il problema si è esteso nel campo macroeconomico all'accertamento delle relazioni fra spese in consumi di intere collettività e reddito nazionale, ciò che ha dato origine a varie formulazioni di teorie e modelli formali sulla funzione di consumo (così come sulla funzione del risparmio) di lungo, medio e breve periodo, tenendo conto anche di altri fattori che oltre il reddito possono influenzare il consumo e il risparmio, quali il livello dei prezzi, le frazioni di reddito da lavoro e da capitale-imprese, l'entità del patrimonio, lo standard di vita, ecc.
Nel settore della produzione, numerosi sforzi sono stati effettuati per la costruzione di una funzione "collettiva" di produzione, atta a esprimere le trasformazioni dei fattori in prodotto che si realizzano in un sistema economico. I numerosi e complessi problemi riguardanti sia la definizione e la misura statistica di variabili aggregate inerenti al lavoro, al capitale, al prodotto, ecc., sia la specificazione formale della funzione (modello di Cobb-Douglas, modello di Solow, modello a elasticità di sostituzione costante o variabile, e via dicendo) sono ancora lungi dall'essere risolti, malgrado i numerosissimi studi di carattere empirico condotti, data la difficoltà di tener conto del progresso tecnologico, degli spostamenti intersettoriali e interterritoriali di risorse, dell'influenza innovatrice dell'imprenditorialità, della qualificazione delle forze di lavoro, ecc.
Nell'ambito degli studi sulla produzione rientrano pure le ricerche sulla "produttività", intesa come rapporto fra i risultati dell'attività economica e i mezzi impiegati per ottenerli, e quindi come capacità di un sistema di trasformare i fattori in prodotti. Oltre alle nozioni di produttività parziale (del lavoro, del capitale, ecc.) che fanno riferimento a un solo fattore, sono state introdotte le nozioni di "produttività globale", in cui si considerano simultaneamente tutti i fattori, e di "surplus di produttività", definito dalla differenza fra l'aumento di volume della produzione e l'aumento di volume dei fattori in un determinato periodo; i problemi statistici consistono essenzialmente nella determinazione di aggregati omogenei e confrontabili, e rientrano nella generalità fra quelli relativi alla deflazione di dati economici e finanziari.
Statistica aziendale. - Nel campo aziendale la s. svolge fondamentali funzioni di controllo e di guida, non soltanto attraverso l'analisi e l'interpretazione del materiale numerico che affluisce alla contabilità interna, ma anche attraverso la valorizzazione delle s. economiche generali nel quadro delle problematiche settoriali. Le più importanti applicazioni della s. aziendale riguardano l'analisi dei costi, la misura del lavoro, la razionalizzazione della gestione delle scorte, e in generale la previsione e la programmazione dell'attività aziendale a breve e medio periodo attraverso le s. del personale, degl'impianti, delle vendite, della produzione, degli approvvigionamenti, dei finanziamenti, e di tutte le variabili e informazioni tecniche ed economiche che direttamente e indirettamente possono influire sulle decisioni (fra cui i programmi delle spese pubbliche, i piani d'investimento delle grandi imprese, le prospettive settoriali di produzione e di evoluzione tecnologica, la mobilità della popolazione, i livelli di urbanizzazione, ecc.).
In particolare, nella sfera delle ricerche commerciali, la s. consente l'analisi dell'andamento delle vendite e delle loro variazioni stagionali, cicliche e tendenziali, la formulazione di previsioni sul loro andamento futuro, lo studio di funzioni di domanda o di più complessi modelli esplicativi, e la sperimentazione mediante tecniche campionarie e di simulazione di determinate politiche in funzione di variabili controllabili dall'azienda. Lo studio delle preferenze del mercato in fatto di qualità, le indagini di opinione per indirizzare la politica delle vendite in base alle tecniche del marketing, la misura dei vantaggi conseguiti con la pubblicità, si avvalgono largamente della s., che concorre altresì nella raccolta di elementi di giudizio per l'identificazione dei migliori canali di distribuzione.
Nella sfera delle applicazioni industriali, la s. contribuisce a garantire la qualità e l'incremento della produzione, a dimensionare i costi e a contenere i consumi attraverso la riduzione degli scarti e una migliore utilizzazione delle materie prime. I metodi della regressione e della correlazione multipla risultano di notevole utilità in problemi concernenti la ricerca di relazioni fra le variabili di fabbricazione e di qualità; l'uso delle "carte di controllo" permette di accertare la stabilità delle lavorazioni, d'identificare le situazioni in cui si verificano perturbazioni di origine sistematica, di controllare il numero di difetti di montaggio, di difetti di superficie, di rottura, o d'interruzione di processi continui; ciò consente di prevedere, con determinati rischi di errore, quali potranno essere le tolleranze naturali della quantità e della qualità della produzione e d'influire sensibilmente sull'uniformità delle fabbricazioni. Infine, i vari schemi di "piani degli esperimenti" trovano concrete applicazioni nella ricerca industriale accanto ai metodi monografici.
Statistica sociale. - La s. sociale studia i fenomeni sociali, con l'ausilio del procedimento statistico, applicato, ove necessario, in tutte le fasi della ricerca, comprese quelle attinenti a taluni problemi di misura, trattati oggi quasi soltanto da sociologi e psicologi, e riferentisi all'attribuzione di punteggi alle voci (items) di un questionario e alla formazione di scale nominali, ordinali e a intervalli.
Il contesto di riferimento dei fenomeni studiati è il comportamento dei singoli nel gruppo, qualunque siano la sua estensione e i fattori di coesione (per es., l'affinità etnica, la tradizione, la lingua, la sovranità dello stato per la nazione, gl'interessi economici per i gruppi di stati, come per i paesi del MEC, ecc.) che lo caratterizzano in un organismo i cui elementi, mutuamente legati fra loro da sollecitazioni e da vincoli, si trovano a seconda dei casi in un equilibrio stazionario, evolutivo o involutivo. In tale contesto il fenomeno sociale s'identifica con un qualsiasi fatto che concorre a costituire o a modificare le componenti biologiche, demografiche, economiche e culturali dell'organismo, componenti che sono studiate quantitativamente dalla biometria (nonché dall'antropometria e dalla s. sanitaria), dalla demografia, dalla s. economica e dalla s. sociale. A quest'ultima spetta per altro più propriamente lo studio dei fatti attinenti alla "componente culturale", intesa nel suo significato più ampio. Pertanto, la s. sociale rivolge il suo interesse alla stratificazione del corpo sociale e al ricambio che perennemente avviene tra strato e strato, in funzione di più variabili, e principalmente della natalità differenziale degli strati, della mobilità del lavoro, del diffondersi dell'istruzione, della distribuzione del reddito, del tenore di vita, e dei modelli di orientamento ideologico sui quali si basa la società. Correlativamente a tali problemi, la s. sociale si rivolge anche alla determinazione delle cosiddette "tipologie sociali", attraverso le quali si cerca di definire le distribuzioni strutturali dei gruppi istituzionali (come la famiglia, il partito politico, la chiesa); alle ricerche di opinione, numerosissime anche in Italia, svolte da istituti specializzati e da privati studiosi su una rosa estremamente varia di argomenti di ordine culturale; nonché a tutti gli studi volti a conoscere i fenomeni strettamente legati alle condizioni di vita.
Tra questi, hanno oggi particolare rilievo le forze di lavoro e gli impieghi del tempo libero, fenomeni peraltro strettamente collegati tra di loro, sia in termini di tempo sia di benessere, giacché le variazioni nella durata del lavoro comportano una variazione opposta nella disponibilità del tempo libero, mentre un aumento del benessere stimola gl'impieghi ricreativi. Lo studio sistematico delle forze di lavoro ha avuto inizio in Italia nel 1952, con una grande inchiesta parlamentare, dalla quale ha preso l'avvio una rilevazione campionaria trimestrale dell'ISTAT che costituisce, unitamente ad altre fonti (per es., ministero del Lavoro e della Previdenza sociale), la base di confronto temporale delle forze di lavoro distribuite secondo la condizione e la posizione professionale, il ramo di attività economica, ecc. Molto si è scritto sul tempo libero, ma poco si conosce ancora sul suo reale utilizzo, sulla durata delle attività ricreative, e soprattutto sulla misura della "ricreatività" che esse procurano e sul loro effettivo contributo a migliorare l'uomo e a facilitare il tanto auspicato salto di qualità. Tentativi per conoscere la durata degl'impieghi giornalieri, e quindi del tempo libero, sono stati avviati negli anni Sessanta dal Centre européen de coordination, de recherche et de documentation en sciences sociales di Vienna, negli Stati Uniti d'America, e in altri paesi europei, utilizzando un nuovo e non facile strumento di osservazione: i budgets temps. In Italia un lavoro del genere è stato svolto solo nel 1973, mediante un'indagine eseguita per la provincia di Varese e nella quale si cerca anche di misurare i gradimenti e la ricreatività degl'impieghi del tempo libero.
Per lo studio delle condizioni di vita ci si avvale sempre più spesso degl'"indicatori sociali", cioè di un procedimento che, sulla base di dati sintetici opportunamente scelti, orienta sulla consistenza e sulla dinamica di fenomeni sociali molto vasti, non sempre ben definibili e comunque non misurabili direttamente. Gl'indicatori sociali trovano origine nella necessità politica di fornire sintetiche indicazioni sulla "qualità" della vita delle popolazioni, come pure sulle "preoccupazioni" sociali, intese come fondamentali aspirazioni al benessere. Gli aspetti metodologici della scelta degl'indicatori e della valutazione della loro bontà segnaletica sono complessi e non ancora risolti in forma compiuta e razionale. Ora sia gli enti rilevatori sia privati studiosi tentano un approccio pragmatico, ampliando fondamentalmente la documentazione dei settori sociali più importanti.
La s. sociale vuol misurare, quindi, attraverso l'osservazione, tutti gli aspetti salienti dei fenomeni sociali di sua competenza, compresi quelli qualitativi, sempre presenti nel comportamento dell'uomo. La quantificazione della qualità risulta un tema di grandissimo interesse per le arbitrarietà che tutte le misurazioni del genere comportano. Il problema centrale della quantificazione non sta tanto nella misurazione delle qualità, che producono più o meno gli stessi effetti e sono pertanto correlabili alla frequenza del loro avverarsi (come, per es., la partecipazione ai vari tipi di spettacolo, la conflittualità del lavoro, l'uso della droga, ecc.) quanto nel misurare gli effetti della loro forza (come la ricreatività fornita dagl'impieghi del tempo libero, il prestigio della professione, ecc.). Su quest'ultimo punto le soluzioni tentate sono molte, a seconda del tipo di misurazione che si vuol adottare, ma tutte si possono riassumere nelle due seguenti: a) il ricercatore fissa con criteri teorici, suffragati da precedenti esperienze, il tipo (la scala) di misurazione e quindi le intensità e le distanze da attribuire alle qualità o ai vari aspetti (items) qualitativi del fenomeno; b) la quantificazione delle qualità è ottenuta in via empirica dall'autodeterminazione delle intensità da parte della collettività interpellata; a ogni qualità prefissata gl'interpellati attribuiscono, cioè, un'intensità (soggettiva) la cui media può considerarsi oggettiva se la variabilità dei giudizi (soggettivi) è bassa. Attualmente si fa strada un sistema di ponderazione delle due soluzioni sopra citate, riferendo le intensità, valutate in via teorica o in via empirica, a un massimo o a un minimo di ottimizzazione, ciò che attenua l'arbitrarietà dei risultati ottenuti.
Statistica giudiziaria. - È il ramo della s. applicata il cui oggetto è costituito dalla rilevazione e dall'analisi quantitativa, con l'ausilio del metodo statistico, dei fenomeni o fatti che derivano dalla condotta umana regolata dal diritto, e che scaturiscono dall'applicazione delle leggi civili e penali attraverso l'azione di organi dello stato (comprendenti sia gli organi della giustizia, giudicanti o inquirenti, sia altri organi che svolgono funzioni di controllo e di tutela), chiamati a pronunciarsi sui fatti stessi o a dar loro sanzione giuridica. Nella s. giudiziaria si suole distinguere: a) la s. processuale, che ha per oggetto lo studio dell'attività delle magistrature in materia civile e penale e che ha carattere prevalentemente giuridico-amministrativo; b) la s. della litigiosità (per la materia civile) e la s. della criminalità (per la materia penale), che hanno per oggetto rispettivamente lo studio dei fatti litigiosi e delittuosi, e le persone che a essi si ricollegano, e che presentano un carattere essenzialmente sociologico. Rientrano nella s. giudiziaria le s. dei protesti, delle procedure concorsuali, degli atti e delle convenzioni, e le s. della prevenzione e dell'esecuzione penale. I più rilevanti dati statistici per l'Italia sono pubblicati, a cura dell'ISTAT, nell'Annuario di s. giudiziarie.
Statistica sanitaria. - Ramo della s. applicata che si occupa dei fenomeni patologici che si verificano nelle popolazioni e dei fattori a essi connessi, degli aspetti concernenti lo sviluppo e la funzionalità degli organismi umani, e dell'efficienza delle condizioni difensive e preventive predisposte dalla società contro l'insorgenza e la diffusione delle malattie. Essa comprende propriamente la s. demografica patologica, la s. medica, e lo studio scientifico dell'organizzazione igienico-sanitaria. Pertanto, la s. sanitaria: a) studia i fatti morbosi che si verificano nelle collettività umane, rilevandone la localizzazione, la frequenza, la gravità (mortalità e letalità), la ripartizione per sesso, età, professione e altri caratteri socio-economici, analizzandone l'origine, la diffusione e l'andamento nel tempo e nel territorio, e valutando l'influenza che le condizioni climatiche, sociali, economiche e ambientali esercitano sullo stato di sanità della popolazione; b) promuove, cura e coordina le indagini quantitative di carattere statistico nel campo biologico, clinico e di laboratorio; c) s'interessa, con l'ausilio del metodo statistico, ai problemi concernenti lo studio delle strutture sanitarie, dell'igiene, della medicina preventiva e delle condizioni ecologiche, allo sviluppo della medicina sociale e alla diffusione dell'educazione sanitaria. Per la vastità del suo campo d'interesse, la s. sanitaria presenta stretti legami con altre discipline quali la biometria, l'antropometria, la bioingegneria, oltre che con la demografia, la s. sociale e la sociologia.
Bibl.: Per la statistica descrittiva: T. Salvemini, Analisi discriminante, in Lezioni di metodologia statistica per ricercatori, Roma 1962; D. F. Morrison, Multivariate statistical methods, New York 1967; H. H. Harman, Modern factor analysis, Chicago e Londra 1967; A. Rizzi, Analisi dei gruppi (cluster analysis), Roma 1970; D. N. Lawley, A. E. Maxwell, Factor analysis as a statistical method, Londra 1971; A. Rizzi, N. Badaloni, Contributi alla cluster analysis, in Metron 1972; F. H. C. Marriot, The interpretation of multiple observations, New York 1974; B. S. Duran, P. L. Odell, Cluster Analysis. A survey, Berlino e New York 1974.
Per l'inferenza statistica: E. L. Lehmann, Testing statistical hypothesis, New York 1959; H. Scheffe, The analysis of variance, New York e Londra 1959; G. Pompilj, Teoria dei campioni, Roma 1961; S. S. Wilks, Mathematical statistics, New York e Londra 1962; D. V. Lindley, Introduction to probability and statistics, Cambridge 1965; M. G. Kendall, A. Stuart, The advanced theory of statistics, Londra 1966; W. G. Cochran, G. W. Snedecor, Statistical methods, Ames (Iowa) 1967; T. S. Ferguson, Mathematical statistics, a decision theoretic approach, New York 1967; M. H. De Groot, Optimal statistical decisions, ivi 1970; V. Barnett, Comparative statistical inference, Londra 1973; G. E. P. Box, G. C. Tiao, Bayesian inference in statistical analysis, Reading, Mass. 1973; D. R. Cox, D. V. Hinkley, Theoretical statistics, Londra 1974.
Per la statistica economica: H. B. Chenery, P. G. CLark, Interindustry economics, New York e Londra 1959; L. Livi, Corso di statistica economica, Padova 1959; A. Giannone, Fondamenti di contabilità nazionale, Milano 1965; G. De Meo, Corso di statistica economica, Roma 1966; M. C. Burk, Consumption economics, New York e Lndra 1968; W. W. Leontief, Teoria economica delle interdipendenze settoriali, Milano 1968; L. A. Vincent, La mesure de la productivité, Parigi 1968; V. Del Punta, Programmazione economica razionale, Firenze 1970; B. Barberi, Elementi di statistica economica, Torino 1972; L. Lenti, statistica economica, ivi 1972; F. Giusti, Statistica economica, Bari 1975.
Per la statistica aziendale: E. L. Grant, Statistical quality control, New York e Londra 1952; S. Ricossa, La statistica nella ricerca commerciale, Torino 1957; Autori vari, Lezioni di metodologia statistica per ricercatori, 5 voll., Roma 1962; A. Palazzi, Metodi statistici nella ricerca industriale e nel controllo della produzione, Milano 1964; L. J. Kazmier, Statistical analysis for business and economics, New York e Londra 1968; G. Hadley, Introduction to business statistics, San Francisco 1969; C. W. Lowe, Industrial statistics, 2 voll., Londra 1969.
Per la statistica sociale: P. P. Luzzatto Fegiz, Il volto sconosciuto degli italiani, vol. I, Milano 1956, vol. II, ivi 1966; P. F. Lazarsfeld, Metodologia e ricerca sociale, Bologna 1967; B. Grazia-Resi, Introduzione alla statistica sociale, Roma 1969; H. L. Blaloch, Jr., Statistica per la ricerca sociale, Bologna 1970; P. De Sandre, Classificazone e misura nella ricerca sociale, Padova 1971; V. Capecchi, La misura della mobilità sociale, in Trattato di statistica, Torino 1972; R. Curatolo, Indicatori sociali, Relazione alla XXVII Riunione scientifica della Società italiana di statistica, Palermo 1972; ISTAT, Statistiche sociali, vol. I, Roma 1975.
Per la statistica giudiziaria: R. Benini, Lezioni di statistica giudiziaria, Roma 1916-17; D. De Castro, La statistica giudiziaria penale, in Annali di statistica, s. VI, vol. XXIV (1932); C. D'Agata, Elementi di statistica giudiziaria, ivi 1973.
Per la statistica sanitaria: P. Introzzi, La statistica in medicina, Torino 1955; S. Swaroop, Introduction to health statistics, Edimburgo e Londra 1960; G. L'Eltore, Lezioni di statistica sanitaria, Roma 1974.