Rischio
Nel parlare comune il concetto di rischio è di solito associato a una valutazione soggettiva della possibilità che si verifichi un evento sfavorevole, a prescindere dalla probabilità più o meno elevata che ciò avvenga. In campo statistico, biomedico e biostatistico il concetto di rischio è invece strettamente legato al concetto e alla teoria delle probabilità: si definisce rischio la frequenza attesa di eventi (malattie, decessi) in rapporto all'esposizione a un agente chimico, fisico o biologico (anche di tipo comportamentale o psicologico).
1. Il concetto di rischio
La probabilità di un evento è il numero di volte in cui esso si verifica in tutte le possibili occasioni nelle quali può verificarsi. Di fatto, le probabilità a priori sono un numero compreso tra 0 e 1 e vengono dettate dall'esperienza maturata nel passato per analoghe osservazioni. A evento avvenuto, in un singolo individuo, le probabilità non hanno più senso in quanto l'evento si è avverato oppure non si è avverato. In ogni caso, rischio e probabilità sono comprensibili e hanno senso soltanto se riferiti a fenomeni collettivi: per es. il rischio di andare incontro a un infarto miocardico nella popolazione maschile italiana di 40-59 anni è di circa il 3‰ per anno. Al termine del periodo di osservazione 3 soggetti saranno diventati malati, mentre gli altri 997 saranno rimasti sani. Per tentare di trasferire il concetto di rischio ai problemi della salute e della malattia è necessario introdurre alcuni termini e concetti di natura epidemiologica e biostatistica. In questo settore la probabilità, o stima di rischio, è costituita dal numero di soggetti che sviluppano una determinata caratteristica in uno specifico periodo di tempo diviso il numero di soggetti che, all'inizio del periodo di osservazione, erano a rischio, cioè che erano potenzialmente capaci di sviluppare tale caratteristica. Il rischio caratterizza la quantità di variazione cumulativa per 100 persone (o altre potenze di 10, e cioè 1000, 10.000 ecc.) in uno specifico periodo di tempo. Può essere diverso in relazione a condizioni preesistenti alla comparsa dell'evento e quindi assumere valori diversi attribuibili, anche se per sola associazione, a tali condizioni. Le condizioni preesistenti e potenzialmente associate al rischio (in forma causale o non causale) sono chiamate fattori di rischio. Secondo una delle definizioni, il fattore di rischio è una caratteristica individuale misurabile, i cui livelli sono associati in forma probabilistica a quote diverse di rischio di andare incontro, entro tempi determinati, a un evento. La valutazione di tale diversità si esegue con modalità differenti a seconda del tipo di studio. In generale, tuttavia, si parla per semplicità di confronti tra soggetti 'cosiddetti' esposti e soggetti 'cosiddetti' non esposti, in relazione alla presenza di un fattore potenzialmente favorente o non favorente l'evento che viene studiato. La dizione cosiddetti viene usata tra virgolette perché il concetto di esposti e non esposti può essere deviante: infatti esso deriva dagli studi di medicina del lavoro in cui si confrontano lavoratori esposti a una certa sostanza potenzialmente nociva con quelli che, svolgendo altre mansioni, non lo sono. In effetti, nella maggior parte delle associazioni potenzialmente causali e di interesse in campo medico e biologico, questa distinzione non esiste o è artificiale. Per es., tutti siamo esposti a un certo livello di pressione arteriosa (che è un potentissimo fattore di rischio per molte patologie), anche se tali livelli sono diversi e possono associarsi a quote di rischio, per certe patologie future, molto variabili. I valori di pressione sistolica (massima) nella popolazione generale adulta sono usualmente compresi tra 100 e 250 mmHg (eccezionalmente i valori eccedono tali limiti) e ha poco senso dividere tale distribuzione in sole due classi costituite da coloro che hanno una pressione relativamente alta e da coloro che hanno una pressione relativamente bassa. Anche la distinzione, più logica, tra fumatori e non fumatori può essere contestata, perché alcuni non fumatori possono essere esposti al fumo passivo. Per tutti i fattori potenzialmente causali, caratterizzati da una variabile continua (cioè distribuita su un'ampia scala di valori), si possono arbitrariamente eseguire dei tagli che identificano, per es., livelli alti contro livelli bassi. Tuttavia, questo è un meccanismo che determina una perdita di informazione, perché riduce la dispersione dei valori ponendo le basi per confrontare - approssimativamente - la media dei valori più bassi contro la media dei valori più alti. Quando è possibile è bene sfruttare completamente la scala dei valori disponibili, utilizzando classi le cui dimensioni siano tali da far comprendere in ognuna di esse un sufficiente numero di soggetti. Alcuni modelli matematici consentono di valutare le relazioni tra potenziale causa e potenziale effetto lungo tutta la scala dei valori, senza adottare classi. In campo medico-epidemiologico le variabili che vengono usate solo come presenti/assenti non sono necessariamente le più comuni. È peraltro usuale dicotomizzare il sesso in sì/no (maschio/femmina) o qualsiasi altra caratteristica (purché dicotomizzabile in base alla sua presenza/assenza) in presente/assente (per es. presenza o meno di una malformazione, di una malattia ecc.).
Nonostante queste necessarie precisazioni, a fini informativi, può essere utile continuare a mantenere il concetto degli esposti verso i non esposti, purché si tenga sempre ben presente che il concetto deve poi essere trasferito, con opportuni accorgimenti, a tutta la scala dei valori del fattore potenzialmente causale. Lo schema di base a cui si riferiscono tutti i ragionamenti in questo settore è quello costituito da una tabella a doppia entrata con quattro caselle, quattro totali marginali e un totale generale. In essa la didascalia in alto identifica lo stato di malattia o in genere l'effetto che viene dicotomizzato in presente/assente. La didascalia a sinistra identifica lo stato di esposizione che viene dicotomizzato in esposto/non esposto. Le quattro lettere, A e B (le due in alto da sinistra a destra) e C e D (le due in basso da sinistra a destra), corrispondono ai seguenti concetti: A sono i soggetti esposti che hanno la malattia; B sono i soggetti esposti che non hanno la malattia; C sono i soggetti non esposti che hanno la malattia; D sono i soggetti non esposti che non hanno la malattia. Con terminologia mutuata dalle procedure di standardizzazione delle tecniche di misura si usa anche dire che A sono i veri positivi; B i falsi positivi; C i falsi negativi; D i veri negativi. I totali marginali sono così identificabili: A+B è il totale degli esposti; C+D è il totale dei non esposti; A+C è il totale dei malati; B+D è il totale dei sani. Infine, A+B+C+D è il totale della popolazione osservata. Si deve anche intendere che A e C non sono necessariamente casi di malattia, ma possono rappresentare qualsiasi fenomeno in studio che sia dicotomizzabile in presente/assente (in questo caso fenomeno presente, mentre B e D sono il fenomeno assente). Nella presentazione di questo concetto va ancora ricordato che malattia presente/assente (evento presente/assente, fenomeno in studio presente/assente) non sono sempre legati a una successione temporale e che questo elemento dipende dal tipo di studio che viene condotto. In particolare, se si tratta di uno studio longitudinale A e C rappresenteranno di volta in volta i casi incidenti (nuovi casi che compaiono in un certo periodo di tempo), o i casi di mortalità o i casi letali di una malattia. Si tratterà invece di casi prevalenti (casi esistenti) nella circostanza di uno studio trasversale e in quella particolare degli studi caso-controllo. I controlli, in questo caso, saranno i soggetti corrispondenti alle lettere B e D. Nel caso dello studio di popolazione la somma di A+B+C+D costituisce la coorte in studio. Nello studio caso-controllo tale somma costituisce semplicemente il totale dei soggetti arruolati per l'esecuzione dello studio stesso, ma non rappresenta il complesso della popolazione. In questo contesto un rischio legato alla comparsa (o alla presenza della malattia) in funzione del tipo di esposizione al potenziale fattore causale è presente sia negli esposti sia nei non esposti. In particolare, il rischio tra gli esposti è rappresentato da A/A+B; mentre tra i non esposti è costituito da C/C+D. Possiamo immaginare che il fattore di rischio (di esposizione) sia il fumo di sigarette e che nel totale di una popolazione di 1000 soggetti (A+B+C+D) vi siano 300 fumatori (A+B) e 700 non fumatori (C+D). Dopo molti anni di osservazione potremmo trovare che si siano verificati 37 casi di tumore del polmone nella popolazione generale (37 su 1000), di cui 30 tra i fumatori (30 su 300) e 7 tra i non fumatori (7 su 700). I numeri degli spazi interni della tabella diventano quindi A=30, B=270, C=7, e D=693.
Tutte le altre combinazioni suggerite nei ragionamenti che seguono possono facilmente essere ricostruite. Partendo sia da queste definizioni sia dall'esempio numerico deriva una serie di tipi di rischio che saranno descritti all'interno della trattazione seguente.
a) Rischio relativo. È costituito dal rapporto tra il rischio degli esposti e il rischio dei non esposti. Viene spesso identificato con la sigla RR. Di fatto è il rapporto tra l'incidenza negli esposti e l'incidenza nei non esposti, nel momento in cui il concetto di rischio e quello di incidenza vengono equiparati. Può anche esprimere il rapporto tra più esposti e meno esposti, una volta identificati i tagli per caratterizzare due livelli arbitrari della variabile in studio. Il rischio relativo è dato da RR = A/(A+B) / C/(C+D); nel caso dell'esempio è uguale a 10, cioè tra gli esposti al fumo le probabilità di tumore del polmone sono 10 volte maggiori che tra i non esposti. Il RR può essere calcolato solo negli studi longitudinali di coorte e negli studi di intervento. Può valere anche in studi longitudinali che partano da gruppi di pazienti. In tal caso nello schema generale sopra riportato, i casi delle lettere A e C rappresentano i casi incidenti (nuovi casi) di uno studio longitudinale di coorte, oppure i deceduti di uno studio di mortalità, oppure i casi letali di uno studio clinico a partire dai malati.
b) Odds ratio. Si tratta di una stima imprecisa e approssimata di rischio relativo che viene eseguita negli studi caso-controllo o in quelli trasversali (di prevalenza). In questo caso il calcolo del rischio relativo sopra riportato è errato perché la somma di A+B+C+D non rappresenta il totale della popolazione esposta e non esposta e quindi tale grandezza non è un denominatore appropriato di una popolazione a rischio in senso lato. L'approssimazione viene eseguita partendo dall'assunzione o dalla documentazione che la malattia sia rara e che quindi la frequenza in A sia molto più piccola di quella in B, e che la frequenza in C sia molto più piccola di quella in D. In questa evenienza si può quindi assumere che A+B sia approssimativamente uguale a B, e che C+D sia approssimativamente uguale a D. In tal modo, nella formula del rischio relativo, si possono eseguire due sostituzioni e usare B al posto di A+B, e D al posto di C+D. In altre parole, i due denominatori vengono ridotti a B e D in modo che l'originaria formula del rischio relativo viene collassata ad A/B / C/D, oppure ad AD/BC (rapporto tra i prodotti degli incroci diagonali delle lettere in tabella). Nel caso dell'esempio sul fumo l'odds ratio è pari a circa 11. Tutto questo è sufficientemente legittimo alla condizione sopra riportata, e cioè che la malattia sia rara, ma anche che i controlli rappresentino veramente la popolazione generale e i casi rappresentino tutti i casi. Di fatto è molto raro, se non addirittura eccezionale, che tali criteri vengano rispettati, per cui le cautele sulle conclusioni degli studi caso-controllo non sono mai sufficienti. Inoltre, è molto comune sentire parlare di RR nella presentazione dei risultati di studi caso-controllo e ciò, come minimo, ingenera molta confusione (di fatto viene calcolato l'odds ratio e questo viene chiamato rischio relativo, anche se, come spesso succede, la malattia non è necessariamente rara).
c) Differenza di rischio. Risulta costituita dal rischio di malattia (o altro evento) tra gli esposti meno il rischio di malattia (o altro) nei non esposti (oppure tra un gruppo di più esposti rispetto a un gruppo di meno esposti). La formula della differenza di rischio è data da A/(A+B) - C/(C + D), con valore di 0,09 o 9% nel caso dell'esempio. Essa corrisponde all'incidenza (probabilità) massima tra gli esposti dovuta all'esposizione al fattore considerato. Moltiplicando tale probabilità per il numero dei soggetti esposti si ottiene il massimo numero di persone affette dalla malattia a causa dell'esposizione (nel caso dell'esempio 27 soggetti). Poiché la differenza di rischio può essere positiva o negativa, l'interpretazione deve tenere conto del segno. In particolare, se la differenza è positiva essa rappresenta il massimo numero di casi di malattia prodotti dall'esposizione al fattore. Se la differenza è negativa essa rappresenta il numero massimo di casi che sarebbero stati evitati dalla non esposizione al fattore in studio. La differenza di rischio può anche essere considerata come la misura del beneficio che deriva a una popolazione modificando il fattore di rischio, e cioè quanti casi nell'intera popolazione possono essere prevenuti con l'eliminazione dell'esposizione.
d) Rischio attribuibile. Rappresenta la percentuale di casi che verrebbero risparmiati tra gli esposti se venisse rimossa l'esposizione al fattore. La formula è data da [A/(A + B) - C/(C + D)]/[A/(A + B)]·100, che è uguale a 90% nel caso dell'esempio. Il rischio attribuibile, conseguentemente, è una misura confinata al destino degli esposti.
e) Rischio attribuibile di popolazione. È la percentuale di riduzione di un quoziente di malattia che, nell'intera popolazione, può essere atteso rimuovendo l'esposizione. Viene chiamato 'di popolazione' in quanto è riferito a tutta la popolazione considerata. La formula è data da {[(A+C)/(A+B+C+D)] - (C/C+D)}/[(A+C)/(A+B+C+D)]·100. Nel caso dell'esempio tale riduzione percentuale di incidenza nella popolazione è di circa il 73%. In sintesi, l'impatto del rischio su una popolazione dovuto all'esposizione a un fattore dipende da: la forza di associazione tra esposizione e la malattia che ne deriva; l'incidenza generale della malattia nella popolazione; la prevalenza dell'esposizione al fattore nella popolazione (percentuale nella popolazione). Il rischio relativo è l'indicatore della forza dell'associazione tra la possibile causa e il possibile effetto. Più forte è l'associazione, maggiore è la probabilità che esista una relazione causale. La differenza di rischio è influenzata dall'incidenza della malattia e dal rischio relativo. Il rischio attribuibile è influenzato dalla prevalenza di esposizione e dal rischio relativo. Volendo riassumere alcune delle considerazioni precedenti, si può dire che gli eventi incidenti sono caratterizzati con un rischio (che è una misura senza dimensioni) e con un quoziente (che è una misura espressa in unità diviso il tempo). Il rischio è la probabilità condizionale di sviluppare un evento durante un certo periodo di tempo e viene usato sia per predire variazioni individuali nello stato di salute/malattia sia per testare ipotesi causali per periodi brevi di tempo. Il quoziente, d'altra parte, è il potenziale istantaneo di comparsa dell'evento per unità di tempo, relativo alla grandezza della popolazione oppure del gruppo in studio, ed è impiegato per testare ipotesi causali per malattie e condizioni che si sviluppano durante periodi lunghi. Un quoziente medio di incidenza per un certo periodo viene stimato in studi di follow up (longitudinali) calcolando la densità di incidenza, cioè il numero di nuovi casi diviso la quantità 'popolazione-tempo' dell'esperienza in questione. La quantità popolazione-tempo può essere stimata sia direttamente sommando i contributi di esposizione individuale dei singoli membri della popolazione o del gruppo in studio per l'intero periodo di follow up o, indirettamente, per una popolazione stabile, moltiplicando la grandezza della popolazione per la durata del follow up. Il rischio viene stimato in uno dei seguenti tre modi: 1) calcolando la proporzione delle persone candidate che sviluppano la condizione in studio durante un periodo di tempo, se ci sono poche perdite durante il periodo in questione; 2) utilizzando le tavole di sopravvivenza per tenere conto delle perdite al follow up, cioè con il metodo attuariale; 3) usando densità stimate di incidenza specifiche per età allo scopo di stimare il rischio per uno specifico intervallo di età, cioè con il metodo della densità. Per combinare le stime di rischio da intervalli consecutivi di età con il metodo della densità, dobbiamo assumere che il quoziente di incidenza sia costante entro ogni intervallo di età e che ogni quoziente età-specifico sia costante nel tempo (calendario). Noti i tempi di identificazione della malattia o dell'evento di interesse e i tempi delle perdite, i metodi attuariale e della densità producono risultati quasi uguali. Se il quoziente di incidenza è piccolo e/o la durata di osservazione è breve, in modo che per es. l'incidenza per una certa durata di tempo sia inferiore a 0,10, la stima del rischio per anno è quasi uguale alla stima dell'incidenza per la durata in studio.
2. L'approccio analitico
Nello studio del rischio vanno considerati almeno i seguenti stadi e cioè: 1) osservare un'associazione tra l'esposizione e il rischio di malattia; 2) determinare se l'associazione è statisticamente significativa; 3) escludere i fattori confondenti; 4) identificare gli effetti modificanti (interazioni); 5) cercare i meccanismi; 6) determinare il significato pratico-applicativo. Da questi concetti derivano, in modo esplicito, i classici criteri per assegnare significato causale alle associazioni. Essi sono: la forza dell'associazione; la natura graduata dell'associazione (dose-risposta); la sequenza temporale; la consistenza dei reperti in studi replicati; l'indipendenza delle associazioni (assenza di confondenti o loro controllo); la capacità predittiva; la coerenza, che richiede la consistenza dei risultati con quelli ottenuti con altri metodi di ricerca, l'esistenza di un ragionevole meccanismo biologico e, infine, l'esistenza di risultati positivi, che siano stati osservati negli studi sperimentali. Chiamando X l'esposizione (o il fattore o la possibile causa) e Y la malattia (o l'effetto), si può affermare che maggiore è la forza dell'associazione tra X e Y, maggiore è la probabilità che l'associazione sia causale. Maggiore è la variazione del rischio di malattia Y per ogni variazione unitaria dell'esposizione X, maggiore è l'associazione tra X e Y. Il concetto di dose-risposta è legato all'osservazione che un aumento o un decremento graduale del rischio di malattia Y è associato con le differenze graduali dell'esposizione X. Il concetto di consistenza di un'associazione è legato al fatto che un'associazione tra l'esposizione X e la malattia Y, per essere causale, deve poter essere osservata in popolazioni diverse, in diversi tipi di studi, da parte di diversi ricercatori. Il confondimento è l'effetto di una variabile estranea (Z) che, in tutto o in parte, sembra spiegare l'effetto apparente dell'esposizione. Un confondente è quindi una terza variabile che può creare artificialmente o mascherare un'associazione tra esposizione e malattia. Il confondente deve essere almeno apparentemente associato con l'esposizione (fattore di rischio), non può essere conseguenza dell'esposizione e deve essere un fattore di rischio della malattia. Il confondimento non ha le caratteristiche di un fenomeno 'tutto o niente', avendo alcuni confondenti effetti forti, altri solo effetti deboli, che dipendono dal grado di correlazione con i veri fattori causali. Esistono tecniche statistiche destinate a identificare i possibili fattori confondenti e a limitarne l'apparente influenza sull'associazione. Possiamo considerare almeno tre tipi di associazione: un'associazione artificiale (spuria), o casuale, dovuta a un errore metodologico; un'associazione indiretta dovuta al fatto che causa ed effetto sono collegati attraverso una condizione sottostante (correlata con entrambe); un'associazione causale in base alla quale devono valere le seguenti affermazioni: X è causa di Y se: 1) X precede Y; 2) variazioni di X sono correlate con variazioni di Y; 3) questa correlazione non è la conseguenza del fatto che sia X sia Y sono correlati con Z (variabile estranea). Il livello di confidenza sulla causalità si esprime, in ordine decrescente, come: causa (massimo livello di confidenza); fattore di rischio; indicatore di rischio; associazione o correlazione positiva o negativa; nessuna associazione positiva o negativa; non causa (minimo livello di confidenza). La causalità in campo medico-biologico è stata descritta con raffigurazioni diverse. Una di queste è la cosiddetta ruota della causalità, caratterizzata da un nucleo centrale costituito dalle caratteristiche genetiche attorno alle quali si trova l'ospite (il soggetto), alla periferia del quale si trovano l'ambiente biologico, l'ambiente fisico, l'ambiente sociale. Un'altra descrizione figurata è costituita dalla catena della causalità che parte dal genotipo, da cui discendono il fenotipo (con un suo livello di rischio), la condizione latente e la malattia manifesta. Ogni tappa è condizionata da fattori promotori e inibitori.
3. Esempi di fattori di rischio
Numerosi sono i fattori dei quali è stato confermato un rapporto di causalità con un determinato evento. Fra questi, per le malattie cronico-degenerative, che in genere sono multifattoriali (più fattori concorrono al loro determinismo), si segnalano: carenza di estrogeni e osteoporosi; pressione arteriosa elevata e accidenti cerebrovascolari; colesterolemia e cardiopatia ischemica; fumo e bronchite cronica o cancro del polmone; esposizione al piombo e saturnismo; radiazioni ionizzanti e leucemie. Lo studio delle malattie cronico-degenerative, per es. quelle cardiovascolari, in relazione ai loro fattori di rischio ha portato allo sviluppo dell'ipotesi della reversibilità del rischio: si assume che, modificando i livelli di uno o più fattori nella popolazione o nel singolo individuo, nella direzione che fa prevedere una riduzione del rischio, la probabilità dell'evento effettivamente si riduce. Numerosi trials di intervento, soprattutto nel campo dell'associazione fra livelli di colesterolo e comparsa di un evento cardiovascolare, hanno dimostrato inconfutabilmente che una riduzione dei livelli di colesterolo, sia in soggetti sani sia in soggetti che già abbiano avuto una manifestazione della malattia, induce una riduzione del rischio di andare incontro all'evento in questione. Per le malattie infettive esiste una distinzione fra fattore causale essenziale ma non necessariamente sufficiente (costituito dall'agente microbiologico specifico) e fattori di rischio che possono svolgere un ruolo concausale e favorente ma non indispensabile; per es., denutrizione e tubercolosi, mancata disponibilità di acqua potabile e sviluppo di infezioni intestinali, mancato impiego del profilattico e diffusione del virus HIV (Human immunodeficiency virus) per via sessuale.
4. Predizione multivariata del rischio
Le probabilità del rischio possono essere stimate anche in forma multivariata. Ciò significa stimare le probabilità di un evento in funzione di più fattori di rischio anziché di uno solo. L'approccio più comune consiste nell'impiego di modelli matematici di varia complessità che utilizzano dati osservazionali, sfruttano cioè l'esperienza diretta di fatti verificati in studi ad hoc. Usualmente la stima del rischio è legata all'assegnazione a ogni fattore di rischio di un coefficiente (una specie di peso specifico) che rappresenta il suo contributo alla predizione dell'evento a parità degli altri fattori inseriti nel modello. Il contributo di ogni fattore può essere diretto, indiretto o nullo, e statisticamente significativo o meno. Con l'analisi multivariata la predizione del rischio è molto più precisa e si possono ottenere migliori livelli di discriminazione tra futuri casi (eventi) e non casi (non eventi). La struttura di tali procedure è abbastanza complessa e la comprensione non immediata. A titolo informativo si ricorda che tra i modelli più usati in campo medico negli ultimi trent'anni del 20° secolo vi sono la regressione lineare multipla, la funzione logistica multipla e il modello proportional hazards.
bibliografia
h.a. kahn, c.t. sempes, Statistical methods in epidemiology, New York-Oxford, Oxford University Press, 1989, pp. 1-292.
d. lilienfeld, p.d. stolley, Foundation of epidemiology, New York-Oxford, Oxford University Press, 19943, pp. 1-371.
j.s. mausner, s. kramer, Epidemiology. An introductory text, Philadelphia, Saunders, 1985.