Evidence-based medicine
L’evidence-based medicine (EBM) è una branca della medicina, sviluppatasi a partire dai primi anni Novanta del 20° sec., che ha come scopo quello di migliorare la decisione clinica basandosi sull’analisi sistematica delle ricerche mediche riguardanti le procedure diagnostiche e terapeutiche.
La diagnosi
I criteri diagnostici si sono via via modificati nel corso del tempo; attualmente, per es., il diabete (o meglio ‘i diabeti’) è una malattia diagnosticata in modo ben diverso che nel secolo scorso. Se nell’ultimo secolo il dosaggio del glucosio ematico ha costituito il test diagnostico di elezione, a esso si sono recentemente affiancate la curva da carico glucidico e, per il follow-up clinico, la determinazione dell’emoglobina glicosilata, passando da una diagnosi qualitativa (per es., il sapore dolce dell’urina) a una quantitativa. Il fatto più importante è che la diagnosi si basa su un discrimine relativamente arbitrario tra sani e malati (attualmente una glicemia a digiuno di 126 mg/100 ml), che dà origine a un certo numero di ‘falsi positivi’ e ‘falsi negativi’. Anche nel diabete, come per molte altre malattie, bisogna ammettere che il confine tra normale e patologico è sfumato, una specie di fuzzy set (insieme dei confini indistinti) comprendente una zona d’ombra in cui la diagnosi non è certa ma solo probabilistica.
Per esemplificare le applicazioni del metodo quantitativo, consideriamo una rassegna sull’uso dell’emoglobina glicosilata, un test utile per la diagnosi e soprattutto per il follow-up del paziente diabetico (anche se il dosaggio è relativamente poco standardizzato). Dalla rassegna (Peters, Davidson, Schriger, Hasselblad 1996) apprendiamo i seguenti valori di accuratezza del test: sensibilità 66%, specificità 98%, valore predittivo positivo 63%. Questi valori si riferiscono alla capacità dell’emoglobina glicosilata di identificare il 66% dei veri diabetici (come definiti dal test di tolleranza al glucosio per via orale) e di riconoscere il 98% dei non diabetici. I falsi positivi sono dunque il 2% dei soggetti con valori elevati di emoglobina glicosilata, e i falsi negativi il 34%. Naturalmente, calcolare quanti sono i falsi positivi e quanti i falsi negativi implica disporre di un metodo diagnostico di riferimento che sia più sicuro di quello in esame (nel nostro caso la curva da carico). Il valore predittivo positivo indica che, in una popolazione in cui i diabetici sono il 6%, il 63% di coloro che risultano positivi al test dell’emoglobina glicosilata ha realmente il diabete. Questi dati si inseriscono nel ragionamento diagnostico nei seguenti modi:
a) Sensibilità e specificità, specie se derivate come in questo caso da indagini ripetute, indicano le proprietà intrinseche di un test diagnostico, cioè quanto spesso ci sbaglieremo nel porre la diagnosi in base al test (quanti falsi positivi e negativi esso tende a produrre). I falsi negativi si misurano tra i diabetici, i falsi positivi tra i sani.
b) Il valore predittivo positivo indica invece quanti tra coloro che risultano positivi al test (veri più falsi) hanno realmente il diabete. Esso non è indipendente dalla frequenza della malattia (come lo sono sensibilità e specificità), ma aumenta proporzionalmente all’aumentare della frequenza (per questo si è specificato che il valore predittivo è 63% con una frequenza di diabete del 6%).
c) Tutte queste misure sono ottenute dal confronto con i risultati di un test che viene ritenuto ‘la verità’, nel nostro caso il test di tolleranza al glucosio; quest’ultimo, a sua volta, può essere validato attraverso un follow-up dei pazienti e una ripetizione delle misure.
Queste misure di accuratezza di un test si inscrivono nell’ambito della preoccupazione per la misura dell’errore che è propria della medicina quantitativa. Uno dei principi di quest’ultima potrebbe essere «non importa tanto non sbagliare, quanto essere consapevoli del grado e della rilevanza dell’errore». In secondo luogo, l’esempio mostra che il grado dell’errore dipende non soltanto dalle caratteristiche intrinseche del test (e, problema qui non affrontato, dall’esperienza di chi lo usa), ma anche dalla popolazione cui lo si applica: a parità di proporzione di falsi positivi (2%) e falsi negativi (34%) il valore predittivo è del 63% se la frequenza di diabete è del 6%, e del 15% se la frequenza è del 6‰ (come potrebbe essere in un Paese africano). Questo significa che lo stesso test, applicato con uguale perizia, diagnostica 63 veri diabetici ogni 100 soggetti positivi al test in una popolazione occidentale, ma solamente 15 veri diabetici (e 85 falsi) in una popolazione africana. Il medico che opera in Africa ma ha studiato in Europa potrà pensare di sbagliare molto più spesso di prima, o che il test di cui è dotato sia fallace, mentre la differenza è dovuta solamente alla diversa prevalenza della malattia.
In base al teorema di Bayes, un valore del 63% è detto anche probabilità a posteriori. Applicato al nostro caso specifico, il teorema dice che:
p(D|HbG)=pDp(HbG|D)/p(HbG)
dove D=diabete e HbG=valori patologici di emoglobina glicosilata. Quindi, la probabilità a posteriori p(D|HbG) di avere il diabete, dati valori alterati di emoglobina glicosilata, è calcolabile a partire dalla probabilità a priori, pD, di avere il diabete (frequenza della malattia in quella popolazione), dalla sensibilità del test, p(HbG|D) (quanto spesso compaiono valori alterati di emoglobina glicosilata nei diabetici) e dalla sua specificità, p(HbG) (quanto spesso compaiono tali valori nella popolazione generale).
Il ragionamento diagnostico può essere facilmente descritto a posteriori in base alla logica bayesiana: il paziente viene da noi, e formuliamo una probabilità a priori che abbia una certa malattia; poi applichiamo un test, e sulla base del risultato formuliamo una probabilità a posteriori, e così via. È evidente però che la diagnosi non viene posta in questo modo. Quella descritta è una razionalizzazione, utilissima per riconoscere gli errori e quantificarli, ma non una descrizione del concreto operare del clinico. Infatti è comunemente ritenuto che, per descrivere realisticamente il ragionamento diagnostico, all’impostazione empirica appena descritta manchi qualcosa, cioè un riferimento a quegli aspetti di Gestalt, o intuizione, che sono stati così spesso sottolineati nel lavoro del clinico. Non si tratta sicuramente di proprietà paranormali o irrazionali, ma di fenomeni di sintesi dell’esperienza e di rapido riconoscimento di pattern.
Complessità della clinica
Contrariamente ad alcune visioni semplicistiche, il lavoro del clinico non è né soltanto di natura empirica (basato cioè sull’accumulo di esperienze dirette e personali) né soltanto di natura teorica (basato sull’applicazione di conoscenze apprese dai libri e dai maestri). Esso deriva da una peculiare combinazione di osservazione empirica e di teoria, che non si ritrova in altre discipline. Quando il clinico osserva un paziente per fare una diagnosi, egli compie alcune operazioni che sono state ben descritte dai filosofi della scienza. Anzitutto la descrizione di segni e sintomi è guidata e condizionata da aspettative a priori e da un lavoro di interpretazione alla luce di teorie alternative. In questo senso il ‘fatto’ che il medico osserva non è mai lo stesso che il paziente o un estraneo possono descrivere, bensì è inserito in una rete di ipotesi diagnostiche e di teorie, e come tale viene visto in una luce diversa. Si può parlare infatti di theory-ladenness dell’osservazione medica, un termine introdotto nel 1958 dal filosofo Norwood R. Hanson per parlare della fisica, e che significa che ogni fatto (fisico o medico) è impregnato di teorie. Secondo questo pensiero, guardare è sempre un ‘vedere che’: ciò che si osserva nell’oscilloscopio, nel microscopio o in una lastra radiografica non è mai semplicemente l’elettrone, un batterio o una lesione tubercolare, ma quello che ci aspettiamo di vedere sulla scorta dei criteri in base ai quali i nostri strumenti sono stati costruiti, a loro volta dipendenti dalle teorie sottostanti. Nel ‘leggere’ una lastra, il radiologo non si limita certo a riscontrare delle opacità riconducendole alla sua precedente esperienza: egli interpreta invece ciò che vede alla luce della teoria della radiopacità dei diversi tessuti, alla disposizione anatomica dei diversi organi e strati e così via. Come hanno scoperto Hanson e altri filosofi della scienza, esiste un’entrance-knowledge, cioè una conoscenza in ingresso (o di sfondo) che rende intelligibile l’osservazione clinica e che è a essa strettamente intrecciata: senza la teoria sulla radiopacità dei tessuti le lastre sono incomprensibili, così come senza la teoria sull’omeostasi è incomprensibile la misurazione della glicemia. In questi casi, letteralmente, il medico ‘vede altro’ rispetto al profano, il quale capirà che nella sua lastra del torace c’è una lesione tubercolare solamente se il radiologo gli fornirà l’opportuna conoscenza di sfondo. Il concetto di entrance-knowledge fu introdotto da Wolfgang Stegmüller negli anni Settanta per far notare come vi siano tratti in comune tra l’identificazione di un quasar e l’interpretazione di una poesia: in entrambi i casi, infatti, si comprende correttamente il messaggio solo se il segnale viene posto nel giusto rapporto con il contesto. Questa comprensione implica decidere che cosa, nel contesto, è solo ‘rumore di fondo’ e che cosa invece dà senso al messaggio.
Le considerazioni che precedono dovrebbero essere chiare se si pensa alla diagnosi differenziale: in presenza di una ipoglicemia, per es., la pregressa assunzione di un farmaco può essere puro rumore di fondo oppure orientare correttamente la diagnosi verso l’ipoglicemia iatrogena; l’esclusione della causa iatrogena indurrà a ricercare attivamente un insulinoma. Fare diagnosi differenziale significa talora effettuare un ‘riarrangiamento’ dei dati disponibili, secondo il principio della pattern recognition descritto nel 1958 da Hanson: è noto l’esempio, più volte ripreso anche da Ludwig Wittgenstein e da Thomas Kuhn, della testa di anatra che, se guardata da una diversa angolatura, risulta essere un coniglio. Lo stesso segno o sintomo, alla luce del contesto, può guidare verso un determinato orientamento diagnostico o verso un altro. Anche nell’esempio dell’anatra/coniglio, la percezione dell’uno o dell’altro messaggio dipende dal rapporto tra segnale e sfondo: riducendo l’ambiguità di tale rapporto, per es. con l’aggiunta di altri dettagli anatomici, la figura emerge nettamente dal rumore di fondo.
Tutte queste considerazioni sono rilevanti e vanno al di là della semplice valutazione quantitativa per almeno due motivi: il primo è che quasi nessuna malattia presenta segni o sintomi patognomici, dotati cioè di un valore predittivo positivo del 100%: segni e sintomi sono ambigui e vanno interpretati alla luce dello sfondo, del contesto. Il secondo motivo è che la diagnosi di molte malattie viene posta perlopiù sulla base di una costellazione di segni o sintomi (non di uno solo), nessuno dei quali è necessario e sufficiente per la diagnosi. Per es., secondo il noto manuale Harrison’s principles of internal medicine (pubblicato in numerose edizioni a partire dal 1950), la diagnosi di lupus eritematoso viene sospettata in base a manifestazioni articolari e leucopenia; tuttavia, le prime sono presenti nel 95% dei pazienti e la seconda nel 61%. La diagnosi viene considerata ‘probabile’ in presenza di 4 o più criteri positivi in un insieme di 11 criteri dati. In queste circostanze, saper ‘ricombinare’ segni e sintomi in modo appropriato conferisce l’abilità diagnostica che è una mescolanza di esperienza personale, abilità logica e uso delle probabilità.
La scelta della soglia quando i valori del test sono continui
Capita spesso che la variabile che misuriamo abbia una distribuzione continua, come la pressione arteriosa, la glicemia, il colesterolo e così via. In tutti questi casi non esiste un valore naturale ‘di soglia’ che separa i sani dai malati. Come facciamo allora a stabilire chi è malato? Prima di rispondere dobbiamo notare un aspetto importante: porre la soglia molto in alto significa aumentare il rigore con il quale si stabilisce che il soggetto ha la malattia, ossia si riduce il numero di falsi positivi ma al contempo aumenta quello di falsi negativi. Vale a dire che nel caso delle variabili continue, stabilire la soglia comporta un trade-off (compromesso) tra sensibilità e specificità: più la soglia è bassa più il test sarà sensibile e meno sarà specifico. La risposta alla domanda precedente può essere di due tipi. Il primo approccio può essere, ancora una volta, quantitativo, e consistere nel costruire una curva ROC (Receiver Operator Characteristic), come quella mostrata nella figura 1. La curva ROC non è altro che la curva che si ottiene ponendo su un grafico i diversi valori della variabile, e per ogni valore il livello di sensibilità e specificità. Se la curva coincide con la linea mediana, ossia se l’area sovrastante la curva è pari al 50%, allora la capacità diagnostica del test è nulla, equivale cioè a tirare in aria una moneta. Al contrario la capacità diagnostica è massima quando la curva si appiattisce sull’angolo superiore sinistro, corrispondente al 100% di sensibilità e specificità. Per una data curva, la soglia teoricamente migliore è il valore del test corrispondente al punto più vicino all’angolo superiore sinistro.
Questo approccio tuttavia è teorico, e va confrontato con le esigenze della clinica. Infatti la scelta della soglia è condizionata da altri elementi, che includono la curabilità della malattia, l’invasività dei test diagnostici successivi a quello in esame e così via. A seconda di questi aspetti si può preferire un’alta sensibilità oppure un’alta specificità. Consideriamo due esempi estremi, il cancro del pancreas e la fenilchetonuria. Il primo è un malattia sostanzialmente incurabile (4% di sopravvivenza a 5 anni dalla diagnosi): un marker tumorale misurato nel siero che ne consentisse la diagnosi precoce non avrebbe molti vantaggi, mentre a un valore positivo seguirebbero altri test decisamente invasivi e terapie con pesanti effetti collaterali. Questa è pertanto una situazione in cui si preferisce di gran lunga un’elevata specificità, perché non vi è una forte motivazione a porre la diagnosi a tutti i costi, e le conseguenze dei falsi positivi sono drammatiche. Il contrario si verifica con la fenilchetonuria. Questa è una malattia congenita, che si può curare semplicemente attraverso una restrizione alimentare (evitando cibi contenenti fenilalanina), senza la quale il bambino va incontro a una sindrome neurologica irreversibile. È chiaro che in questo caso lo screening neonatale è giustificato e si basa su un test che premia la sensibilità a scapito della specificità: mentre una diagnosi mancata ha conseguenze irreparabili, un risultato falsamente positivo ne è quasi privo, poiché tutti i positivi vengono sottoposti a una seconda prova, e nell’ipotesi peggiore devono sottostare a una restrizione alimentare per un breve periodo.
Precisione, accuratezza, validità
Due concetti che vanno chiaramente distinti sono quello di precisione e di accuratezza. Un test è accurato se dà origine a un numero limitato di falsi positivi e di falsi negativi: il fatto che ciò avvenga va attribuito a caratteristiche sistematiche e intrinseche al test, non all’effetto del caso. L’accuratezza misura pertanto un errore sistematico, che tende a ripetersi anche se il campione su cui lo applichiamo è molto grande. Al contrario, la precisione ha a che fare con le oscillazioni casuali di un’osservazione, dovute ai piccoli numeri su cui essa si basa. La precisione è pertanto una misura dell’errore random o casuale, che dipende dalle dimensioni della popolazione osservata.
Un altro termine che si trova frequentemente è quello di ‘validità’. Nel caso di un test diagnostico la validità si riferisce alla capacità del test di identificare correttamente ciò che esso mira a identificare, ed è in genere definita come la somma dell’accuratezza e della riproducibilità, del fatto cioè che il test dia risultati simili se applicato, sugli stessi soggetti, da esaminatori diversi. Il concetto di validità è anche associato a quello di bias: un’osservazione è valida se non è affetta da distorsioni o bias (errori sistematici). Passiamo qui dal campo della diagnosi a considerazioni generali sulla validità di qualunque osservazione medica: per essere interpretabile essa si deve basare su un campione sufficientemente ampio (cioè deve essere precisa) e non deve essere distorta (affetta da bias: deve cioè essere valida). Purtroppo la storia della medicina è un sequenza di errori di osservazione legati sia alla esiguità di campioni raccolti sia alla presenza di bias. I bias vengono usualmente ricondotti a due tipi principali, quelli legati alla selezione dei soggetti e quelli legati alla raccolta delle informazioni. Per es., se studiamo le cause degli incidenti stradali intervistando le vittime e i testimoni al Pronto soccorso, avremo un’immagine assolutamente distorta se escludiamo il sabato sera (il problema dell’alcol non emergerà in tutta la sua gravità): questo è un bias di selezione. D’altra parte, un bias di informazione può facilmente verificarsi se le persone dedite all’alcol, per timore di sanzioni danno risposte mediamente meno accurate ed evasive rispetto alle altre persone.
Le conseguenze del bias dovrebbero essere evidenti: esso porta infatti a sovrastimare o sottostimare sistematicamente un problema, o addirittura a creare falsi positivi o falsi negativi (per es., i farmaci antipertensivi non causano il cancro della mammella, come inizialmente sembrava). È importante ricordare che i bias si evitano migliorando il disegno dello studio e la sua conduzione, non aumentando le dimensioni.
Concordanza diagnostica
Un aspetto che va considerato separatamente dai precedenti è quello della concordanza diagnostica. Quanto concordano due medici nel porre la diagnosi? Naturalmente la domanda non può essere posta così brutalmente, perché la risposta dipende dalla malattia, dalla sua gravità, dalle caratteristiche del paziente ecc. (vi sono situazioni in cui anche i medici più ignoranti concorderebbero, altre che richiedono un’incredibile sofisticazione diagnostica). Ma a noi qui interessa la metodologia che consente – ancora una volta – di affrontare il problema in termini quantitativi. Il concetto di fondo, sicuramente antintuitivo, è che due medici possono concordare, almeno in parte, semplicemente per caso. Supponiamo che i nostri due medici non applichino criteri razionali, ma tirino a indovinare o addirittura lancino una moneta: su 100 pazienti, ci aspettiamo che mediamente (senza cioè considerare gli scarti dovuti al caso) per 25 pazienti i due medici concordino sulla presenza della malattia, per altri 25 sulla sua assenza, e per i restanti 50 siano discordi. Vi sarà quindi una concordanza del 50% anche se la decisione diagnostica è presa tirando in aria una moneta. È per questo motivo che la concordanza viene calcolata in un modo abbastanza complesso, depurando la concordanza osservata da quella che si otterrebbe per caso (attraverso il cosiddetto test kappa).
Spesso i medici hanno livelli di concordanza lontani dal 100% e vicini a quelli che si otterrebbero per caso. In un’indagine sull’interpretazione delle lastre mammografiche (P. Vineis, G. Sinistrero, A. Temporelli et al., Inter-observer variability in the interpretation of mammograms, «Tumori», 1988, 74, 3, pp. 275-79), i radiologi erano concordi per il 30-40%. Per aumentare il grado di concordanza, innanzitutto, bisogna studiare le cause della discordanza. Per es., i clinici tendono a discordare maggiormente se si usa una classificazione complessa, con molte categorie intermedie. In secondo luogo, di fronte a una concordanza limitata è opportuno prevedere un’attività formativa, consistente, per es., in un riesame collettivo delle lastre sulle quali vi era discordanza, al fine di identificare gli elementi di dissenso o di incertezza; chiariti questi, si può pensare a una successiva rilettura di nuove lastre e così via, in un processo di miglioramento continuo della capacità diagnostica.
La terapia: provare l’efficacia di un farmaco
La cateratta è una conseguenza dell’invecchiamento, e consiste nell’opacizzazione del cristallino, con gravi disturbi visivi e impedimenti alle funzioni della vita quotidiana. L’operazione della cateratta cominciò a essere effettuata con successo già dal 1753, dopo che fu chiarita la vera natura della malattia che si riteneva dovuta a un travaso di liquidi (dal greco kataráktes «cascata»). Ovviamente non tutte le operazioni erano coronate da successo, a causa delle frequenti infezioni, responsabili della perdita completa della vista. L’operazione della cateratta si è mantenuta uguale, pur con numerose e sostanziali modifiche tecniche, fino ai giorni nostri, basandosi su un principio semplice e ovvio, quello anatomico dell’asportazione chirurgica del cristallino opacizzato.
Nello stesso periodo, l’insufficienza cardiaca veniva ancora trattata ricorrendo largamente alle sanguisughe o agli infusi di foglie di digitale. L’uso delle sanguisughe, ormai abbandonato, si basava sull’erroneo presupposto che per eliminare la ritenzione di liquidi, propria dell’insufficienza cardiaca, fosse sufficiente sottrarre sangue al disgraziato paziente. In quanto alla digitale, essa è ancora uno dei farmaci più utili per la cura delle cardiopatie, ma viene somministrata in forma purificata e con dosaggi enormemente più precisi rispetto all’originario trattamento con infusi. Soprattutto nel Settecento le dosi di digitale venivano prescritte in base a un principio erroneo, quello di indurre vomito e diarrea in modo da provocare nel paziente l’eliminazione dei liquidi corporei; oggi, invece, vomito e diarrea sono considerati l’espressione di un’intossicazione e possono comportare seri rischi di ulteriori complicazioni.
Tre terapie, con tre storie molto diverse. Tutte e tre sono nate sulla base di un presupposto (o una teoria) di tipo ‘fisiopatologico’: si riteneva cioè che il meccanismo di azione della terapia fosse tale da garantire il suo successo. Questo presupposto era fondato per la cateratta (come lo è per l’ingessatura di un arto fratturato, per il tamponamento di un’emorragia ecc.), ma non lo era per le sanguisughe, ed era sbagliato per una terapia pur efficace come quella con la digitale, che funziona, ma per motivi ben diversi da quelli immaginati. La spiegazione fisiopatologica non è dunque sempre una buona guida e infatti per dimostrare l’efficacia dei farmaci, a differenza dell’operazione della cateratta, sono state inventate tecniche più sofisticate.
Tuttavia, la cateratta rappresenta un buon esempio anche per un altro motivo. Virtualmente quasi tutti avremo bisogno di un’operazione di cateratta, a causa dell’allungamento della vita. Il crescente numero di interventi chirurgici comporta un incremento dei costi per i sistemi sanitari e liste di attesa imponenti per chi vuole farsi operare, tanto che tutti i Paesi avanzati hanno escogitato metodi ingegnosi per ridurre tali liste. Un’esperienza interessante è stata, in particolare, quella della Nuova Zelanda, dove nel 1996 il governo elaborò un progetto che comportava l’assegnazione di un punteggio a ogni paziente che avesse bisogno di un intervento chirurgico, al fine di determinare la priorità clinica di tale intervento (Hadorn, Holmes 1997). Il punteggio era basato su criteri come il grado di avanzamento della malattia, la sua gravità, l’entità della compromissione funzionale e la capacità di svolgere funzioni sociali. Per es., il punteggio relativo alla cateratta si basava sull’acuità visiva, sulla limpidezza della visione, sull’entità della perdita della vista (anche per motivi diversi dalla cateratta), su altri sostanziali motivi di disabilità, e sulle conseguenze relative alla capacità lavorativa e all’eventuale dipendenza dagli altri. A ciascuno di questi criteri veniva assegnato un peso, attraverso un processo complesso e approfondito che coinvolgeva gruppi di lavoro misti che comprendevano medici ma anche economisti e rappresentanti dei pazienti. Una volta definito il punteggio, lo Stato avrebbe finanziato, sulla base del budget disponibile, esclusivamente gli interventi che si trovavano oltre una certa soglia. Ci si attendeva che i pazienti con un grado di cateratta lieve si rivolgessero al mercato privato o aspettassero un peggioramento della situazione. Il sistema descritto, anche se ingegnoso, non era esente da difetti, e non è mai stato attuato; dà un’idea, tuttavia, del crescente problema di definire forme di razionalizzazione dell’erogazione dell’assistenza sanitaria.
Come questi pochi esempi suggeriscono, non è sufficiente pensare che un certo intervento sarà efficace, in base a quello che abbiamo definito un presupposto fisiopatologico, per estenderlo a tutti i pazienti. In taluni casi il presupposto è proprio sbagliato, e prima di applicare la terapia dobbiamo disporre di prove più convincenti. Ma anche quando le prove sono inconfutabili, la disponibilità della terapia per tutti i pazienti può creare problemi organizzativi o economici di grande rilevanza politica, come mostra il caso della Nuova Zelanda.
Finalità e metodi della sperimentazione randomizzata
I problemi sollevati dal caso Di Bella
A proposito degli intrecci tra ricerca, etica e politica, tutti abbiamo seguito sui giornali il ‘caso Di Bella’ (1997-1999), relativo al dibattito sul metodo terapeutico contro il cancro proposto da Luigi Di Bella. Esso ha posto gravemente in crisi la medicina italiana, per due motivi opposti. Da un lato, ci si è resi conto che spesso le terapie proposte ai pazienti affetti da un tumore hanno un’efficacia limitata e comportano disagi ed effetti collaterali importanti. Non sempre i benefici e i rischi vengono adeguatamente prospettati al paziente, consentendogli di prendere una decisione consapevole. Il caso Di Bella ha insomma fatto emergere un reale disagio nei pazienti e nelle loro famiglie. Dall’altro lato, le basi della terapia Di Bella erano estremamente fragili, in quanto essenzialmente fisiopatologiche, ossia fondate su un presupposto teorico riguardante il meccanismo di azione, e non molto di più.
Le sperimentazioni cliniche
Lo standard per dimostrare l’efficacia di un farmaco è oggi costituito dalla sperimentazione clinica basata su controlli casuali (RCT, Randomized Controlled Trial), che si è imposta per motivi pragmatici. Se va riconosciuta la sua efficacia, bisogna però ammettere anche i suoi limiti. In particolare, va rilevato come l’RCT si presti a studiare interventi semplici (per es., terapie farmacologiche o chirurgiche) ma non interventi complessi, altamente variabili e per i quali l’interazione tra terapeuta e paziente ha un ruolo centrale. L’ideale dell’RCT è quello della massima semplificazione e frammentazione del setting terapeutico: se si scorre l’elenco delle sperimentazioni in corso secondo l’archivio della Cochrane library (un insieme di banche dati in cui dal 1995 si trovano documenti di sintesi sull’efficacia e la sicurezza degli interventi sanitari), si vedrà che la grande maggioranza riguarda sottogruppi molto specifici e definiti di pazienti trattati con protocolli terapeutici alquanto sofisticati. Con molta difficoltà, invece, l’efficacia delle psicoterapie o dell’educazione sanitaria può essere valutata solamente con l’RCT: sebbene una prova di efficacia offerta da una RCT ben disegnata abbia un valore probatorio molto elevato, l’assenza di efficacia di una psicoterapia oppure di un intervento educativo entro tale modello di ricerca assume un valore abbastanza limitato. Contesti complessi come la relazione medico-paziente o l’intervento psicoterapeutico non possono essere facilmente ricondotti all’ipersemplificazione richiesta dall’RCT. L’entusiasmo per le prove empiriche generato dall’EBM non deve essere tale da indurre un rifiuto acritico di interventi complessi e non valutabili secondo il modello RCT.
La pratica clinica
Chi si occupa di diffusione delle tecnologie sanitarie ha descritto due ‘stili’ estremi nell’aggiornamento della pratica clinica, tra i quali si colloca la grande maggioranza dei comportamenti. Il primo, dell’‘innovatore a tutti i costi’, caratterizza chi è disposto a modificare la propria pratica sulla base dell’ultimo articolo uscito su una rivista di sufficiente prestigio. Il secondo, lo stile del ‘conservatore’, contraddistingue i clinici che fanno ancora riferimento al libro di testo degli studi universitari, oppure a qualche edizione più recente di un testo di medicina interna; entrambi gli stili presentano difetti piuttosto seri. L’innovatore estremo è potenziale vittima di errori di valutazione anche gravi: il fatto che un articolo sia pubblicato su una rivista prestigiosa come, per es., «The lancet» non è sempre garanzia di elevata qualità, e sono numerosi gli esempi di risultati del tutto contrastanti pubblicati su riviste autorevoli. Inoltre, il singolo articolo richiede una ‘traduzione’ per adattarlo alle circostanze e alle specificità locali (la generalizzabilità dei risultati non è sempre scontata, soprattutto perché le RCT tendono a studiare gruppi sempre più specifici di pazienti). Si presume che l’entusiasta che muta la pratica in base a un singolo risultato disponga delle competenze metodologiche per valutare tutti questi aspetti, il che molte volte non è vero.
D’altra parte, il conservatore non gode di una situazione migliore. I libri di testo sono ‘rassegne di rassegne’ e soffrono pertanto di tutti i potenziali difetti di queste ultime. Come è stato rilevato ormai molte volte e da molto tempo, in passato le rassegne tendevano a essere soggettive e impressionistiche, basate su una raccolta non sistematica della letteratura o addirittura sulle propensioni soggettive dell’autore. Quando le maggiori riviste hanno iniziato a chiedere garanzie agli autori per evitare tali limitazioni, ci si è accorti di problemi metodologici oggettivi oltre a quelli soggettivi: a) come valutare la ‘letteratura grigia’, quella cioè non pubblicata perché prodotta nell’ambito delle sperimentazioni condotte dall’industria; b) come trattare il publication bias, ossia il fatto che le riviste non pubblicano volentieri gli studi negativi (specie se di piccole dimensioni) mentre pubblicano gli studi positivi, anche se piccoli, creando una distorsione a favore di un’efficacia superiore a quella reale; c) il diverso livello qualitativo degli studi, di cui bisogna tenere conto per essere equilibrati nel giudizio: uno studio negativo proveniente da una buona RCT in cui la compliance e il follow-up sono stati vicini al 100%, non può pesare tanto quanto uno studio positivo di livello qualitativo nettamente inferiore; d) le dimensioni degli studi: uno studio molto grande – a parità di livello qualitativo del disegno – dovrebbe pesare più di uno studio piccolo, in quanto fornisce stime molto più stabili sul piano statistico.
Tutti questi problemi, riconosciuti nel corso degli anni Settanta e Ottanta, sono stati affrontati e almeno parzialmente risolti nell’ambito della metanalisi, il più noto degli strumenti statistici associati con le rassegne sistematiche, per esempio nella citata Cochrane library. La metanalisi è una tecnica che consente di analizzare congiuntamente diverse RCT, aumentando considerevolmente le dimensioni complessive e dunque rendendo più stabili le stime di efficacia (intervalli di confidenza più ristretti). Materialmente, la metanalisi consiste nel sommare insieme tutte le osservazioni condotte nelle RCT selezionate; quando è possibile avere accesso ai dati originari, allora si può effettuare la metanalisi più appropriata, in quanto si possono analizzare i dati in tutte le modalità desiderate (per sottogruppi di confondenti, o tenendo conto delle interazioni). Il prodotto finale della metanalisi è una stima riassuntiva dei risultati di RCT multiple, secondo le modalità/disaggregazioni desiderate (quando i dati lo consentono).
Al problema, già accennato, del publication bias, si cerca di dare risposta attraverso una preliminare analisi dei dati, per es. sotto forma di funnel plot, un grafico a imbuto (fig. 2), che riporta i risultati delle diverse RCT sulle ordinate (sotto forma perlopiù di benefici relativi, detti odds ratios, OR, o del loro logaritmo) e sulle ascisse le dimensioni degli studi o qualche altra misura di variabilità campionaria associata alla numerosità delle osservazioni, per es. l’errore standard. Se non vi è publication bias, il grafico ha la forma simmetrica di un imbuto regolare avente come asse di rotazione la media delle stime di efficacia. La forma a imbuto deriva dal fatto che studi più grandi presentano minori oscillazioni delle stime intorno alla media, mentre negli studi piccoli le oscillazioni rispetto alla media sono più marcate.
Il secondo punto affrontato dalle metanalisi è quello della valutazione qualitativa del disegno. In questo caso, vari autori hanno proposto sistemi di punteggi da assegnare all’efficacia della ‘randomizzazione’, alla chiarezza della definizione diagnostica della malattia, alla stratificazione per gravità, estensione e altre caratteristiche della malattia, alla completezza del reclutamento, all’aderenza al protocollo da parte dei soggetti reclutati, alla presenza di malattie/terapie concomitanti, alla durata e completezza del follow-up, alla qualità dell’accertamento degli esiti, alla cecità nella conduzione dello studio, alla qualità delle analisi statistiche e così via. Dall’assegnazione di questi punteggi si ricava uno score complessivo che è poi utilizzato per stratificare le analisi statistiche. In altre parole, le stime aggregate di efficacia terapeutica vengono prodotte separatamente per diversi punteggi qualitativi: se esse non cambiano, possiamo inferire che la realizzazione concreta dei diversi studi non abbia influito sui risultati; se le stime di maggiore efficacia corrispondono ai livelli qualitativi più bassi, possiamo pensare che si siano verificati bias che portavano a sovrastimare l’effetto; infine, se la maggiore efficacia viene osservata in associazione con i punteggi più alti, possiamo ritenere che l’effetto degli errori di disegno/conduzione degli studi sia stato quello di ‘annebbiare’ o sottostimare la relazione fra trattamento ed esito.
In terzo luogo, l’influenza delle dimensioni delle RCT è valutata nelle metanalisi mediante la stratificazione per numerosità dei campioni. Il metodo più spesso utilizzato è quello di Mantel-Haenszel (MH), che consiste nello stimare un’unica misura di efficacia (OR), pesata per le dimensioni delle RCT:
ORMH=Σ(aidi/Ni)/Σ(bici/Ni)
ove a indica i soggetti guariti sottoposti al trattamento in studio; b i guariti sottoposti al placebo; c e d coloro che non sono migliorati rispettivamente nel gruppo in studio e nel gruppo placebo; Ni il numero totale (a+b+c+d) di soggetti in ogni strato; i lo strato generico (i=1, 2, 3,..., n). In questo modo, l’efficacia dimostrata da una certa RCT viene rapportata alle sue dimensioni, cioè alla numerosità del campione su cui è basato.
L’OR, come detto, è una misura di efficacia relativa; ci riferiamo a esso essenzialmente perché costituisce la base delle metanalisi della Cochrane library. Va usato, tuttavia, con una certa cautela, in quanto non dà alcuna idea della frequenza assoluta degli eventi che si intendono evitare (recidive, decessi). Per questo conviene associare all’OR anche l’NNT (Number Needed to Treat), che ci dice quante sono le persone che dobbiamo trattare con il farmaco per avere almeno un successo terapeutico.
Le raccomandazioni
Il fatto che la qualità del disegno degli studi sia molto influente nell’interpretazione dei risultati, è dimostrato dal modo in cui diversi organismi utilizzano l’EBM per produrre linee-guida per la pratica clinica. Non ci soffermeremo qui su linee-guida e raccomandazioni, rimandando ad altri testi (Grilli, Penna, Liberati 1995). Ci limiteremo a riportare uno dei tanti sistemi di classificazione delle prove scientifiche (quello dell’American society of clinical oncology, ASCO) e a commentarlo. L’ASCO propone una classificazione articolata in cinque livelli delle prove scientifiche che possono essere ottenute:
1) dalla metanalisi di RCT multiple e ben disegnate; le sperimentazioni devono essere coerenti tra loro e sufficientemente ampie (elevata potenza statistica);
2) da almeno una RCT ben disegnata, o da sperimentazioni multiple con bassa potenza statistica;
3) da studi quasi sperimentali (controllati ma non randomizzati), ben disegnati;
4) da studi non sperimentali, non controllati ma ben disegnati;
5) da descrizioni di singoli casi e serie cliniche.
Alla classificazione delle prove scientifiche segue la stesura di una raccomandazione, che nel caso dell’ASCO è in quattro livelli (da A, cioè la pratica è altamente raccomandata, fino a D, cioè la pratica è sconsigliata). Questa duplice classificazione è giustificata dal fatto che la formulazione di raccomandazioni per la pratica clinica non è più interamente compresa nell’orizzonte dell’EBM; per quanto le raccomandazioni siano basate su sperimentazioni cliniche, esse includono aspetti che non sono interamente giustificati da prove scientifiche, come le preferenze dei pazienti, i costi, l’applicabilità pratica, le alternative, i valori della società. Questo è chiaro se si scorrono le raccomandazioni dell’ASCO: a un livello di prove scientifiche 1 può infatti corrispondere una raccomandazione C (cioè si raccomanda solo molto debolmente quella pratica), o viceversa un basso livello di prove può accompagnarsi a una raccomandazione A (ma questo avviene più raramente). I motivi sono abbastanza ovvi, ma devono essere resi il più possibile trasparenti: un farmaco può essere molto efficace, come mostrato dalle RCT, ma anche costoso, o poco gradito ai pazienti. Il passaggio dal riassunto delle prove scientifiche alle raccomandazioni, pertanto, non è né automatico né scontato, e comporta considerazioni largamente extrascientifiche.
Conclusioni
L’EBM può essere definita come l’introduzione di metodi razionali e quantitativi nella valutazione della pratica clinica. Essa include: una stima dell’accuratezza e del valore predittivo (in diverse circostanze d’uso) dei test diagnostici; un riferimento alle RCT come gold standard della valutazione di efficacia dei trattamenti; il calcolo di misure come l’OR, con i corrispondenti intervalli di confidenza; il calcolo dell’NNT; la conduzione di rassegne sistematiche degli studi clinici con criteri espliciti, con l’uso di metodi statistici come la metanalisi e con l’assegnazione di punteggi per gli aspetti qualitativi; infine, l’uso di metodi razionali e sistematici per il trasferimento dei risultati della ricerca nella pratica.
L’EBM è una condizione necessaria ma non sufficiente per una buona pratica clinica. Essa è necessaria in quanto rappresenta l’unico modo efficace per sintetizzare un gran numero di osservazioni mediche, valutarne gli aspetti qualitativi, riconoscere e correggere le distorsioni, quantificarne l’impatto sulla popolazione, trasferire i risultati della ricerca nella pratica. Non è però sufficiente per diversi motivi.
a) Spesso le RCT non sono attuabili per motivi pratico-organizzativi: numerose terapie in uso sono ‘orfane di RCT’.
b) Anche quando le RCT siano state condotte, la loro qualità può essere modesta o scarsa: per es., se consultiamo la Cochrane library, scopriamo che per la terapia della giardiasi esistono 31 RCT, di cui solamente una, però, di buon livello qualitativo.
c) Anche quando siano disponibili RCT di buon livello, e anche qualora sia stata effettuata una buona rassegna sistematica con tanto di metanalisi, il passaggio più difficile è il trasferimento nella pratica, che include numerosi aspetti, alcuni dei quali del tutto inesplorati: la rilevanza di quella tecnologia medica per lo specifico contesto in cui si opera; le ricadute organizzative, economiche ed etiche; la discrepanza fra efficacia attesa (teorica) ed effettività; l’applicazione al singolo paziente di conoscenze desunte dallo studio di popolazioni; la predizione degli esiti nel singolo paziente, tenendo conto delle altre patologie e trattamenti concomitanti.
d) Infine, quella tra medico e paziente è una relazione del tutto speciale, in cui l’aspetto umano e psicologico ha una sua autonoma (seppure parziale e limitata) efficacia curativa. Tutti questi aspetti di contesto e relazionali non fanno parte dell’EBM, ma vanno maggiormente approfonditi e a essa integrati.
Bibliografia
R. Grilli, A. Penna, A. Liberati, Migliorare la pratica clinica. Come produrre ed implementare linee-guida, Roma 1995.
M. Bobbio, Trial clinici. Come interpretare e applicare i risultati di una ricerca scientifica, Torino 1996.
A.L. Peters, M.B. Davidson, D.L. Schriger, V. Hasselblad, A clinical approach for the diagnosis of diabetes mellitus. An analysis using glycosilated hemoglobin levels, «JAMA. The journal of the American medical association», 1996, 276, 15, pp. 1246-52.
D.C. Hadorn, A.C. Holmes, The New Zealand priority criteria project, «BMJ. British medical journal», 1997, 314, 7074, pp. 131-38.
R. Doll, Controlled trials. The 1948 watershed, «BMJ. British medical journal», 1998, 317, 7167, pp. 1217-20.
S.E. Straus, W.S. Richardson, P. Glasziou, R.B. Haynes, Evidence-based medicine. How to practice and teach EBM, Edinburgh 20053 (trad. it. Roma 2007).
T. Greenhalgh, How to read a paper. The basics of evidence-based medicine, Malden (Mass.) 20063.