Questo articolo è stato pubblicato su LinkedIn, clicca per leggere...
Nel 1959, su Science, Robert Ledley e Lee Lusted proposero i casi clinici complessi come banco di prova per i sistemi computerizzati di supporto alla diagnosi medica. Era una scommessa audace, in un'epoca in cui il termine "intelligenza artificiale" aveva quattro anni di vita, era nato a Dartmouth nell'estate del 1956, e il computer più potente di Harvard occupava un piano e diagnosticava con la disinvoltura di un manuale bayesiano stampato male. A distanza di oltre mezzo secolo, con il paper Performance of a large language model on the reasoning tasks of a physician uscito a fine aprile 2026 sulla stessa rivista, Brodeur, Buckley, Kanjee e i loro coautori chiudono quel ciclo. Il modello di OpenAI o1 batte centinaia di medici certificati su sei tipi diversi di ragionamento clinico. E non di poco.
I numeri arrivano in ordine sparso, ma il disegno è leggibile. Sui Clinicopathological Conferences del New England Journal of Medicine, archivio storico dei casi più ostici di internal medicine, o1-preview include la diagnosi corretta nel 78.3% dei casi, e la indica come prima ipotesi in più di metà. Sulle Healer Cases, vignette didattiche con punteggio R-IDEA validato, ottiene il punteggio massimo su 78 risposte su 80. GPT-4 si fermava a 47. Gli specialisti senior a 28. Gli specializzandi a 16. Su una serie di management cases costruita per imitare il lavoro reale del medico interno, registra una mediana dell'86%, contro il 41% dei medici che usavano GPT-4 come assistente e il 34% di quelli con risorse tradizionali. Non qualche medico. L'intera distribuzione.
Il salto da GPT-4 a o1 non si misura in percentuali. È un cambio di stato. I reasoning models, che dedicano tempo computazionale al pensiero invece che alla pura produzione del token successivo, ridisegnano il modo in cui questi sistemi affrontano l'incertezza. Chi ha provato a costruire pipeline diagnostiche tradizionali sa cosa separa un sistema che restituisce una lista da un sistema che ragiona prima di restituirla: la stessa distanza che corre tra un indice di Wikipedia e un'enciclopedia ragionata.
La parte più interessante del paper, però, non sta nei benchmark. Sta nel pronto soccorso del Beth Israel Deaconess di Boston.
Per due settimane, settantanove pazienti consecutivi sono stati seguiti su tre punti di osservazione: il triage iniziale dell'infermiere, la valutazione del medico d'urgenza, l'ammissione in reparto. Ogni cartella, in cieco, è andata sia a o1 sia a due specialisti di internal medicine. Le diagnosi differenziali sono state mescolate, ripulite del lessico identificativo e giudicate da altri due medici, ai quali era chiesta una sola cosa: dire chi le avesse prodotte, umano o macchina. La risposta più frequente, nell'84% dei casi, è stata "non saprei". E il dato che fa più fatica a passare è un altro ancora: il vantaggio di o1 è massimo proprio al triage, dove l'informazione scarseggia e la decisione preme. Si assottiglia man mano che i dati si accumulano e il quadro si stringe.
Vale la pena fermarsi un attimo. A una generazione di clinici si è insegnato che l'esperienza serve a navigare l'ambiguità: il medico anziano vede pattern dove il giovane vede sintomi sparsi. Il paper dice qualcosa di scomodo. Nel regime di pochi indizi, il modello AI si comporta meglio dell'euristica del professionista. L'asimmetria informativa, terreno di vantaggio dell'esperienza, si rovescia in svantaggio.
Gli autori sono onesti sui confini di quello che hanno mostrato. Hanno valutato il modello da solo, non il medico assistito dal modello: una configurazione utile per isolare le capacità del sistema. Nella pratica, a mio avviso, è nell’interazione tra medico e modello che si gioca la partita più rilevante. Hanno studiato sei modi di ragionare clinicamente su decine possibili, concentrandosi su internal medicine ed emergency, senza toccare chirurgia o ostetricia. Soprattutto, hanno studiato la diagnosi su carta. Il medico in pronto soccorso fa anche l’esame fisico, percepisce il colorito di una pelle, ascolta un respiro, rassicura una madre, decide in trenta secondi. Nulla di tutto questo entra nel paper.
Eppure è proprio in quel residuo che si capisce dove sta andando il valore del clinico. Non nella ricostruzione del puzzle, attività in cui un sistema ben addestrato lavora a un livello difficile da pareggiare, ma nella mano sulla spalla, nella domanda posta al momento giusto, nell'esame fisico che ancora non ha un sostituto.
Va detto anche che il paper è già storia. Il modello o1-preview risale a settembre 2024; il lavoro circolava in forma preliminare già allora ed è stato rivisto nel 2025 (arxiv: 2412.10849), prima della pubblicazione su Science nel 2026. In questo campo, due anni non sono un intervallo: sono una discontinuità. I numeri raccontati qui sono pavimento, non soffitto. Aspettare per farsi delle domande significa calcolare il tempo con l'orologio sbagliato.
Il rischio reale, alla fine, non è la sostituzione del medico da parte dell'AI. È che, per economia o per inerzia, il muscolo della diagnosi smetta di essere allenato. La memoria procedurale di una professione si conserva solo se si esercita. Se una generazione di clinici resterà capace di pensare clinicamente quando smetterà di doverlo fare ogni giorno è una domanda che il paper non pone, e che lascia in eredità a chiunque lo legga.
Una nota aggiuntiva
Negli stessi mesi del 2026, su arXiv, Fraile Navarro, Magrabi e Coiera (Macquarie University) hanno replicato uno studio Nature Medicine secondo cui ChatGPT Health avrebbe sotto-triagiato il 51,6% delle emergenze. Testando cinque frontier LLM, hanno isolato la causa nel formato A/B/C/D forzato (una scelta multipla obbligatoria tra quattro livelli di urgenza, senza risposta libera): rimossa quella costrizione, GPT-5.2 e Gemini 3.1 Pro passano da 0-24% al 100% di risposte corrette sui casi di asma. I modelli Claude restano al 100% in entrambe le condizioni. Nei benchmark di clinical AI, la metodologia di valutazione contribuisce al risultato quanto il modello.