Chiedere a un modello linguistico di ruotare mentalmente un oggetto tridimensionale solleva una difficoltà che precede la risposta. Il problema non è la correttezza, ma il senso stesso della domanda: che cosa può significare ruotare mentalmente per un sistema privo di mani, di occhi, di un corpo situato nello spazio? È come chiedere di descrivere il rosso a chi non ha mai avuto esperienza visiva. La descrizione può essere accurata, persino brillante, ma il substrato fenomenologico rimane radicalmente altro.
Quando nel 1971 Roger Shepard e Jacqueline Metzler sottoposero i loro soggetti al celebre Mental Rotation Test, scoprirono qualcosa di notevole. I tempi di risposta crescevano linearmente con l'angolo di rotazione: venti gradi, duecento millisecondi in più; quaranta gradi, quattrocento. Come se il cervello stesse davvero facendo girare l'oggetto in una scena mentale, fotogramma per fotogramma, con una cinematica interna che rispettava le leggi della fisica. Una simulazione analogica, non un calcolo simbolico.
Un LLM non può fare questo. Non esiste una "scena mentale" da animare, non c'è un buffer visuo-spaziale dove proiettare rotazioni incrementali. Eppure i modelli frontier riescono a risolvere questi problemi. Come? Attraverso una via completamente diversa: manipolazione algebrica di coordinate, applicazione di matrici di trasformazione, confronto di invarianti strutturali. È il cieco dalla nascita che risolve problemi geometrici attraverso il tatto e l'astrazione, non attraverso la visione che mai ha posseduto.
Prima di procedere, una precisazione metodologica. I risultati presentati risalgono a gennaio 2026 e rappresentano una fotografia di un insieme ampio, sebbene non esaustivo, dei modelli frontier disponibili in quel momento. Eventuali variazioni future nei valori osservati, riconducibili sia all'evoluzione dei modelli sia a interventi di ottimizzazione delle configurazioni, sono attese e non compromettono la lettura complessiva. L'analisi non si fonda sui valori puntuali delle metriche, bensì sulla stabilità dei pattern emergenti: la gerarchia delle difficoltà, il manifestarsi di capacità spaziali tutt'altro che banali in sistemi che non hanno mai avuto contatto con oggetti fisici. In questo contesto, il trend è più significativo di qualsiasi singolo punto sulla curva. Ho scelto deliberatamente configurazioni di test uniformate, non per massimizzare le prestazioni di ciascun modello ma per rendere gli andamenti comparabili. L'ottimizzazione puntuale resta legittima nei contesti applicativi; qui interessa il segnale strutturale che persiste al variare delle implementazioni.
Il framework sperimentale
Come si misura una capacità che procede per strade diverse da quelle che conosciamo? Il framework che ho costruito tenta una risposta attraverso cinque famiglie di test, generate proceduralmente per evitare qualsiasi contaminazione dai dati di training. Ogni istanza unica, ogni seed tracciabile, ogni risposta verificabile algoritmicamente.
La famiglia di test Mental Rotation presenta un policubo di riferimento e chiede quale tra diverse opzioni rappresenti lo stesso oggetto ruotato nello spazio; la difficoltà scala con il numero di cubi e la complessità delle rotazioni applicate. Il Paper Folding descrive una sequenza di pieghe su un foglio di carta, la posizione di un foro, e chiede di prevedere tutte le posizioni del foro quando il foglio viene dispiegato. L'Embedded Structures cerca sottografi isomorfi: dato un pattern e un grafo più grande, identificare i nodi che formano quel pattern. La Cube Navigation traccia i simboli sulle facce di un cubo attraverso una sequenza di rotazioni: dopo dieci movimenti, quale simbolo si trova sulla faccia superiore? I Topological Invariants, infine, descrivono due nodi attraverso le loro sequenze di incroci e chiedono se siano topologicamente equivalenti.
L'architettura del test rispetta un principio di separazione rigoroso. Nei test multimodali, tutte le informazioni operative sono presenti esplicitamente nel testo del prompt, non solo nell'immagine. L'immagine fornisce supporto visivo, ossia la figura da elaborare, mentre l'inquadramento del problema inteso come la formalizzazione del sistema di coordinate e la richiesta specifica del test sono allegate in formato testuale. Questo design isola il ragionamento spaziale dalla capacità di OCR, evitando di misurare due competenze contemporaneamente e permettendo un confronto equo tra modalità testuale e visiva.
Ho valutato sessanta test per modello in modalità testuale, quarantotto in modalità visiva escludendo i test topologici che non hanno rappresentazione grafica. Cinque modelli frontier: Claude Opus 4.5 e Claude Sonnet 4.5 di Anthropic, GPT-5.2 di OpenAI, Gemini 3 Pro Preview e Gemini 3 Flash Preview di Google. Tutti i modelli sono stati invocati con il reasoning esteso abilitato, configurato in modo adattivo alla difficoltà del problema. Per i modelli budget-based il budget di token per il ragionamento scala da 1000 token per i problemi EASY a 5000 per quelli EXTREME; per GPT-5.2, che utilizza un sistema effort-based, i livelli "medium" e "high" sono mappati rispettivamente sui problemi facili/medi e su quelli difficili/estremi. La scelta di abilitare il reasoning riflette l'ipotesi che i problemi spaziali beneficino di elaborazione deliberata piuttosto che di risposte immediate: i risultati confermano questa intuizione, ma rivelano anche che più tempo di "pensiero" non sempre si traduce in maggiore accuratezza.
La dimensione del campione, dodici test per famiglia, è stata calibrata per bilanciare costi computazionali e robustezza statistica. I pattern emergono chiaramente nonostante il campione limitato, suggerendo effetti di dimensione notevole che future repliche con campioni più ampi potranno confermare quantitativamente.
Una gerarchia inattesa
La prima cosa che colpisce è la classifica complessiva, che ribalta alcune aspettative consolidate. Claude Sonnet si posiziona in testa con quasi il 72% di accuratezza, seguito da Opus al 65% e da Gemini Flash al 63.3%. GPT-5.2, che in una precedente iterazione del benchmark mostrava prestazioni superiori su alcune famiglie, scende al 41.7%. Gemini Pro Preview, sorprendentemente, performa peggio della sua variante più leggera con il 38.3%, suggerendo che le due architetture differiscono in modi non riducibili a un semplice trade-off velocità/accuratezza.
| Modello | Accuratezza complessiva |
|---|---|
| Claude Sonnet 4.5 | 71.7% |
| Claude Opus 4.5 | 65.0% |
| Gemini 3 Flash Preview | 63.3% |
| GPT-5.2 | 41.7% |
| Gemini 3 Pro Preview | 38.3% |
Ma il dato aggregato nasconde la struttura più interessante. La decomposizione per famiglia di test rivela un pattern più eloquente di qualsiasi numero singolo.
| Famiglia | Claude Sonnet | Claude Opus | Gemini Flash | GPT-5.2 | Gemini Pro |
|---|---|---|---|---|---|
| Topological | 100% | 91.7% | 100% | 100% | 66.7% |
| Mental Rotation | 83.3% | 75.0% | 50.0% | 25.0% | 16.7% |
| Cube Navigation | 66.7% | 58.3% | 100% | 25.0% | 75.0% |
| Paper Folding | 66.7% | 58.3% | 25.0% | 16.7% | 0.0% |
| Embedded Structures | 41.7% | 41.7% | 41.7% | 41.7% | 33.3% |
I Topological Invariants vedono tre modelli al 100% e Opus al 91.7%. Perché? Perché calcolare il writhe di un nodo, la somma algebrica dei segni degli incroci, non richiede visualizzazione tridimensionale. È aritmetica mascherata da topologia. I modelli non stanno ragionando sulla struttura del nodo: stanno contando. E contare è esattamente ciò che sanno fare bene.
La Mental Rotation separa nettamente i modelli. Claude Sonnet raggiunge l'83.3%, mentre GPT-5.2 crolla al 25%, poco meglio del caso per problemi a tre opzioni, e Gemini Pro scende al 16.7%. La differenza è troppo marcata per essere rumore statistico. Suggerisce che alcuni modelli hanno sviluppato rappresentazioni interne più efficaci per la manipolazione di strutture 3D descritte simbolicamente.
La Cube Navigation presenta un risultato controintuitivo: Gemini Flash raggiunge il 100%, superando nettamente tutti gli altri. Mantenere traccia delle sei facce di un cubo attraverso dieci rotazioni consecutive richiede una forma di working memory procedurale, una capacità di aggiornare uno stato interno passo dopo passo. L'architettura di Gemini sembra eccellere in questo tipo di tracciamento sequenziale.
Il Paper Folding è il discriminatore più severo. Claude Sonnet e Opus si attestano attorno al 60-66%, ma GPT-5.2 scende al 16.7% e Gemini Pro precipita allo 0%. Zero su dodici, nemmeno un problema risolto. Il paper folding richiede genuina simulazione sequenziale: mantenere una rappresentazione interna dello stato del foglio, trasformarla ad ogni piega, propagare le simmetrie attraverso gli strati sovrapposti. È l'equivalente computazionale di calcolare 27×34 a mente senza carta: servono risultati intermedi, una lavagna mentale che alcuni modelli semplicemente non possiedono o non riescono ad attivare in modo affidabile. Vale la pena notare che in iterazioni precedenti con una diversa formulazione del quesito, Gemini Flash raggiungeva valori più alti su questa stessa famiglia: la capacità latente esiste, ma la sua attivazione è fragile e resta dipendente dal prompting.
L'Embedded Structures livella tutti attorno al 40%, indipendentemente dal modello. Il problema del sottografo isomorfo è NP-completo nella sua forma generale, e la ricerca euristica che i modelli devono impiegare sembra ugualmente imperfetta per tutti. Nessuno ha trovato la scorciatoia algebrica che funziona per i nodi topologici.
L'inversione multimodale
Il risultato più controintuitivo emerge quando passiamo dalla modalità testuale a quella visiva. Claude Sonnet crolla dal 71.7% al 31.2%, con un delta negativo di oltre quaranta punti percentuali. Claude Opus passa dal 65% al 35.4%. Gemini Flash, che in modalità testuale raggiungeva il 63.3%, precipita al 16.7%. I modelli performano drasticamente peggio quando vedono le immagini.
| Modello | Text | Multimodal | Delta |
|---|---|---|---|
| Claude Sonnet 4.5 | 71.7% | 31.2% | −40.5% |
| Claude Opus 4.5 | 65.0% | 35.4% | −29.6% |
| Gemini 3 Flash | 63.3% | 16.7% | −46.6% |
| GPT-5.2 | 41.7% | 22.9% | −18.8% |
| Gemini 3 Pro | 38.3% | 10.4% | −27.9% |
Per un essere umano sarebbe l'opposto: visualizzare un policubo renderizzato è infinitamente più facile che interpretare liste di coordinate. Ma per un LLM le coordinate sono algebra manipolabile, sequenze di numeri su cui applicare trasformazioni. L'immagine, invece, è un pattern da decodificare senza le euristiche giuste.
Durante la fase sperimentale ho esplorato diverse strategie di prompting per la componente multimodale: chain-of-thought esplicito, decomposizione del problema in sotto-task, richiesta di descrizione verbale dell'immagine prima della risposta, prompt contestuali dettagliati. Nessuna ha prodotto miglioramenti significativi.
L'ipotesi che emerge, supportata da letteratura recente arxiv:2601.0304, è che il limite sia architetturale, non metodologico. Il meccanismo di patch embedding con cui i Vision Transformer processano le immagini, suddividendole in quadrati discreti e proiettandoli in uno spazio vettoriale, frammenta irrimediabilmente la continuità spaziale dell'input. L'immagine arriva al modello già "rotta" in tessere semantiche che hanno perso le relazioni topologiche locali. È come cercare di ricostruire una melodia da una lista di note ordinate alfabeticamente per nome. Non è un problema risolvibile con prompt engineering: è un collo di bottiglia strutturale che richiede ripensamenti architetturali profondi, dalla tokenizzazione basata su superpixel all'attenzione graph-based fino al processing a risoluzione nativa.
Quando il modello sa, ma non decide
Un secondo segnale, meno visibile nelle metriche di accuratezza ma cruciale per capire la "cognizione" del modello, è la divergenza tra ragionamento e decisione finale. Nei log ho misurato quante volte, in caso di errore, la risposta corretta compare comunque nel ragionamento, esplicitata, derivata o elencata tra le alternative, ma viene poi scartata nell'output conclusivo.
| Modello | Multi-Answer* | Interpretazione |
|---|---|---|
| Claude Opus 4.5 | 75% | Ragiona bene, decide male |
| Claude Sonnet 4.5 | 60% | Ragiona bene, decide male |
| Gemini 3 Flash (text) | 4.5 | Decisivo e netto |
| Gemini 3 Flash (visual) | 43 | Incertezza indotta dalla modalità |
| Gemini 3 Pro | 7% | Decisivo come GPT |
| GPT-5.2 | 0% | Netto e decisivo |
*Media tra modalità text e visual
Claude Opus e Sonnet mostrano qui un tratto distintivo: quando sbagliano, nel 60-75% dei casi la risposta corretta è già presente nel percorso analitico. L'inferenza è spesso giusta, ma il final decision making risulta fragile. Gemini Pro e GPT-5.2 sono invece modelli "a lama": quando sbagliano lo fanno in modo netto, la risposta corretta raramente affiora nel ragionamento. Gemini Flash presenta il caso più interessante: nei test testuali resta decisivo con un multi-answer rate del 4-5%, ma nei test visuali diventa improvvisamente esitante come Claude, con un tasso che sale al 43%.
Questo pattern suggerisce che il problema dell'inversione multimodale potrebbe non essere solo un collo di bottiglia di encoding, ma una frattura più profonda. L'immagine frammentata dal patch embedding non fornisce solo informazione degradata, ma informazione intrinsecamente ambigua, e i modelli percepiscono questa ambiguità, manifestandola attraverso l'indecisione. La visione non è semplicemente meno precisa della coordinata testuale: è ontologicamente diversa, e questa differenza si propaga fino alla decisione finale.
Il gradiente di difficoltà
L'analisi per livello di difficoltà rivela pattern differenziati tra modelli. Claude Sonnet mostra un degrado monotono dall'EASY (93.3%) all'EXTREME (53.3%), il pattern atteso. Claude Opus invece presenta una curiosa inversione: performa meglio sui problemi EXTREME (60%) che su quelli HARD (53.3%). Una possibile interpretazione è che i problemi estremi attivino strategie di ragionamento più strutturate, forse un chain-of-thought implicito più elaborato, mentre la difficoltà intermedia cada in una zona ambigua dove il modello non sa se fidarsi dell'intuizione veloce o del calcolo deliberato.
GPT-5.2 e Gemini Pro mostrano un plateau di underperformance: dopo il crollo iniziale da EASY a MEDIUM, la performance si stabilizza attorno al 27% per entrambi i livelli superiori di difficoltà. Come se, oltre una certa soglia di complessità, questi modelli passassero a una strategia di risposta quasi casuale.
| Difficoltà | Claude Sonnet | Claude Opus | Gemini Flash | GPT-5.2 | Gemini Pro |
|---|---|---|---|---|---|
| EASY | 93.3% | 80.0% | 73.3% | 73.3% | 66.7% |
| MEDIUM | 73.3% | 66.7% | 66.7% | 40.0% | 33.3% |
| HARD | 66.7% | 53.3% | 60.0% | 26.7% | 26.7% |
| EXTREME | 53.3% | 60.0% | 53.3% | 26.7% | 26.7% |
Che cosa significano questi dati
I risultati suggeriscono che il "ragionamento spaziale" negli LLM non è una capacità unitaria, ma un fascio di competenze dissociabili che i diversi modelli possiedono in misure diverse.
Il pattern matching strutturale appare relativamente uniforme: tutti i modelli si attestano attorno al 40% sulle Embedded Structures, dove il problema si riduce a cercare configurazioni ricorrenti senza una scorciatoia algebrica evidente. La riduzione algebrica è il territorio dove brillano i modelli che riescono a convertire problemi apparentemente geometrici in manipolazione simbolica; il 100% di GPT-5.2 sui Topological Invariants mostra che quando la geometria è formalizzabile come aritmetica, le performance esplodono. La simulazione sequenziale è il punto debole universale, ma con eccezioni notevoli: Gemini Flash raggiunge il 100% sulla Cube Navigation, suggerendo una capacità di state tracking che gli altri modelli non possiedono con la stessa affidabilità, eppure lo stesso Gemini Flash crolla al 25% sul Paper Folding, indicando che non tutte le simulazioni sequenziali sono equivalenti. La manipolazione 3D simbolica, testata dalla Mental Rotation, separa nettamente i modelli: qualcosa nell'architettura o nel training di Claude gli permette di costruire rappresentazioni interne più efficaci per gli oggetti tridimensionali descritti come liste di coordinate.
Implicazioni operative
Per task spaziali generici in modalità testuale, Claude Sonnet offre attualmente il miglior profilo di accuratezza. Per problemi riducibili a ragionamento topologico o algebrico, GPT-5.2 può essere preferibile. Per task che richiedono tracciamento di stato attraverso sequenze di trasformazioni, Gemini Flash mostra capacità distintive.
Al momento, sconsiglio di affidarsi alla modalità visiva per qualsiasi ragionamento geometrico non triviale, almeno finché l'architettura dei vision encoder non sarà ripensata. La degradazione media del 33% tra text e multimodal indica che "vedere" l'immagine è attualmente un handicap, non un vantaggio. Evitare task che richiedono simulazione sequenziale complessa di stati, come la previsione di pattern dopo multiple trasformazioni composte: solo alcuni modelli mostrano capacità parziali in questo dominio, e nessuno raggiunge l'affidabilità necessaria per applicazioni critiche.
Oltre la tecnica
C'è una questione più profonda che questi dati sollevano, una questione che eccede il benchmarking e tocca l'ontologia stessa dell'intelligenza artificiale.
Quando un essere umano risolve un problema di rotazione mentale, sta facendo qualcosa di fenomenologicamente denso: sta proiettando, immaginando, "vedendo con l'occhio della mente". I tempi di risposta di Shepard e Metzler mostrano che questa simulazione rispetta le leggi della cinematica, come se il cervello stesse davvero animando un oggetto in uno spazio interno. Quando Claude risolve lo stesso problema, sta facendo qualcosa di categorialmente diverso: manipola strutture simboliche, applica trasformazioni algebriche, confronta invarianti. Raggiunge la risposta corretta attraverso una via che non passa per nessuna "immagine mentale".
Ma possiamo davvero essere sicuri che la differenza sia così netta? Forse anche la "simulazione analogica" del cervello umano è, a un livello più profondo, riducibile a manipolazione di rappresentazioni. Forse il nostro senso di "vedere mentalmente" è un'illusione fenomenologica che nasconde operazioni formali non diverse, nella loro natura ultima, da quelle di un transformer.
O forse no. Forse c'è qualcosa di irriducibilmente diverso nel modo in cui un sistema embodied, cresciuto in uno spazio fisico, afferrando oggetti e muovendosi tra ostacoli, rappresenta la tridimensionalità rispetto a un sistema che ha visto solo token. Il cervello come Vision Transformer biologico, ma con un meccanismo di patching che preserva, invece di distruggere, la continuità topologica.
Questi risultati non risolvono la questione. Ma la rendono più acuta, più urgente, più misurabile. E mostrano che la frontiera tra cognizione artificiale e naturale non è una linea netta, ma una zona di transizione frastagliata dove alcune capacità emergono inaspettatamente e altre, apparentemente più semplici, restano stranamente inaccessibili.
Il framework completo, comprensivo di generatori procedurali, script di valutazione, dataset dei risultati e 534 invocazioni API tracciate (ho usato OpenRouter), è disponibile per chi volesse replicare, estendere, o confutare. La ricerca procede per condivisione. E ciò che questi numeri aprono, più di ciò che chiudono, sono domande.
Addendum: la letteratura correlata
Il panorama dei benchmark di ragionamento spaziale, negli ultimi anni, si è articolato lungo tre direzioni principali.
Una prima linea ha valutato il ragionamento spaziale come capacità di mantenere coerenza tra relazioni e posizioni nello spazio visivo. In questo filone rientra VSR arxiv:2205.00363, che mette sotto stress la consistenza delle relazioni spaziali in scenari visivi.
Una seconda direzione ha esplicitamente separato la componente "geometrica" dalla visione, misurando quanto un modello riesca a ragionare su descrizioni coordinate-aware o su rappresentazioni strutturate. SiT-Bench arxiv:2601.03590 converte scene multi-vista in descrizioni con coordinate e valuta la coerenza spaziale globale. Un filone vicino arxiv:2507.07644 testa inferenza su layout strutturati in formato JSON/XML. SnorkelSpatial genera proceduralmente mondi 2D per testare ragionamento spaziale in setting controllati.
Un terzo filone misura abilità spaziali eterogenee e riporta un risultato empirico importante: in alcuni casi, aggiungere visione non migliora e può peggiorare. SpatialEval, presentato a NeurIPS 2024, valuta relazioni spaziali, comprensione posizionale e navigazione, riportando che in diversi test i VLM possono performare peggio dei corrispondenti LLM anche con input visivo addizionale.
Sul piano teorico, un lavoro recente arxiv:2601.03048 propone un formalismo predittivo: il ragionamento spaziale 3D può essere visto come preservazione di struttura, omomorfismi di gruppo, e nel caso delle rotazioni 3D emerge una barriera di complessità che mette in tensione i limiti dei Vision Transformer a profondità costante. Il contatto con il nostro lavoro è quasi uno-a-uno: non solo il patch embedding frammenta, ma l'intera pipeline può mancare la profondità logica necessaria per composizioni su gruppi non risolvibili. L'inversione multimodale e il crollo su mental rotation visuale che abbiamo documentato funzionano come dato empirico coerente con questa barriera.
Altre proposte architetturali arxiv:2512.13517 suggeriscono pipeline alternative con componenti equivarianti, elementi neuro-simbolici e agenti ricorrenti come approccio per compiti di mental rotation in stile Shepard-Metzler, sostenendo l'idea che servano meccanismi espliciti per preservare equivarianza che i ViT standard non garantiscono.
Non perderti il deck: The Geometry of a Mind Without Eyes