Una ricerca dell'Università di Bamberga ha appena messo in dubbio una delle nostre convinzioni più radicate sull'intelligenza artificiale. Il fenomeno della prompt brittleness - quella tendenza dei modelli linguistici a modificare le loro risposte quando si cambiano aspetti apparentemente marginali del prompt - non è affatto un'esclusiva delle macchine.

Gli esseri umani, scopre lo studio, sono altrettanto suscettibili ai cambiamenti nelle istruzioni quando devono classificare testi. La differenza? È più sottile di quanto immaginavamo.

L'esperimento che ribalta le prospettive

I ricercatori hanno progettato un test ingegnoso: stessi compiti di classificazione (offensività, cortesia, ironia, emozioni), stesse variazioni nei prompt, confronto diretto tra 5 modelli linguistici - LLaMA-3.1-8B, LLaMA-3.3-70B, Mixtral-8x7B, Falcon3-7B e Mistral-7B - e annotatori umani reclutati tramite Prolific.

La dimensione del modello e la robustezza

Un dato emerge con chiarezza dai risultati: i modelli più grandi mostrano maggiore robustezza alle variazioni di prompt. LLaMA-3.3-70B presenta la minore sensibilità alle perturbazioni linguistiche rispetto ai modelli più piccoli. Tuttavia, in alcuni casi specifici, modelli più piccoli come LLaMA-3.1-8B e Falcon3-7B producono distribuzioni di risposte statisticamente più simili a quelle degli annotatori umani - non perché siano più "intelligenti" o "umani", ma per coincidenza statistica in questo particolare set di compiti.

Dove umani e AI mostrano vulnerabilità simili

Cambi nei set di etichette: Se invece di "molto offensivo" usi "estremamente offensivo", sia umani che AI cambiano le loro distribuzioni di risposta in modo statisticamente significativo. È come se il linguaggio non fosse mai neutro.

Richieste di giustificazione: Chiedere "spiega la tua scelta" modifica le decisioni di entrambi i gruppi, suggerendo che il processo di esplicitazione del ragionamento altera il ragionamento stesso.

Dove gli umani restano più saldi

Errori di battitura: Gli errori tipografici nelle etichette causano variazioni significative nelle distribuzioni di risposta degli AI, mentre gli umani mostrano maggiore resilienza a questi disturbi superficiali del testo.

Ordine delle opzioni: Mettere le etichette in ordine diverso confonde molto di più le macchine che le persone.

Tre implicazioni che dovrebbero farci riflettere

1. Il mito della superiorità umana nella robustezza

Abbiamo sempre pensato che la nostra "intelligenza naturale" fosse intrinsecamente più robusta di quella artificiale. Questo studio mostra che anche noi siamo sorprendentemente sensibili al framing. Quando valutiamo se un commento è offensivo, il modo in cui ci viene posta la domanda influenza la nostra risposta.

2. Il paradosso della variabilità

Gli umani mostrano maggiore variabilità complessiva (divergenza media 0.33 vs 0.22 degli AI), ma minore sensibilità alle variazioni specifiche (deviazione standard 0.04 vs 0.16). Siamo più instabili in generale, ma meno prevedibilmente instabili rispetto a specifiche modifiche del prompt.

3. La questione dell'allineamento

Se vogliamo che gli AI si comportino come gli umani, dobbiamo accettare anche la loro fragilità umana? O dobbiamo puntare a creare sistemi più robusti di noi stessi?

Takeaway operativi per chi lavora con l'AI

Per i prompt engineer: Non basta testare un prompt. Bisogna testare sistematicamente le variazioni, perché quello che funziona con una formulazione potrebbe fallire con una sinonima. La scelta del modello diventa cruciale se si punta alla massima robustezza.

Per i manager: La coerenza delle annotazioni umane non è garantita. Investire in procedure standardizzate di formulazione delle istruzioni non è paranoia, è necessità. La dimensione del modello sembra correlare con la robustezza, ma serve cautela nelle generalizzazioni.

Per i ricercatori: Quando confrontiamo performance umane e artificiali, dobbiamo controllare anche per la prompt brittleness degli umani, non solo quella dei modelli.

La domanda che resta aperta

Se tanto umani quanto AI sono fragili alle variazioni linguistiche, forse il problema non è tecnologico ma epistemologico. Forse la natura stessa del linguaggio e della categorizzazione è intrinsecamente instabile.

Il che ci porta a una riflessione inquietante: in un mondo dove sempre più decisioni vengono prese attraverso classificazioni testuali - dalle assunzioni alle diagnosi mediche - quanto della nostra apparente precisione è in realtà arbitrarietà mascherata da rigore?

L'intelligenza artificiale, nel mostrarci i suoi limiti, potrebbe aver appena messo a nudo i nostri.


Note metodologiche e limitazioni

Questo studio, pur offrendo spunti interessanti, presenta diverse limitazioni significative che ne circoscrivono la portata:

Campione limitato di modelli: La ricerca include solo 5 modelli specifici (massimo 70B parametri), escludendo sistemi commerciali avanzati come GPT-5, Claude, o Gemini e modelli di dimensioni superiori attualmente disponibili.

Compiti specifici: I test si concentrano esclusivamente su classificazioni soggettive (emozioni, offensività, cortesia, ironia) e non valutano capacità di ragionamento complesso o compiti oggettivi.

Dimensione del campione umano: Solo 10 annotatori per condizione su subset limitati dei dataset, insufficiente per generalizzazioni robuste sul comportamento umano.

Confounding variables: Lo studio non controlla adequatamente per differenze di architettura, training data, o tecniche di fine-tuning, attribuendo le differenze principalmente alla dimensione del modello.

Metrica di "allineamento umano": La similarità statistica delle distribuzioni non implica superiorità qualitativa o maggiore "umanità" delle risposte.

Modelli non rappresentativi: I modelli testati non riflettono lo stato dell'arte attuale e le conclusioni sulla relazione dimensione-robustezza necessitano di verifica su scale maggiori.

Questi limiti suggeriscono cautela nell'interpretare i risultati come definitivi sulla natura della prompt brittleness in sistemi AI più avanzati.

Paper: https://arxiv.org/pdf/2509.07869