Valutazione ecologica dell’ia: ShareChat rivela il divario tra ragionamento e ricerca
Un nuovo studio rivela come l’efficacia degli LLM si misuri nell’interazione reale, distinguendo tra “risolutori di problemi” e “motori di ricerca glorificati”
Per anni abbiamo valutato l’intelligenza artificiale come se fosse uno studente modello alle prese con un esame di maturità standardizzato. Abbiamo misurato le performance sui benchmark MMLU, abbiamo contato i parametri come fossero cavalli vapore e ci siamo entusiasmati per capacità di ragionamento astratto che raramente trovavano applicazione nel mondo reale.
Tuttavia, all’alba del 2026, lo scenario è radicalmente mutato.
Non ci interessa più soltanto cosa sa fare un modello, ma come lo fa quando un essere umano è dall’altra parte dello schermo. È l’era della valutazione “ecologica”, quella che misura l’efficacia dell’IA nel suo habitat naturale: la finestra di chat.
Uno studio appena emerso su arXiv, intitolato “ShareChat”, ha ribaltato molte delle convinzioni che davamo per scontate, analizzando non test sintetici, ma l’interazione reale tra uomo e macchina. I ricercatori hanno esaminato un dataset di 142.808 conversazioni reali con oltre 660.000 turni di interazione, coprendo un arco temporale che va dall’aprile 2023 all’ottobre 2025.
Il risultato è una fotografia spietata e tecnicamente affascinante di come i diversi “sapori” di LLM (Large Language Models) stiano divergendo in due categorie distinte: i risolutori di problemi e i motori di ricerca glorificati.
Ciò che emerge dai dati è che la “completezza della conversazione” — una metrica che valuta se l’intento dell’utente è stato pienamente soddisfatto — non è distribuita equamente. Modelli generalisti come Claude e ChatGPT hanno dimostrato di essere superiori nel chiudere il cerchio, mantenendo un punteggio mediano di completezza pari a 1.0. Al contrario, piattaforme che hanno puntato tutto sulla velocità e sull’accesso al web in tempo reale, come Perplexity e Grok, faticano a tenere il passo quando si richiede profondità di ragionamento.
L’architettura dell’intento
La distinzione tecnica qui è sottile ma fondamentale. Quando interagiamo con un’IA come Claude, stiamo ingaggiando un motore di ragionamento iterativo. Il modello mantiene il contesto, elabora “blocchi di pensiero” (spesso invisibili o riassunti nell’interfaccia) e tenta di costruire una risposta che non sia solo vera, ma utile.

Al contrario, sistemi come Perplexity sono costruiti attorno a un paradigma di Retrieval-Augmented Generation (RAG) molto aggressivo: la priorità è recuperare informazioni esterne e citarle.
Questo approccio, sebbene eccellente per il fact-checking rapido, frammenta l’esperienza utente quando l’intento non è puramente informativo. Se chiedo di riscrivere un codice o di analizzare un testo filosofico, un eccesso di link esterni e citazioni non risolve il mio problema; lo sposta semplicemente altrove. La stampa di settore ha recepito questo segnale, evidenziando come Claude superi ChatGPT, Gemini, Perplexity e Grok nella risoluzione degli intenti utente, un dato che conferma come l’architettura del modello influenzi direttamente la soddisfazione finale.
Non è un caso che la leadership di Claude in questo ambito abbia radici profonde. Già nel 2023, il rilascio pubblico di Claude 2.0 aveva segnato il suo ingresso come principale concorrente focalizzato sulla sicurezza e sul ragionamento a lungo termine.
Quella scommessa architettonica — privilegiare la coerenza del dialogo rispetto alla frenesia del web — sta pagando dividendi ora che gli utenti hanno smesso di giocare con i chatbot e hanno iniziato a usarli per lavorare davvero.
Il paradosso della tossicità
C’è però un dettaglio nel report ShareChat che potrebbe far inarcare più di un sopracciglio tra gli addetti ai lavori, ed è il dato sulla tossicità. Contrariamente alla narrazione comune che vede i modelli di Anthropic come i più “sterilizzati” e sicuri, Claude ha registrato il punteggio medio di tossicità più alto (0.0407), staccando nettamente Perplexity (0.0088), che risulta il più “pulito”.
Come si spiega questo paradosso tecnico?
Non significa che Claude insulti gli utenti.
Piuttosto, riflette la natura delle conversazioni in cui viene coinvolto. Essendo un modello che eccelle nel ragionamento complesso e nel dibattito, Claude viene spinto dagli utenti in territori più scivolosi e sfumati, dove mantiene il punto e argomenta, generando inevitabilmente token che i classificatori automatici possono etichettare come “tossici” o controversi.
Al contrario, modelli come Perplexity o Gemini tendono a “rifiutare” o deviare le richieste spinose molto prima, oppure si limitano a fornire link asettici. Ironia della sorte, la capacità di un’IA di essere un interlocutore completo e coinvolgente porta con sé il rischio statistico di sembrare meno sicura, semplicemente perché accetta di giocare la partita invece di ritirarsi in panchina.
Oltre la ricerca
L’analisi di ShareChat ci costringe a riconsiderare cosa vogliamo veramente da questi strumenti. Per anni la Silicon Valley ha inseguito il sogno dell’assistente onnisciente connesso a tutto. Tuttavia, i dati suggeriscono che per l’utente finale, la capacità di elaborare, sintetizzare e risolvere un problema all’interno della finestra di chat vale più di mille link blu forniti in tempo reale.
I modelli “search-centric” come Grok e Perplexity occupano una nicchia importante, ma rischiano di diventare vittime della loro stessa efficienza nel recupero dati: ottimi bibliotecari, pessimi consulenti.
La “completezza” non è dare una risposta, è risolvere il bisogno che ha generato la domanda.
Siamo di fronte a una biforcazione evolutiva: da una parte le macchine che cercano per noi, dall’altra quelle che pensano con noi.
Se il 2025 è stato l’anno dell’integrazione, il 2026 si preannuncia come l’anno in cui la qualità del ragionamento tornerà a essere l’unica metrica che conta davvero. Resta da chiedersi se le aziende continueranno a inseguire la chimera del modello tuttofare o se accetteranno che, talvolta, un buon ragionamento isolato vale più di tutto il rumore di internet.