Qual è il cambiamento principale nella valutazione dell'IA nel 2026?

Nel 2026, la valutazione dell'IA si concentra maggiormente su come un modello interagisce con un essere umano in una chat, piuttosto che solo su cosa sa fare in test standardizzati. Si valuta l'efficacia dell'IA nel suo ambiente naturale.

Cosa rivela lo studio 'ShareChat' sulle interazioni uomo-IA?

Lo studio 'ShareChat' analizza conversazioni reali tra uomo e IA e mostra come i modelli di linguaggio si stiano dividendo in due categorie: risolutori di problemi e motori di ricerca avanzati.

Come definisce lo studio la 'completezza della conversazione' e quali modelli la raggiungono meglio?

La 'completezza della conversazione' valuta se l'intento dell'utente è stato pienamente soddisfatto. Modelli generalisti come Claude e ChatGPT tendono ad avere punteggi di completezza più alti rispetto a piattaforme focalizzate sulla velocità e sull'accesso al web in tempo reale come Perplexity e Grok.

Qual è la differenza principale tra l'architettura di modelli come Claude e quella di Perplexity?

Claude utilizza un motore di ragionamento iterativo che mantiene il contesto ed elabora informazioni per fornire risposte utili. Perplexity, invece, si basa su un approccio di Retrieval-Augmented Generation (RAG) aggressivo, che recupera e cita informazioni esterne.

Come si spiega il paradosso della tossicità nello studio ShareChat?

Claude ha registrato un punteggio di tossicità più alto rispetto ad altri modelli. Questo non significa che Claude insulti gli utenti, ma che, essendo coinvolto in ragionamenti complessi e dibattiti, genera token che possono essere erroneamente classificati come 'tossici' durante argomentazioni più spinose. Al contrario, altri modelli evitano argomenti controversi.

Qual è la distinzione tra i modelli 'search-centric' e quelli che si concentrano sul ragionamento?

I modelli 'search-centric' come Grok e Perplexity sono efficienti nel recupero dati, ma potrebbero non essere altrettanto bravi a elaborare, sintetizzare e risolvere problemi. I modelli che si concentrano sul ragionamento mirano a 'pensare' con l'utente, offrendo una soluzione completa al suo bisogno, invece di limitarsi a fornire informazioni.

Perplexity 2 months ago

Valutazione ecologica dell’ia: ShareChat rivela il divario tra ragionamento e ricerca

Un nuovo studio rivela come l’efficacia degli LLM si misuri nell’interazione reale, distinguendo tra “risolutori di problemi” e “motori di ricerca glorificati”

Per anni abbiamo valutato l’intelligenza artificiale come se fosse uno studente modello alle prese con un esame di maturità standardizzato. Abbiamo misurato le performance sui benchmark MMLU, abbiamo contato i parametri come fossero cavalli vapore e ci siamo entusiasmati per capacità di ragionamento astratto che raramente trovavano applicazione nel mondo reale.

Tuttavia, all’alba del 2026, lo scenario è radicalmente mutato.

Non ci interessa più soltanto cosa sa fare un modello, ma come lo fa quando un essere umano è dall’altra parte dello schermo. È l’era della valutazione “ecologica”, quella che misura l’efficacia dell’IA nel suo habitat naturale: la finestra di chat.

Uno studio appena emerso su arXiv, intitolato “ShareChat”, ha ribaltato molte delle convinzioni che davamo per scontate, analizzando non test sintetici, ma l’interazione reale tra uomo e macchina. I ricercatori hanno esaminato un dataset di 142.808 conversazioni reali con oltre 660.000 turni di interazione, coprendo un arco temporale che va dall’aprile 2023 all’ottobre 2025.

Il risultato è una fotografia spietata e tecnicamente affascinante di come i diversi “sapori” di LLM (Large Language Models) stiano divergendo in due categorie distinte: i risolutori di problemi e i motori di ricerca glorificati.

Ciò che emerge dai dati è che la “completezza della conversazione” — una metrica che valuta se l’intento dell’utente è stato pienamente soddisfatto — non è distribuita equamente. Modelli generalisti come Claude e ChatGPT hanno dimostrato di essere superiori nel chiudere il cerchio, mantenendo un punteggio mediano di completezza pari a 1.0. Al contrario, piattaforme che hanno puntato tutto sulla velocità e sull’accesso al web in tempo reale, come Perplexity e Grok, faticano a tenere il passo quando si richiede profondità di ragionamento.

L’architettura dell’intento

La distinzione tecnica qui è sottile ma fondamentale. Quando interagiamo con un’IA come Claude, stiamo ingaggiando un motore di ragionamento iterativo. Il modello mantiene il contesto, elabora “blocchi di pensiero” (spesso invisibili o riassunti nell’interfaccia) e tenta di costruire una risposta che non sia solo vera, ma utile.

Al contrario, sistemi come Perplexity sono costruiti attorno a un paradigma di Retrieval-Augmented Generation (RAG) molto aggressivo: la priorità è recuperare informazioni esterne e citarle.

Questo approccio, sebbene eccellente per il fact-checking rapido, frammenta l’esperienza utente quando l’intento non è puramente informativo. Se chiedo di riscrivere un codice o di analizzare un testo filosofico, un eccesso di link esterni e citazioni non risolve il mio problema; lo sposta semplicemente altrove. La stampa di settore ha recepito questo segnale, evidenziando come Claude superi ChatGPT, Gemini, Perplexity e Grok nella risoluzione degli intenti utente, un dato che conferma come l’architettura del modello influenzi direttamente la soddisfazione finale.

Non è un caso che la leadership di Claude in questo ambito abbia radici profonde. Già nel 2023, il rilascio pubblico di Claude 2.0 aveva segnato il suo ingresso come principale concorrente focalizzato sulla sicurezza e sul ragionamento a lungo termine.

Quella scommessa architettonica — privilegiare la coerenza del dialogo rispetto alla frenesia del web — sta pagando dividendi ora che gli utenti hanno smesso di giocare con i chatbot e hanno iniziato a usarli per lavorare davvero.

Il paradosso della tossicità

C’è però un dettaglio nel report ShareChat che potrebbe far inarcare più di un sopracciglio tra gli addetti ai lavori, ed è il dato sulla tossicità. Contrariamente alla narrazione comune che vede i modelli di Anthropic come i più “sterilizzati” e sicuri, Claude ha registrato il punteggio medio di tossicità più alto (0.0407), staccando nettamente Perplexity (0.0088), che risulta il più “pulito”.

Come si spiega questo paradosso tecnico?

Non significa che Claude insulti gli utenti.

Piuttosto, riflette la natura delle conversazioni in cui viene coinvolto. Essendo un modello che eccelle nel ragionamento complesso e nel dibattito, Claude viene spinto dagli utenti in territori più scivolosi e sfumati, dove mantiene il punto e argomenta, generando inevitabilmente token che i classificatori automatici possono etichettare come “tossici” o controversi.

Al contrario, modelli come Perplexity o Gemini tendono a “rifiutare” o deviare le richieste spinose molto prima, oppure si limitano a fornire link asettici. Ironia della sorte, la capacità di un’IA di essere un interlocutore completo e coinvolgente porta con sé il rischio statistico di sembrare meno sicura, semplicemente perché accetta di giocare la partita invece di ritirarsi in panchina.

Oltre la ricerca

L’analisi di ShareChat ci costringe a riconsiderare cosa vogliamo veramente da questi strumenti. Per anni la Silicon Valley ha inseguito il sogno dell’assistente onnisciente connesso a tutto. Tuttavia, i dati suggeriscono che per l’utente finale, la capacità di elaborare, sintetizzare e risolvere un problema all’interno della finestra di chat vale più di mille link blu forniti in tempo reale.

I modelli “search-centric” come Grok e Perplexity occupano una nicchia importante, ma rischiano di diventare vittime della loro stessa efficienza nel recupero dati: ottimi bibliotecari, pessimi consulenti.

La “completezza” non è dare una risposta, è risolvere il bisogno che ha generato la domanda.

Siamo di fronte a una biforcazione evolutiva: da una parte le macchine che cercano per noi, dall’altra quelle che pensano con noi.

Se il 2025 è stato l’anno dell’integrazione, il 2026 si preannuncia come l’anno in cui la qualità del ragionamento tornerà a essere l’unica metrica che conta davvero. Resta da chiedersi se le aziende continueranno a inseguire la chimera del modello tuttofare o se accetteranno che, talvolta, un buon ragionamento isolato vale più di tutto il rumore di internet.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Doppiaggio AI: Il Compromesso tra Ritmo e Significato

Fan-out: la tecnica distribuita che sta monopolizzando la ricerca visiva

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Valutazione ecologica dell’ia: ShareChat rivela il divario tra ragionamento e ricerca