I modelli AI stanno imparando a non blaterare

I modelli AI stanno imparando a non blaterare

Il vero problema degli agenti AI enterprise non è conversare, ma generare output strutturati affidabili. DPO e benchmark come EVA-Bench cercano soluzioni.

La DPO riduce del 59% la degenerazione testuale negli output strutturati

Immagina di chiedere al tuo assistente AI di prenotare un volo per Milano il 20 maggio. Lui ti risponde con un testo perfetto: “Certo, ho cercato i voli disponibili e ho trovato l’opzione migliore”. Poi però non succede niente. Nessuna chiamata all’API della compagnia aerea, nessuna prenotazione. Solo parole. È il problema numero uno degli agenti AI enterprise: non la capacità di conversare, ma di generare output strutturati – database, documenti, chiamate a strumenti – in modo affidabile.

Mentre il settore si ossessiona con l’allineamento dei chatbot, la vera frontiera è un’altra. Perché un agente che sa parlare ma non sa eseguire è come un cuoco che ti descrive la ricetta ma non accende i fornelli. E i nuovi benchmark e tecniche lo dimostrano: il collo di bottiglia per l’AI enterprise è la qualità strutturata degli output. Ecco cosa sta cambiando.

I chatbot parlano, ma non eseguono

Prendiamo il caso delle chiamate a strumenti. Un modello linguistico piccolo (SLM) può sembrare bravo a conversare, ma quando deve chiamare una funzione API per inviare un ordine o aggiornare un record, sbaglia spesso. Amazon ha mostrato come migliorare le chiamate agli strumenti con SFT e DPO su SageMaker AI. La ricetta? Prima un Supervised Fine-Tuning (SFT) per insegnare al modello i formati giusti, poi una Direct Preference Optimization (DPO) per affinare le preferenze. Funziona, ma è solo l’inizio.

Il vero mostro sotto il letto è un fenomeno chiamato tasso di degenerazione testuale: la frequenza con cui un modello, invece di produrre una trascrizione utile, cade in un loop di ripetizione di parole o frasi. Immagina un agente che deve scrivere un report e invece stampa “Il report è il report è il report…”. È un fallimento strutturale, non di allineamento.

E i numeri sono impressionanti: i tassi di degenerazione vanilla nelle famiglie open-source testate variavano da meno dell’1% a oltre il 33%. Roba da far venire i brividi a chiunque voglia usare un agente in produzione.

Insegnare a un modello a non ripetersi

La soluzione? Ancora una volta la DPO, ma usata in modo diverso. Non per allineare il modello a preferenze umane, ma come tecnica di mitigazione. DharmaOCR, un sistema per l’estrazione di testi da documenti, ha utilizzato DPO non per l’allineamento, ma come mitigazione per output strutturati. L’idea: addestrare il modello a preferire sequenze che non degenerano. I risultati? La seconda fase di addestramento era DPO, e dopo quella fase, la riduzione media della degenerazione è stata del 59,4%. Un balzo enorme. E in un caso specifico, una famiglia di modelli passava da uno 0,60% di degenerazione vanilla a un preoccupante 3,23% dopo SFT, per poi scendere all’1,41% grazie alla DPO: effetti di SFT e DPO su un benchmark familiare che dimostra quanto sia fragile il miglioramento.

Ma attenzione: la DPO non è una bacchetta magica. Funziona quando si ha un obiettivo chiaro – in questo caso, evitare loop e produrre strutture valide. E questo ci porta al prossimo punto: se vogliamo agenti affidabili, dobbiamo prima di tutto misurare la loro capacità di seguire percorsi precisi.

Un benchmark per il mondo reale

Ed ecco che arriva EVA-Bench: 213 scenari di valutazione su 121 strumenti. Tre domini – probabilmente help desk, IT e workflow aziendali – con un approccio chirurgico: ogni scenario è stato validato per la risolvibilità contro tre modelli frontier (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6). Niente ambiguità: ogni scenario ha esattamente un percorso di risoluzione corretto. Roba da far impazzire un chatbot tradizionale, ma è esattamente ciò che serve a un agente enterprise: sapere qual è l’unica strada giusta per completare un’operazione, senza deviazioni creative.

E come sono generati questi scenari? Con SyGra, una pipeline di generazione dati sintetici basata su grafi, che usa GPT-5.4 come backbone. In più, ogni dominio include flussi di autenticazione, come OTP-based elevation: perché un agente che deve operare su sistemi reali deve anche saper gestire credenziali e permessi. Non solo struttura, ma anche sicurezza.

Cosa significa tutto questo per te, che magari usi già un assistente AI per scrivere email o generare report? Che la prossima volta che chiedi “prenota un volo” o “crea un ordine”, il vero salto di qualità non sarà nella conversazione, ma nell’esecuzione. I modelli stanno imparando a non blaterare, a non ripetersi, a seguire un percorso esatto. La DPO e i benchmark come EVA-Bench stanno costruendo le fondamenta per agenti che fanno, non solo che dicono. E quando questo sarà affidabile al 99%, il mondo enterprise cambierà faccia. Tenete d’occhio gli output strutturati: sono l’ultima frontiera, e forse la più importante.

🍪 Impostazioni Cookie