Come si chiama il fenomeno per cui un modello cade in un loop di ripetizione di parole o frasi?

Il fenomeno si chiama tasso di degenerazione testuale. È un fallimento strutturale, non di allineamento, e nei modelli open-source testati variava da meno dell'1% a oltre il 33%.

Quale tecnica è stata utilizzata da DharmaOCR per ridurre la degenerazione testuale?

DharmaOCR ha utilizzato la Direct Preference Optimization (DPO) non per l'allineamento, ma come tecnica di mitigazione per output strutturati. Dopo la fase DPO, la riduzione media della degenerazione è stata del 59,4%.

Cosa valuta EVA-Bench?

EVA-Bench valuta 213 scenari su 121 strumenti in tre domini (help desk, IT e workflow aziendali). Ogni scenario ha esattamente un percorso di risoluzione corretto, validato contro tre modelli frontier (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6).

Editorials Pick's 2 months ago

I modelli AI stanno imparando a non blaterare

Q: Qual è il problema principale degli agenti AI enterprise secondo il testo?

Il problema principale non è la capacità di conversare, ma di generare output strutturati (database, documenti, chiamate a strumenti) in modo affidabile. Un agente che sa parlare ma non eseguire è come un cuoco che descrive la ricetta ma non accende i fornelli.

Q: Quale pipeline viene usata per generare gli scenari di EVA-Bench?

Gli scenari sono generati con SyGra, una pipeline di generazione dati sintetici basata su grafi, che usa GPT-5.4 come backbone. Ogni dominio include flussi di autenticazione come OTP-based elevation.

Il vero problema degli agenti AI enterprise non è conversare, ma generare output strutturati affidabili. DPO e benchmark come EVA-Bench cercano soluzioni.

La DPO riduce del 59% la degenerazione testuale negli output strutturati

Immagina di chiedere al tuo assistente AI di prenotare un volo per Milano il 20 maggio. Lui ti risponde con un testo perfetto: “Certo, ho cercato i voli disponibili e ho trovato l’opzione migliore”. Poi però non succede niente. Nessuna chiamata all’API della compagnia aerea, nessuna prenotazione. Solo parole. È il problema numero uno degli agenti AI enterprise: non la capacità di conversare, ma di generare output strutturati – database, documenti, chiamate a strumenti – in modo affidabile.

Mentre il settore si ossessiona con l’allineamento dei chatbot, la vera frontiera è un’altra. Perché un agente che sa parlare ma non sa eseguire è come un cuoco che ti descrive la ricetta ma non accende i fornelli. E i nuovi benchmark e tecniche lo dimostrano: il collo di bottiglia per l’AI enterprise è la qualità strutturata degli output. Ecco cosa sta cambiando.

I chatbot parlano, ma non eseguono

Prendiamo il caso delle chiamate a strumenti. Un modello linguistico piccolo (SLM) può sembrare bravo a conversare, ma quando deve chiamare una funzione API per inviare un ordine o aggiornare un record, sbaglia spesso. Amazon ha mostrato come migliorare le chiamate agli strumenti con SFT e DPO su SageMaker AI. La ricetta? Prima un Supervised Fine-Tuning (SFT) per insegnare al modello i formati giusti, poi una Direct Preference Optimization (DPO) per affinare le preferenze. Funziona, ma è solo l’inizio.

Il vero mostro sotto il letto è un fenomeno chiamato tasso di degenerazione testuale: la frequenza con cui un modello, invece di produrre una trascrizione utile, cade in un loop di ripetizione di parole o frasi. Immagina un agente che deve scrivere un report e invece stampa “Il report è il report è il report…”. È un fallimento strutturale, non di allineamento.

E i numeri sono impressionanti: i tassi di degenerazione vanilla nelle famiglie open-source testate variavano da meno dell’1% a oltre il 33%. Roba da far venire i brividi a chiunque voglia usare un agente in produzione.

Insegnare a un modello a non ripetersi

La soluzione? Ancora una volta la DPO, ma usata in modo diverso. Non per allineare il modello a preferenze umane, ma come tecnica di mitigazione. DharmaOCR, un sistema per l’estrazione di testi da documenti, ha utilizzato DPO non per l’allineamento, ma come mitigazione per output strutturati. L’idea: addestrare il modello a preferire sequenze che non degenerano. I risultati? La seconda fase di addestramento era DPO, e dopo quella fase, la riduzione media della degenerazione è stata del 59,4%. Un balzo enorme. E in un caso specifico, una famiglia di modelli passava da uno 0,60% di degenerazione vanilla a un preoccupante 3,23% dopo SFT, per poi scendere all’1,41% grazie alla DPO: effetti di SFT e DPO su un benchmark familiare che dimostra quanto sia fragile il miglioramento.

Ma attenzione: la DPO non è una bacchetta magica. Funziona quando si ha un obiettivo chiaro – in questo caso, evitare loop e produrre strutture valide. E questo ci porta al prossimo punto: se vogliamo agenti affidabili, dobbiamo prima di tutto misurare la loro capacità di seguire percorsi precisi.

Un benchmark per il mondo reale

Ed ecco che arriva EVA-Bench: 213 scenari di valutazione su 121 strumenti. Tre domini – probabilmente help desk, IT e workflow aziendali – con un approccio chirurgico: ogni scenario è stato validato per la risolvibilità contro tre modelli frontier (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6). Niente ambiguità: ogni scenario ha esattamente un percorso di risoluzione corretto. Roba da far impazzire un chatbot tradizionale, ma è esattamente ciò che serve a un agente enterprise: sapere qual è l’unica strada giusta per completare un’operazione, senza deviazioni creative.

E come sono generati questi scenari? Con SyGra, una pipeline di generazione dati sintetici basata su grafi, che usa GPT-5.4 come backbone. In più, ogni dominio include flussi di autenticazione, come OTP-based elevation: perché un agente che deve operare su sistemi reali deve anche saper gestire credenziali e permessi. Non solo struttura, ma anche sicurezza.

Cosa significa tutto questo per te, che magari usi già un assistente AI per scrivere email o generare report? Che la prossima volta che chiedi “prenota un volo” o “crea un ordine”, il vero salto di qualità non sarà nella conversazione, ma nell’esecuzione. I modelli stanno imparando a non blaterare, a non ripetersi, a seguire un percorso esatto. La DPO e i benchmark come EVA-Bench stanno costruendo le fondamenta per agenti che fanno, non solo che dicono. E quando questo sarà affidabile al 99%, il mondo enterprise cambierà faccia. Tenete d’occhio gli output strutturati: sono l’ultima frontiera, e forse la più importante.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

I modelli AI stanno imparando a non blaterare