L'harness conta più del modello

L’harness conta più del modello

L'harness engineering trasforma modelli linguistici in agenti AI autonomi, superando la scala dei parametri e abbattendo i costi.

L’harness engineering trasforma un generatore di token in un agente autonomo affidabile

Un modello linguistico, da solo, non esegue loop, non chiama API, non persiste uno stato. È un generatore di token, niente più. Eppure gran parte del dibattito pubblico sugli agenti AI si concentra sui parametri dei modelli, sulla scala, sulla prossima frontiera LLM. Chi costruisce sa che il salto vero avviene altrove: nel layer di orchestrazione che trasforma un generatore di testo in un sistema autonomo. La disciplina che progetta questo layer si chiama harness engineering e, dati alla mano, è lì che si decide il valore reale.

Il glossario di Hugging Face lo spiega senza ambiguità: non è un agente completo senza harness e scaffold. Il modello può esprimere l’intenzione di chiamare uno strumento, ma necessita di un harness per eseguire. Lo scaffolding definisce il comportamento attorno al modello: system prompt, descrizione degli strumenti, parsing delle risposte, gestione del contesto. L’harness chiama e gestisce il modello, orchestra le chiamate agli strumenti e decide quando fermarsi. Una policy non è agente: la policy definisce il comportamento, l’agente è il sistema completo che agisce nell’ambiente. Per la comunità, un agente è definito come Model + Harness.

I numeri della specializzazione: perché parametri più piccoli battono i giganti

Se l’harness è il cervello operativo, il modello specializzato mostra il potenziale della concentrazione verticale. Dharma AI ha addestrato un modello specializzato 3B che ha superato ogni API commerciale testata su un benchmark OCR di dominio specifico. Con solo 3 miliardi di parametri ha raggiunto un punteggio 0.911 nel punteggio composito. Ancora più importante: il costo operativo. Il modello da 3B è risultato circa 52x meno costoso per milione di pagine elaborato rispetto a Claude Opus 4.6. Non è un miglioramento marginale: è un cambio di ordine di grandezza reso possibile dalla scelta di specializzare, non di scalare.

Enterprise: i guardrail che rendono un agente affidabile

Mentre i benchmark dimostrano il potenziale della specializzazione, l’adozione enterprise richiede controlli che solo un harness ben progettato può offrire. OpenAI è stata riconosciuta come Gartner leader agenti coding nel Magic Quadrant per agenti AI enterprise.

Gartner ha sottolineato i controlli enterprise offerti dalla piattaforma: approval gates, RBAC, policy personalizzabili, sandboxing a livello OS e workspace governance auditabile. I recenti aggiornamenti Codex includono Codex Security, GPT-5.5-Cyber, supporto mobile, Remote SSH per ambienti di sviluppo gestiti, token e hook programmatici con scope, compatibilità HIPAA, disponibilità su Amazon Bedrock e un ecosistema di partner GSI.

La lezione per chi costruisce è chiara: il modello è una commodity. Il vantaggio competitivo si costruisce nel layer di esecuzione — nell’harness che decide quando fermarsi, come gestire un errore, quali guardrail attivare. La specializzazione dei parametri abbatte i costi, la qualità dell’harness determina l’affidabilità. Chi oggi investe nel prossimo LLM gigante forse sta guardando nel posto sbagliato. Il vero stack da progettare è quello che sta intorno al modello.

🍪 Impostazioni Cookie