I modelli piccoli battono quelli giganti
DharmaOCR e Codex provano che modelli piccoli e specializzati superano i giganti in efficienza, costo e affidabilità.
Modelli piccoli e specializzati battono i giganti su efficienza e costi
Google ha annunciato che Gemini 3.5 Flash completa attività in frazioni di tempo a meno della metà del costo rispetto ad altri modelli frontier. Ma la vera lezione arriva da due casi che ribaltano la narrazione dominante: non serve un modello gigante per battere i giganti – serve un modello che conosca il suo dominio. DharmaOCR e Codex dimostrano che modelli piccoli e specializzati vincono su efficienza, costo e affidabilità.
Sotto il cofano di DharmaOCR: perché 3 miliardi di parametri bastano
Il team di Dharma-AI ha costruito un modello da 3 miliardi di parametri specializzato nel riconoscimento ottico di caratteri per documenti in portoghese brasiliano. I risultati parlano chiaro: la specializzazione batte la scala con un punteggio composito di 0,911 nel benchmark. Il modello ha prodotto il tasso di degenerazione testuale più basso, 0,20% – la metà del 0,40% del secondo miglior modello specializzato. Il benchmark copriva OCR su documenti stampati, manoscritti e atti legali, cioè esattamente lo scenario reale di un’azienda che processa moduli.
La chiave architetturale è l’addestramento mirato su un dominio ristretto: il modello impara la distribuzione statistica dei caratteri, delle scritture a mano e delle spaziature tipiche dei documenti brasiliani, senza diluire le capacità generaliste. Il risultato economico è sconcertante: il costo per milione di pagine processate è risultato circa 52 volte inferiore rispetto a Claude Opus 4.6. Per un’azienda che elabora milioni di documenti, questo non è un risparmio marginale, è un cambio di paradigma di bilancio.
Codex: il code review che gli ingegneri attendevano
Passiamo al codice. Ramp, azienda fintech americana, ha integrato Codex – il modello di OpenAI basato su GPT-5.5 – nel suo flusso di code review. I risultati sono altrettanto netti: gli sviluppatori attendevano ore per una prima revisione; ora ricevono feedback sostanziali in minuti. Austin Ray, VP of Engineering di Ramp, ha dichiarato che Codex cattura errori che lui stesso e altri ingegneri umani si lasciano sfuggire, e che oggi Codex è il gold standard del code review. Nessuna esagerazione: Codex accelera i rilasci perché il loop di feedback si accorcia da ore a minuti.
L’implicazione tecnica è profonda: il modello specializzato nel codice (Codex) non cerca di scrivere intere applicazioni, ma si concentra su un compito preciso – revisionare le pull request. Austin Ray ha previsto che gli ingegneri diventeranno orchestratori di AI, dove la competenza non è più scrivere ogni riga ma saper indirizzare questi strumenti, capire quando fidarsi e quando opporsi.
Ciò che cambia nello stack
La lezione per chi costruisce sistemi oggi è chiara: il costo di inferenza di un modello gigante non è giustificato dalla qualità su domini stretti. Un OCR specializzato, un code reviewer focalizzato – questi modelli non solo competono, ma dominano su metriche reali: accuratezza, velocità, costo. E la trasparenza tecnica dei progetti open source come DharmaOCR permette di replicare l’approccio su altri domini: documenti medici, fatte, estratti conto bancari. Lo stack di domani sarà un mosaico di modelli piccoli, addestrati su dati verticali, orchestrati da un meta-livello che decide a quale specialista delegare ogni richiesta. Il futuro non è un unico cervello onnisciente.
È una squadra di esperti.