SkillOpt ha ribaltato la gerarchia dei parametri

SkillOpt ha ribaltato la gerarchia dei parametri

SkillOpt ottimizza skill testuali con meno di 1000 token, superando modelli più grandi. Trasferibile tra ambienti, ribalta le gerarchie consolidate.

Un file di 920 token che vale miliardi di parametri nei test

Trattare un file di skill come un parametro addestrabile fuori dal modello congelato: è l’intuizione dietro SkillOpt. Il risultato è un prompt di meno di mille token che ribalta le gerarchie consolidate. Una frase calibrata vale miliardi di parametri. Nei casi di studio, la lunghezza mediana delle skill ottimizzate si ferma a 920 token.

L’officina delle skill

La validazione SkillOpt applica modifiche testuali delimitate, un gate di validazione, feedback sugli edit rifiutati e aggiornamenti lenti. Solo uno a quattro edit accettati da SkillOpt sopravvivono fino al file definitivo, e il sistema evita così derive incontrollate del prompt. Su OfficeQA, SkillOpt su OfficeQA registra un balzo di 39 punti con un solo edit accettato. La compattezza è una scelta architetturale, non un effetto collaterale.

Ancora più sorprendente è la trasferibilità: una skill per fogli di calcolo addestrata dentro Codex, spostata in Claude Code senza ulteriore tuning, ha alzato la baseline da 22.1 a 81.8 punti, superando persino l’addestramento diretto in Claude Code (80.4). SkillOpt trasferibile tra ambienti dimostra che le competenze testuali catturate sono workflow riutilizzabili, non semplici istruzioni per un benchmark.

La prova definitiva arriva dai numeri. In sei benchmark, tre modalità di esecuzione e sette modelli target, SkillOpt è il metodo migliore o a pari merito in tutte le 52 celle di valutazione: non lascia spazio a repliche.

Con GPT-5.5, l’incremento medio di SkillOpt passa da 58.8 a 82.3 punti (+23.5), superando di 5.4 punti l’oracolo che sceglie il miglior metodo per ogni cella. E Qwen3.5-4B, un modello open-weight da 4 miliardi di parametri, guidato da SkillOpt, scavalca la baseline senza skill di GPT-5.2: SkillOpt su modelli da 4 miliardi di parametri ribalta l’assioma che più grande è meglio.

La rivincita del contesto

Il fenomeno non è isolato a SkillOpt. Microsoft Research ha proposto la rappresentazione armonica Memora, che ridefinisce lo stato dell’arte su LoCoMo e LongMemEval battendo Mem0, RAG e inferenza a contesto pieno. La compressione contestuale di Memora riduce il consumo di token fino al 98% rispetto all’inferenza full-context, dimostrando che una gestione più intelligente del contesto è più efficace che aumentare la finestra di attenzione.

Sul fronte del retrieval, HippoRAG abilita il retrieval multi-hop in un singolo passo, eliminando iterazioni multiple. Non è solo un guadagno di velocità: è un cambio di architettura che riduce latenza e rischio di allucinazioni. Parallelamente, lo studio Google Thinking to Recall mostra come il ragionamento esplicito possa sbloccare conoscenza parametrica in modelli come Gemini-2.5 e Qwen3-32B, confermando che la capacità di “pensare per ricordare” amplifica le prestazioni senza bisogno di parametri aggiuntivi.

Anche la memoria strutturata beneficia di filtri testuali. Su un test set di 151 domande in conversazioni multi-sessione, l’attivazione del filtraggio con metadati in AgentCore Memory ha alzato l’accuratezza complessiva dal 40% al 64%. Per domande che richiedono confini temporali, priorità o ambiti dipartimentali, l’accuratezza su query contestuali è passata dal 16% al 69%. La qualità del filtraggio testuale ribalta esiti che sembravano condannati.

Il cantiere aperto

Per chi costruisce agenti e pipeline RAG, la direzione è netta: investire sull’ennesimo modello da trilioni di parametri offre rendimenti decrescenti rispetto a un’ingegneria del contesto affilata. La trasferibilità delle skill ottimizzate suggerisce che stiamo distillando workflow generali, non prompt monouso. Il file da 920 token diventa un asset portabile, un componente dello stack al pari di un container o di una libreria.

Il collo di bottiglia è l’ingegneria testuale.

Se un singolo edit può valere 39 punti su un benchmark, la disciplina con cui si progetta, si valida e si manutiene il testo che alimenta il modello diventa il differenziale competitivo primario. Non serve un gigante: serve una frase calibrata.

🍪 Impostazioni Cookie