scoprire un agente ai è facile, validarlo è un incubo
La scoperta di agenti AI è ora semplice grazie a Strands Agents e ARD, ma la validazione rimane un collo di bottiglia critico.
La validazione degli agenti AI resta il grande ostacolo tra promessa e realtà
Immagina di lavorare in una compagnia assicurativa. Ogni giorno devi elaborare decine di sinistri, compilare moduli, verificare documenti, inviare notifiche. Un giorno scopri che puoi usare Strands Agents per gestire sinistri assicurativi. Lo installi, lo configuri e in pochi click hai un agente che fa il lavoro al posto tuo. Fantastico, no? E non serve nemmeno cercare a lungo: su Hugging Face, con Discover Tool per cercare Skills e MCP Servers, trovi migliaia di strumenti simili. È come entrare in un supermercato sterminato di agenti AI.
Tutto questo è reso possibile da la specifica Agentic Resource Discovery (ARD), un protocollo aperto sviluppato da Microsoft, Google e altri, che permette di catalogare agenti su registri federati. Il risultato? la ricerca semantica del loro Hub che integra gli agenti Skill funziona talmente bene che chiunque può trovare un agente per quasi qualsiasi compito. Perfino per controllare robot fisici: Strands Agents e LeRobot per controllare robot hardware è un altro esempio di quanto sia diventato semplice scovare soluzioni pronte all’uso.
Ma c’è un problema enorme: quanti di questi agenti funzionano davvero?
Il lato oscuro della validazione
Prendiamo le scienze della vita. OpenAI ha rilasciato LifeSciBench, un benchmark con 750 task scritti da esperti per valutare gli agenti AI su domini come biologia molecolare e scoperta di farmaci. Non sono esercizi semplici: il 79% sono task che richiedono ragionamento multi-fase, con una media di quattro passaggi decisionali. Inoltre, più della metà dei task richiede di interpretare artefatti quali grafici o sequenze. Per costruire questo benchmark ci sono voluti 173 scienziati in possesso di dottorato ed esperienza farmaceutica, che hanno scritto 19.020 criteri di valutazione dettagliati, una media di 25 per task. E non è finita: ogni task è passato attraverso revisione automatizzata e almeno due revisioni da parte di esperti, con un minimo di 90% di accordo tra i revisori.
In totale, LifeSciBench, con 1.062 artefatti e 453 revisori, è un’impresa titanica.
Non è solo un esercizio accademico. Google ha testato il suo agente medico AMIE in uno studio clinico che ha coinvolto attori-pazienti condotto da Google, confrontandolo con 21 medici di base. I risultati? AMIE, l’agente AI di Google ha eguagliato i medici nel ragionamento complessivo e li ha superati in precisione e allineamento alle linee guida. Ma per arrivare a quel livello di affidabilità, il lavoro dietro le quinte è stato paragonabile a quello di LifeSciBench.
E allora? Cosa ci aspetta?
La scoperta di agenti è ormai alla portata di un click, ma la validazione resta un collo di bottiglia. L’ARD e il Discover Tool rendono banale trovare strumenti, ma senza validazione robusta rischiamo di riempire i nostri flussi di lavoro di agenti che promettono molto e mantengono poco. La specifica ARD per la scoperta di agenti potrebbe evolversi per includere metadati di validazione, magari integrando badge di affidabilità basati su benchmark come LifeSciBench. Nel frattempo, se usi un agente AI, chiediti sempre: chi lo ha validato? Perché dietro ogni buon agente c’è un esercito di scienziati che ha sudato per renderlo affidabile.