Cosa rende possibile trovare agenti AI per qualsiasi compito?

La specifica Agentic Resource Discovery (ARD), un protocollo aperto sviluppato da Microsoft, Google e altri, permette di catalogare agenti su registri federati. Grazie a questo, strumenti come Discover Tool su Hugging Face consentono di cercare Skills e MCP Servers, rendendo la scoperta di agenti AI semplice e veloce.

Qual è il principale problema evidenziato riguardo agli agenti AI disponibili?

Il problema principale è la validazione: molti agenti promettono molto ma potrebbero non funzionare come previsto. La scoperta è diventata facile grazie all'ARD, ma senza una validazione robusta si rischia di utilizzare agenti inaffidabili nei propri flussi di lavoro.

Editorials Pick's 3 hours ago

scoprire un agente ai è facile, validarlo è un incubo

Q: Cos'è LifeSciBench e perché è significativo?

LifeSciBench è un benchmark rilasciato da OpenAI con 750 task scritti da esperti per valutare agenti AI in ambiti come biologia molecolare e scoperta di farmaci. Il 79% dei task richiede ragionamento multi-fase, con una media di quattro passaggi decisionali. Per costruirlo sono stati coinvolti 173 scienziati con dottorato, che hanno scritto 19.020 criteri di valutazione, con revisioni multiple per garantire l'affidabilità.

Q: Quali risultati ha ottenuto l'agente medico AMIE di Google?

In uno studio clinico con attori-pazienti, l'agente AI AMIE di Google ha eguagliato 21 medici di base nel ragionamento complessivo e li ha superati in precisione e allineamento alle linee guida. Per raggiungere questo livello di affidabilità è stato necessario un lavoro di validazione paragonabile a quello di LifeSciBench.

Q: Come potrebbe evolversi la specifica ARD per affrontare il problema della validazione?

La specifica ARD potrebbe evolversi per includere metadati di validazione, integrando badge di affidabilità basati su benchmark come LifeSciBench. Questo aiuterebbe gli utenti a distinguere agenti affidabili da quelli non testati.

La scoperta di agenti AI è ora semplice grazie a Strands Agents e ARD, ma la validazione rimane un collo di bottiglia critico.

La validazione degli agenti AI resta il grande ostacolo tra promessa e realtà

Immagina di lavorare in una compagnia assicurativa. Ogni giorno devi elaborare decine di sinistri, compilare moduli, verificare documenti, inviare notifiche. Un giorno scopri che puoi usare Strands Agents per gestire sinistri assicurativi. Lo installi, lo configuri e in pochi click hai un agente che fa il lavoro al posto tuo. Fantastico, no? E non serve nemmeno cercare a lungo: su Hugging Face, con Discover Tool per cercare Skills e MCP Servers, trovi migliaia di strumenti simili. È come entrare in un supermercato sterminato di agenti AI.

Tutto questo è reso possibile da la specifica Agentic Resource Discovery (ARD), un protocollo aperto sviluppato da Microsoft, Google e altri, che permette di catalogare agenti su registri federati. Il risultato? la ricerca semantica del loro Hub che integra gli agenti Skill funziona talmente bene che chiunque può trovare un agente per quasi qualsiasi compito. Perfino per controllare robot fisici: Strands Agents e LeRobot per controllare robot hardware è un altro esempio di quanto sia diventato semplice scovare soluzioni pronte all’uso.

Ma c’è un problema enorme: quanti di questi agenti funzionano davvero?

Il lato oscuro della validazione

Prendiamo le scienze della vita. OpenAI ha rilasciato LifeSciBench, un benchmark con 750 task scritti da esperti per valutare gli agenti AI su domini come biologia molecolare e scoperta di farmaci. Non sono esercizi semplici: il 79% sono task che richiedono ragionamento multi-fase, con una media di quattro passaggi decisionali. Inoltre, più della metà dei task richiede di interpretare artefatti quali grafici o sequenze. Per costruire questo benchmark ci sono voluti 173 scienziati in possesso di dottorato ed esperienza farmaceutica, che hanno scritto 19.020 criteri di valutazione dettagliati, una media di 25 per task. E non è finita: ogni task è passato attraverso revisione automatizzata e almeno due revisioni da parte di esperti, con un minimo di 90% di accordo tra i revisori.

In totale, LifeSciBench, con 1.062 artefatti e 453 revisori, è un’impresa titanica.

Non è solo un esercizio accademico. Google ha testato il suo agente medico AMIE in uno studio clinico che ha coinvolto attori-pazienti condotto da Google, confrontandolo con 21 medici di base. I risultati? AMIE, l’agente AI di Google ha eguagliato i medici nel ragionamento complessivo e li ha superati in precisione e allineamento alle linee guida. Ma per arrivare a quel livello di affidabilità, il lavoro dietro le quinte è stato paragonabile a quello di LifeSciBench.

E allora? Cosa ci aspetta?

La scoperta di agenti è ormai alla portata di un click, ma la validazione resta un collo di bottiglia. L’ARD e il Discover Tool rendono banale trovare strumenti, ma senza validazione robusta rischiamo di riempire i nostri flussi di lavoro di agenti che promettono molto e mantengono poco. La specifica ARD per la scoperta di agenti potrebbe evolversi per includere metadati di validazione, magari integrando badge di affidabilità basati su benchmark come LifeSciBench. Nel frattempo, se usi un agente AI, chiediti sempre: chi lo ha validato? Perché dietro ogni buon agente c’è un esercito di scienziati che ha sudato per renderlo affidabile.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

scoprire un agente ai è facile, validarlo è un incubo

La validazione degli agenti AI resta il grande ostacolo tra promessa e realtà

Il lato oscuro della validazione

E allora? Cosa ci aspetta?

La validazione degli agenti AI resta il grande ostacolo tra promessa e realtà

Il lato oscuro della validazione

E allora? Cosa ci aspetta?

Articoli correlati

La simulazione è diventata il nuovo motore dei dati.

Google toglierà agli inserzionisti la scelta delle parole chiave

Privacy a rischio: come le leggi sull’età normalizzano la sorveglianza digitale