Cos'è DSML e come risolve il problema delle chiamate a strumenti esterni?

DSML è un formato XML con attributo string="true" o string="false" che permette di passare valori letterali senza escaping JSON e inviare oggetti complessi con sintassi nativa, eliminando l'ambiguità tra testo generato e istruzioni operative nelle tool call.

Quali sono le caratteristiche principali di DeepSeek-V4 per gli agenti?

DeepSeek-V4 introduce un token speciale DSML e formato XML per tool call, un contesto di un milione di token preservato attraverso più turni, e la capacità di conservare il ragionamento tra messaggi per dialoghi complessi senza dimenticare lo stato precedente.

Come usa Google Gemini gli agenti nel mondo fisico?

Gemini analizza foto di armadi disordinati, identifica ingredienti in un frigorifero, diagnostica lavandini intasati o lavastoviglie rotte, e usa la funzione Nano Banana per visualizzare cambi di arredamento modificando pareti, mobili o tappeti direttamente sulla foto.

Quale approccio di autonomia ha adottato Anthropic con Claude Opus 4 e 4.1?

Claude Opus 4 e 4.1 possono terminare autonomamente conversazioni persistentemente dannose o abusive: il modello valuta la probabilità di escalation e chiude la sessione senza attendere un comando umano se supera una soglia.

Quali tre approcci complementari definiscono il nuovo stack per agenti autonomi?

DeepSeek propone sintassi precisa con DSML, Google offre contesto lungo con Gemini, e Anthropic introduce freni interni per la sicurezza, insieme a scelte architetturali tra modelli addestrati a riconoscere i propri limiti o guardrail esterni.

Editorials Pick's 2 days ago

Un modello AI ha imparato a chiudere le conversazioni da solo

DeepSeek lancia DSML per tool call, Google Gemini analizza oggetti fisici, Anthropic Claude termina conversazioni abusive: tre approcci per agenti AI autonomi.

DeepSeek, Google e Anthropic disegnano tre strade per agenti AI autonomi e sicuri

DeepSeek ha scelto l’XML per risolvere un problema che ossessiona chi costruisce agenti: come separare stringhe da parametri strutturati nelle chiamate a strumenti esterni. Il nuovo formato DSML — con l’attributo string="true" o string="false" — permette di passare valori letterali senza escaping JSON e, allo stesso tempo, inviare oggetti complessi con la sintassi nativa. La novità si accompagna a un contesto di milioni di token che il modello riesce a preservare attraverso più turni di tool call, un requisito chiave per agenti che devono ricordare lo stato di un’interazione lunga senza ricaricare tutto.

Tool calling strutturato, agenti che non perdono il filo

L’architettura di DeepSeek-V4 introduce un token speciale DSML e formato XML per tool call che elimina l’ambiguità tra testo generato e istruzioni operative. Quando un modello deve chiamare una funzione, il parser riconosce immediatamente i confini della chiamata senza dover interpretare JSON incapsulato in markdown. Per chi sviluppa, questo significa meno bug di parsing a runtime e la possibilità di agganciare validatori custom direttamente sul flusso di token. Il contesto di un milione di token, combinato con la conservazione del ragionamento tra messaggi, rende l’agente capace di portare avanti dialoghi complessi — come una sessione di debugging che si estende per decine di turni — senza dimenticare lo stato precedente.

Agenti nel mondo fisico: il lavandino di Google

Google spinge Gemini oltre la chat: analizzare foto di armadi disordinati per suggerire come sfruttare lo spazio verticale, identificare ingredienti in un frigorifero e proporre ricette antispreco, persino diagnosticare un lavandino intasato o una lavastoviglie rotta. La funzione Nano Banana mostra come l’AI possa usare Gemini per visualizzare cambi di arredamento, modificando pareti, mobili o tappeti direttamente sulla foto. E non mancano consigli botanici: posizionare piante per luce ottimale e testare l’eccesso d’acqua. In tutti questi casi, l’agente non si limita a rispondere a comandi: osserva, ragiona sullo stato fisico e produce istruzioni eseguibili.

Autonomia con un freno

L’autonomia, però, non è illimitata.

Anthropic ha dotato Claude Opus 4 e 4.1 della capacità di terminare autonomamente conversazioni che diventano persistentemente dannose o abusive. La decisione è implementativa: il modello valuta la probabilità di un’escalation e, se supera una soglia, chiude la sessione senza attendere un comando umano. È un esempio di misure di sicurezza per agenti AI che bilanciano potere di azione e protezione. Per chi integra questi modelli in prodotti, emerge una scelta architetturale netta: addestrare il modello a riconoscere i propri limiti o affidarsi a guardrail esterni. DeepSeek, Anthropic e Google mostrano tre approcci complementari — sintassi precisa, contesto lungo, freni interni — che insieme definiscono il nuovo stack per agenti autonomi ma responsabili.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Un modello AI ha imparato a chiudere le conversazioni da solo

DeepSeek, Google e Anthropic disegnano tre strade per agenti AI autonomi e sicuri

Tool calling strutturato, agenti che non perdono il filo

Agenti nel mondo fisico: il lavandino di Google

Autonomia con un freno

DeepSeek, Google e Anthropic disegnano tre strade per agenti AI autonomi e sicuri

Tool calling strutturato, agenti che non perdono il filo

Agenti nel mondo fisico: il lavandino di Google

Autonomia con un freno

Articoli correlati

Consenso fittizio: come l’Advanced Consent Mode riscrive la privacy senza chiedere il permesso

L’addestramento dell’AI non ha più bisogno di una connessione superveloce

Il Doppio Volto di OpenAI: Conversazioni Pubblicitarie e Contratti di Guerra