Gli agenti AI non ricordano abbastanza
La memoria è il collo di bottiglia degli agenti AI. Soluzioni come Bedrock AgentCore, CPU Vera e piattaforma Oz migliorano persistenza e bandwidth.
La memoria persistente e la larghezza di banda estrema superano i limiti del contesto a finestra fissa
La maggior parte delle demo di agenti AI si arena dopo pochi minuti di conversazione. Non per colpa del modello – spesso il problema è che l’agente non ricorda cosa ha fatto tre passi prima. Il benchmark ITBench-AA per agenti enterprise mostra che i modelli frontiera scendono sotto il 50% nei compiti agentici proprio perché, quando approfondiscono troppo, tendono a generare falsi positivi, confondendo sintomi con cause. La memoria non è un accessorio: è il collo di bottiglia invisibile.
Il collo di bottiglia della memoria conversazionale
Il problema è architetturale: gli agenti attuali ereditano il contesto delle chat a finestra fissa, ma appena il flusso supera qualche centinaio di token il modello perde coerenza. Amazon Bedrock AgentCore affronta la questione fornendo strategia di vendita agentica AI basata su memoria persistente per contesto di sessione e a lungo termine, mantenendo la conoscenza tra sessioni senza ricaricare tutto. L’architettura si estende anche a sistemi multi-agente serverless su LangGraph, dove la scalabilità orizzontale non perde mai lo stato.
Bandwidth e potenza: NVIDIA Vera riscrive le regole
La latenza di memoria è il secondo muro. NVIDIA ha risposto con Vera, una CPU che offre prestazioni della CPU Vera contro la concorrenza fino a 1.2 TB/s di bandwidth, con un consumo inferiore a 30 watt (efficienza energetica di Vera) e una bandwidth di picco doppia rispetto alle CPU tradizionali (bandwidth doppia di Vera). Per un agente che deve mantenere contesti lunghi in tempo reale, questo elimina il collo termico e riduce i costi energetici di oltre il 70% rispetto a DDR5.
Oz e AgentCore: persistenza a livello di piattaforma
Sul fronte orchestrale, Warp ha costruito la piattaforma open source Oz (scommessa di Warp su open source) per gestire agenti tra locale e cloud. Oz agisce come control plane (control plane di Warp), permettendo ai developer di lanciare agenti tramite interfaccia web (interfaccia di lancio agenti di Warp). Una volta avviati, gli agenti continuano in remoto mentre i developer ispezionano sessioni live (esecuzione remota di Warp). Oz supporta workflow ricorrenti come cron job (workflow ricorrenti di Warp) e usa tecniche come context compaction e memoria persistente (tecniche di persistenza di Warp) per mantenere l’affidabilità su flussi lunghi.
La combinazione di memoria persistente serverless, bandwidth estrema e orchestrazione intelligente cambia lo stack: non serve più ricaricare il contesto a ogni interazione, riducendo i costi di inferenza e migliorando l’affidabilità.
Per chi costruisce agenti, il messaggio è chiaro: ottimizzare la memoria è il nuovo fronte di battaglia.