ReasoningBank: quando gli agenti AI imparano dai propri casini

Gli agenti AI stanno diventando sempre più bravi a gestire task complessi – navigazione web, debugging di codebasi enormi, quel genere di roba. Problema? Ogni volta ripartono da zero. Fanno gli stessi errori, scartano le stesse intuizioni utili, come quel collega che continua a dimenticare la password aziendale.

Finora le soluzioni erano due: o salvare tutto (tipo Synapse che registra ogni singola azione), o tenere solo i workflow vincenti (Agent Workflow Memory). Entrambe hanno un difetto fondamentale: la prima accumula tonnellate di dati senza distillare pattern riutilizzabili, la seconda ignora completamente i fallimenti. E sinceramente, è proprio dagli errori che si impara di più.

ReasoningBank: memoria che funziona davvero

Google Cloud ha rilasciato ReasoningBank, un framework che distilla insight utilizzabili sia dai successi che dai fallimenti. Presentato all’ICLR 2026, il sistema costruisce memorie strutturate ad alto livello invece di registrare ogni singolo click.

Ogni memoria contiene:

  • Titolo – identificatore conciso della strategia
  • Descrizione – riassunto breve
  • Content – i ragionamenti distillati, le decisioni, gli insight operativi estratti dall’esperienza

Il workflow è un loop continuo: recupero → estrazione → consolidamento. Prima di agire, l’agente consulta la ReasoningBank per raccogliere memorie rilevanti. Poi interagisce con l’ambiente, si auto-valuta tramite LLM-as-a-judge (e qui, sorpresa: non serve che sia perfetto, il sistema è robusto al rumore di valutazione), ed estrae insight dal successo o riflessioni dal fallimento.

Imparare dai casini (finalmente)

Ecco la parte interessante. Invece di salvare solo “click sul bottone Load More”, ReasoningBank impara dal fallimento a costruire guardrail strategici tipo: “verifica sempre l’identificatore di pagina prima di caricare altri risultati, per evitare trappole di scroll infinito”. Non è una checklist procedurale, è logica preventiva.

MaTTS: scaling che non butta via l’esplorazione

Il test-time scaling (TTS) – scalare il compute durante l’inferenza – funziona bene per math e competitive programming. Ma negli ambienti agentici? Di solito si butta via tutta la traiettoria di esplorazione e si tiene solo la risposta finale. Spreco totale.

Memory-aware Test-Time Scaling (MaTTS) collega esplicitamente memoria e scaling. Due modalità:

Parallel scaling – l’agente genera traiettorie multiple per la stessa query. Attraverso auto-contrasto, ReasoningBank confronta percorsi riusciti e falliti per distillare strategie più robuste.

Sequential scaling – l’agente raffina iterativamente il ragionamento in una singola traiettoria. ReasoningBank cattura questi insight intermedi sul trial-and-error progressivo.

Il circolo virtuoso: memorie di qualità guidano l’esplorazione scalata verso strategie promettenti, e in cambio le interazioni scalate generano segnali di apprendimento più ricchi che migliorano ulteriormente la ReasoningBank.

Numeri veri

Test su WebArena e SWE-Bench-Verified con Gemini-2.5-Flash, confrontando ReasoningBank contro baseline senza memoria (Vanilla ReAct), Synapse (Trajectory Memory) e AWM (Workflow Memory):

  • Success rate: +8.3% su WebArena, +4.6% su SWE-Bench-Verified rispetto agli agenti senza memoria
  • Efficienza: circa 3 step di esecuzione risparmiati per task su SWE-Bench-Verified (meno esplorazione random grazie all’accesso ai ragionamenti passati)
  • MaTTS synergy: con parallel scaling (k=5), ulteriore +3% di success rate e 0.4 step in meno su WebArena

Maturità strategica emergente

Durante i test è emerso qualcosa di interessante. All’inizio, le regole distillate dall’agente erano checklist procedurali base (“cerca link di pagina”). Man mano che affrontava più problemi, queste memorie venivano incorporate durante l’esecuzione. Costruendo su conoscenze esistenti, l’agente distillava nuove traiettorie in memorie più avanzate.

Nel tempo, le semplici checklist si sono evolute in strutture logiche composizionali e preventive. Tipo: “Cross-reference tasks continuamente con i filtri di pagina attivi per assicurarti che i dataset recuperati non vengano paginati prematuramente”. Non male per un sistema che impara dai propri errori.

Prospettive

ReasoningBank rappresenta un passo concreto verso agenti che evolvono continuamente durante il test-time invece di ripartire da zero ogni volta. Il codice è disponibile su GitHub – i ricercatori di Google sono convinti che lo scaling guidato dalla memoria sia una nuova frontiera critica per gli agenti AI.

E onestamente? Vedere un sistema che impara sistematicamente dai propri fallimenti invece di ignorarli fa quasi tenerezza. Quasi.