Continual Learning: Perché i Modelli AI Hanno Bisogno di Vera Memoria

In Memento di Christopher Nolan, Leonard Shelby vive intrappolato in un eterno presente. Dopo un trauma cranico che gli ha causato amnesia anterograda, non riesce più a formare nuovi ricordi. Ogni pochi minuti il suo mondo si resetta, lasciandolo sospeso in un adesso perpetuo. Per sopravvivere, si tatua note sul corpo e scatta Polaroid che fungono da stampelle esterne per ricordargli ciò che il cervello non può trattenere.

I large language models vivono nello stesso eterno presente. Emergono dal training con una conoscenza vasta congelata nei parametri, ma non possono formare nuovi ricordi – non possono aggiornare i parametri in risposta a nuove esperienze. Per compensare, li circondiamo di impalcature: cronologia delle chat come post-it temporanei, sistemi di retrieval come quaderni esterni, system prompt come tatuaggi guida. Il modello stesso non interiorizza mai davvero le nuove informazioni.

Il paradosso della compressione

C’è una convinzione crescente tra alcuni ricercatori che tutto questo non basti. L’in-context learning (ICL) funziona per problemi dove la risposta, o pezzi della risposta, esiste già da qualche parte. Ma per problemi che richiedono vera scoperta – matematica innovativa, scenari avversariali come la sicurezza, o conoscenza troppo tacita per essere espressa a parole – serve che i modelli possano aggiornare direttamente i loro parametri dopo il deployment.

L’ICL è transitorio. L’apprendimento vero richiede compressione. E qui sta il punto che Ilya Sutskever ha fatto prima: gli LLM sono, fondamentalmente, algoritmi di compressione. Durante il training comprimono internet nei parametri. La compressione è lossy, ed è proprio questo che la rende potente. Comprimere costringe il modello a trovare strutture, generalizzare, costruire rappresentazioni che trasferiscono attraverso contesti. Un modello che memorizza ogni esempio di training è peggiore di uno che estrae i pattern sottostanti. La compressione lossy è l’apprendimento.

L’ironia? Il meccanismo che rende gli LLM potenti durante il training è esattamente quello che gli impediamo di usare dopo il deployment. Fermiamo la compressione nel momento del rilascio e la sostituiamo con memoria esterna. Certo, molti agent harness comprimono il contesto in qualche modo custom. Ma la bitter lesson non suggerisce che i modelli stessi dovrebbero imparare a fare questa compressione, direttamente e su larga scala?

La fallacia dell’archivio infinito

Immaginate un sistema con storage infinito. L’archivio più grande del mondo, ogni fatto perfettamente indicizzato, recuperabile all’istante. Può cercare qualsiasi cosa. Ha imparato?

No. Non è mai stato costretto a fare la compressione.

Yu Sun condivide un esempio per illustrare il dibattito: la matematica. Prendiamo l’Ultimo Teorema di Fermat. Per oltre 350 anni nessun matematico riuscì a dimostrarlo – non perché mancasse accesso alla letteratura giusta, ma perché la soluzione era radicalmente nuova. La distanza concettuale tra la matematica consolidata e la risposta finale era semplicemente troppo vasta. Quando Andrew Wiles finalmente lo risolse negli anni ’90, dopo sette anni di lavoro in quasi totale isolamento, dovette inventare tecniche completamente nuove. La sua dimostrazione collegava due branche distinte della matematica: curve ellittiche e forme modulari. Ken Ribet aveva dimostrato che provare questa connessione avrebbe automaticamente risolto il teorema di Fermat, ma nessuno possedeva il macchinario teorico per costruire quel ponte fino a Wiles.

La domanda centrale: questi esempi dimostrano che agli LLM manca qualcosa – qualche capacità di aggiornare le proprie credenze e pensare in modi davvero creativi? O dimostrano il contrario – che tutta la conoscenza umana è solo dati disponibili per training/ricombinazione, e Wiles dimostra semplicemente cosa gli LLM potrebbero fare a scala ancora maggiore?

Questa domanda è empirica. La risposta non la conosciamo ancora. Ma sappiamo che ci sono molte classi di problemi dove l’in-context learning fallisce oggi e dove il parametric learning potrebbe avere impatto.

Cosa manca al contesto

L’in-context learning è limitato a ciò che può essere espresso in linguaggio, mentre i pesi possono codificare concetti che il prompt di qualcuno non può trasmettere in testo. Alcuni pattern sono troppo multidimensionali, troppo taciti, troppo strutturalmente profondi per stare in un contesto. Per esempio, la texture visiva che distingue un artefatto benigno da un tumore in una scansione medica, o le micro-fluttuazioni audio che definiscono la cadenza unica di un parlante, sono pattern che non si scompongono facilmente in parole esatte. Il linguaggio può solo approssimarli. Nessun prompt, per quanto lungo, può trasferirli; quel tipo di conoscenza può vivere solo nei pesi.

Questo potrebbe spiegare perché le funzionalità esplicite di “il bot ti ricorda”, come la memoria di ChatGPT, spesso innescano disagio negli utenti piuttosto che gioia. Gli utenti non vogliono davvero il recall di per sé. Vogliono competenza. Un modello che ha interiorizzato i tuoi pattern può generalizzare a situazioni nuove; un modello che semplicemente richiama la tua cronologia no. La differenza tra “Ecco cosa hai risposto a questa email prima” (verbatim) vs “Capisco come pensi abbastanza bene da anticipare cosa ti serve” è la differenza tra retrieval e learning.

Approcci al continual learning

Ci sono vari approcci. La linea divisoria non è “funzionalità di memoria” vs “nessuna funzionalità di memoria”. È: dove avviene la compattazione?

Gli approcci si raggruppano lungo uno spettro da nessuna compattazione (puro retrieval, pesi congelati), a piena compattazione interna (apprendimento a livello di pesi, il modello diventa più intelligente), con un importante punto intermedio (moduli).

Contesto: I team costruiscono pipeline di retrieval più intelligenti, harness per agenti, orchestrazione di prompt. Questa è la categoria più matura: l’infrastruttura è provata e la storia di deployment è pulita. Il limite è la profondità: la lunghezza del contesto.

Un’estensione emergente che vale la pena notare: architetture multi-agente come strategia di scaling per il contesto stesso. Se un singolo modello è limitato da una finestra di 128K token, uno sciame coordinato di agenti – ciascuno con il proprio contesto, specializzato su una fetta del problema, che comunica risultati – può approssimare collettivamente memoria di lavoro illimitata.

Moduli: I team costruiscono moduli di conoscenza attaccabili (cache KV compresse, layer adapter, memory store esterni) che specializzano un modello general-purpose senza ritrainarlo. Un modello 8B con il modulo giusto può eguagliare le performance di uno da 109B su task mirati usando una frazione della memoria. L’appeal è che funziona con l’infrastruttura transformer esistente.

Pesi: I ricercatori perseguono vero apprendimento parametrico: layer di memoria sparse che aggiornano solo la frazione rilevante di parametri, loop di reinforcement learning che raffinano i modelli dal feedback, test-time training che comprime il contesto nei pesi durante l’inferenza. Questi sono gli approcci più profondi e più difficili da deployare, ma quelli che permettono davvero ai modelli di interiorizzare completamente nuove informazioni o skill.

Il panorama di ricerca a livello di pesi abbraccia diverse linee parallele. I metodi di regolarizzazione e weight-space sono i più vecchi: EWC penalizza le modifiche ai parametri in proporzione alla loro importanza per task precedenti, e l’interpolazione dei pesi fonde configurazioni vecchie e nuove nello spazio dei parametri, anche se entrambi tendono a essere fragili su larga scala. Il test-time training prende un approccio diverso: esegue gradient descent su dati test-time, comprimendo nuove informazioni nei parametri nel momento in cui conta. Il meta-learning chiede se possiamo trainare modelli che imparano come imparare. La distillazione preserva la conoscenza di task precedenti facendo corrispondere uno studente a un checkpoint teacher congelato. Il recursive self-improvement opera con spirito simile: STaR fa bootstrapping del ragionamento da rationales auto-generate, AlphaEvolve ha scoperto miglioramenti ad algoritmi intoccati per decenni.

Il landscape delle startup

L’estremità non-parametrica dello spettro è la più familiare. Le harness company (Letta, mem0, Subconscious) costruiscono layer di orchestrazione che gestiscono cosa va nella finestra di contesto. Gli storage esterni e l’infrastruttura RAG (Pinecone, xmemory) forniscono la backbone di retrieval. I dati esistono, la sfida è ottenere la giusta fetta di essi davanti al modello al momento giusto.

Il lato parametrico è più precoce e vario. Le aziende qui tentano qualche versione di compressione post-deployment, lasciando che i modelli interiorizzino nuove informazioni nei pesi. Gli approcci si raggruppano in alcune scommesse distinte su come i modelli dovrebbero imparare dopo il rilascio:

  • Compattazione parziale: moduli di conoscenza attaccabili che specializzano un modello senza toccare i pesi core
  • Loop RL e feedback: modelli che trattano ogni interazione come potenziale segnale di training
  • Approcci data-centric: focus su curare, generare o sintetizzare i dati giusti per guidare aggiornamenti continui
  • Architetture nuove: la scommessa più radicale che l’architettura transformer stessa sia il collo di bottiglia

Tutti i major lab sono attivi attraverso queste categorie. Il campo è abbastanza precoce che nessun singolo approccio ha vinto, e dato il range di casi d’uso, nessuno dovrebbe.

Perché gli aggiornamenti naif dei pesi falliscono

Aggiornare i parametri del modello in produzione introduce una cascata di modalità di fallimento che sono, finora, irrisolte su larga scala.

I problemi ingegneristici sono ben documentati. Catastrophic forgetting significa che modelli abbastanza sensibili da imparare da nuovi dati distruggono rappresentazioni esistenti – il dilemma stabilità-plasticità. Il temporal disentanglement è il fatto che regole invarianti e stato mutabile vengono compressi negli stessi pesi, quindi aggiornare uno corrompe l’altro. L’integrazione logica fallisce perché gli aggiornamenti dei fatti non si propagano alle loro conseguenze. E l’unlearning rimane impossibile: non c’è operazione differenziabile per la sottrazione.

Ma c’è un secondo set di problemi che riceve meno attenzione. L’attuale separazione tra training e deployment non è solo una convenienza ingegneristica – è un confine di sicurezza, auditabilità e governance. Aprilo, e diverse cose si rompono in una volta. L’allineamento di sicurezza può degradare imprevedibilmente. Gli aggiornamenti continui creano una superficie di data poisoning – una versione lenta e persistente di prompt injection che vive nei pesi. L’auditabilità si rompe perché un modello che si aggiorna continuamente è un bersaglio mobile che non può essere versionato, regression-testato o certificato una volta. E i rischi privacy si intensificano quando le interazioni utente vengono compresse in parametri.

Questi sono problemi aperti, non impossibilità fondamentali, e risolverli è tanto parte dell’agenda di ricerca sul continual learning quanto risolvere sfide architetturali core.

Da Memento a memoria

La tragedia di Leonard in Memento non è che non possa funzionare: è intraprendente, persino brillante dentro qualsiasi scena data. La sua tragedia è che non può mai comporre. Ogni esperienza rimane esterna – una Polaroid, un tatuaggio, una nota nella calligrafia di qualcun altro. Può recuperare, ma non può comprimere la nuova conoscenza.

Mentre Leonard si muove attraverso questo labirinto auto-costruito, la linea tra verità e credenza inizia a sfumare. La sua condizione non gli toglie solo la memoria; lo costringe a ricostruire costantemente significato, rendendolo sia investigatore che narratore inaffidabile della propria storia.

L’AI di oggi opera sotto lo stesso vincolo. Abbiamo costruito sistemi di retrieval straordinariamente capaci: finestre di contesto più lunghe, harness più intelligenti, sciami multi-agente coordinati – e funzionano! Ma il retrieval non è apprendimento. Un sistema che può cercare qualsiasi fatto non è stato costretto a trovare struttura. Non è stato costretto a generalizzare. La compressione lossy che rende il training così potente, il meccanismo che trasforma dati grezzi in rappresentazioni trasferibili, è esattamente quello che spegniamo nel momento in cui facciamo deployment.

Il percorso avanti probabilmente non è una singola svolta ma un sistema stratificato. L’in-context learning rimarrà la prima linea di adattamento: è nativo, provato e in miglioramento. I meccanismi modulari possono gestire il middle ground di personalizzazione e specializzazione di dominio. Ma per i problemi difficili – scoperta, adattamento avversariale, conoscenza troppo tacita per essere espressa con parole – potremmo aver bisogno di modelli che comprimono esperienza nei loro parametri dopo il training. Questo significa avanzamenti in architetture sparse, obiettivi di meta-learning e loop di self-improvement. Potrebbe anche richiedere di ridefinire cosa significa “un modello”: non un set fisso di pesi, ma un sistema in evoluzione che include le sue memorie, i suoi algoritmi di aggiornamento e la sua capacità di astrarre dalla propria esperienza.

L’archivio continua a diventare più grande. Ma un archivio più grande è ancora un archivio. La svolta è lasciare che il modello faccia dopo il deployment ciò che l’ha reso potente durante il training: comprimere, astrarre e imparare. Siamo sulla soglia di passare da modelli amnesici a modelli con un barlume di esperienza. Altrimenti, resteremo bloccati nel nostro Memento.