Kimi Agent Swarm: quando l’AI smette di essere un assistente e diventa un’azienda

Il martello più leggero non risolve il problema delle due mani

C’è una cosa che mi ha colpito negli ultimi meeting tech a cui ho partecipato. Tutti parlano di inferenza più veloce, finestre di contesto più lunghe, costi che scendono. Come se avessimo passato anni a perfezionare il martello – più leggero, più bilanciato, più preciso – dimenticandoci che il falegname ha comunque solo due mani e ventiquattro ore.

Moonshot AI ha deciso di cambiare prospettiva. Con Kimi Agent Swarm non parliamo di un martello migliore. Parliamo di ricostruire l’intero laboratorio.

Non è collaborazione tra agenti, è auto-organizzazione

Fatemi essere chiaro su cosa distingue Agent Swarm da quello che abbiamo visto finora. Non è la storia dei ‘tanti agenti AI che lavorano insieme’. È un’architettura organizzativa con capi, dipendenti, divisione del lavoro – solo che questa organizzazione non la disegna un umano.

Si disegna da sola.

Quando chiedete ad Agent Swarm di fare ricerca su un argomento, non state comandando un assistente. State assumendo un CEO che si trova da solo ricercatori, analisti, fact-checker. Li assume sul momento. E voi non dovete fare micromanagement.

I numeri parlano chiaro:

Fino a 100 sub-agent che lavorano in parallelo
Oltre 1.500 chiamate a strumenti esterni
Risultati migliori in tempi 4.5 volte più rapidi rispetto all’esecuzione sequenziale

Il muro contro cui sbattono tutti gli agenti singoli

Per capire perché questo approccio ha senso, bisogna guardare dove fallisce il modello tradizionale. E no, non è una questione di intelligenza del modello.

Il collo di bottiglia vero nell’AI reasoning oggi è il modello stesso di esecuzione: un singolo agente, che lavora in sequenza. Provate a far analizzare cento aziende o sintetizzare decine di paper a uno strumento di deep research single-agent. Cosa succede? La finestra di contesto si riempie. Il sistema inizia a comprimere la storia, a riassumere per fare spazio a nuovi token. Questa compressione perde informazioni. Il ragionamento successivo peggiora.

Non è un bug. Non è una limitazione temporanea. È un soffitto strutturale imposto dalle finestre di contesto, dal tempo, e dal fatto che un singolo agente deve gestire tutto il ragionamento a lungo termine.

Scalare in orizzontale, non solo in verticale

Per anni la narrativa dominante nell’AI è stata lo scaling verticale: modelli più grandi, più parametri, benchmark migliori. Ha funzionato. Ma lo scaling verticale ha un tetto – fisico, economico, forse intellettuale.

Lo scaling orizzontale è diverso. Un cervello contro molti. Un singolo modello è un esperto. Una rete auto-organizzante è un’azienda, un laboratorio, un’agenzia di intelligence.

L’idea di Agent Swarm è nata – e questa storia me la sono fatta raccontare – da una collega del team Moonshot che faceva trading amatoriale. Voleva che Kimi raccogliesse automaticamente informazioni giornaliere sulle azioni. Ha scritto un workflow Python, una cascata di if-else. Alla riga cento si è fermata. ‘Sto programmando a mano un sistema multi-agente.’

Se i modelli sanno usare strumenti e gestire task a lungo termine, perché non possono progettarsi da soli? Decidere quando parallelizzare, chi assumere, come delegare?

PARL: come si addestra un’organizzazione che si crea da sola

Qui la cosa si fa tecnica – ma è il cuore di tutto. Agent Swarm usa una metodologia chiamata PARL, Parallel-Agent Reinforcement Learning. È un cambio di paradigma rispetto agli approcci tradizionali.

Ci sono due componenti principali:

Orchestrator Agent – un agente orchestratore che impara a decomporre compiti complessi in sotto-compiti parallelizzabili
Sub-agents – agenti specializzati creati dinamicamente che eseguono sotto-compiti specifici, ‘congelati’ durante l’addestramento

La formula del reward è la parte interessante. Include tre componenti: un incentivo alla parallelizzazione (per evitare che il sistema torni all’esecuzione sequenziale anche quando potrebbe parallelizzare), un focus sul completamento dei sotto-compiti (per evitare parallelizzazioni fittizie senza vera decomposizione), e una valutazione del successo complessivo.

Il problema principale che dovevano risolvere? Il ‘serial collapse’ – quando l’orchestratore decide di tornare all’esecuzione single-agent nonostante abbia la capacità di parallelizzare. È un po’ come avere un’azienda con cento dipendenti dove il CEO insiste a fare tutto da solo.

Dove Agent Swarm eccelle davvero

Ovviamente Agent Swarm funziona bene dove il lavoro si parallelizza: ricerca ampia, download in batch, elaborazione di file multipli, analisi multi-angolo, scrittura di contenuti lunghi.

Ma il beneficio più profondo è strutturale. Crea le condizioni per il disaccordo produttivo – agenti indipendenti che arrivano a conclusioni diverse, poi forzati a riconciliarle. Evita il groupthink per design, non per caso.

Scoperta su larga scala

Caso semplice: trovare una montagna di cose difficili da trovare. Volete i top 3 creator in 100 nicchie YouTube diverse? K2.5 Agent Swarm prima ricerca e definisce ogni dominio, poi crea autonomamente 100 sub-agent per ricerche parallele.

Oppure raccogliere tutti i 200+ saggi di Paul Graham, sparsi tra siti personali, vecchi blog, talk trascritti. Agent Swarm assegna sub-agent specializzati per cercare, scaricare, categorizzare, riassumere. Risultato: oltre 200 saggi organizzati in 6 cartelle tematiche con un report riassuntivo.

Produzione su larga scala

Oltre a raccogliere informazioni sparse, potete far consumare ad Agent Swarm enormi set di documenti e coordinare esperti per produrre report professionali di livello editoriale.

Esempio: generare una literature review di 100 pagine da quaranta PDF di psicologia sociale. K2.5 Agent Swarm decompone il task attraverso il set di documenti, schiera sub-agent focalizzati sulla scrittura. Ognuno si occupa di sezioni specifiche, gli output vengono sintetizzati in un documento accademico a due colonne con citazioni e riferimenti formattati.

Prospettive multiple simultanee

Il caso d’uso più interessante è quando serve il disaccordo stesso – quando volete vedere un problema attraverso prospettive multiple contemporaneamente.

State lanciando un prodotto complesso? Schierate un team di esperti: il VC scettico che mette in discussione l’economia unitaria, il PM veterano preoccupato per il debito tecnico, l’eticista che sonda i dark pattern, il customer success che difende i casi limite.

Oppure esplorate direzioni narrative diverse. Potete far continuare ‘Il problema dei tre corpi’ di Liu Cixin a 20 scrittori con stili letterari diversi: dal monologo interiore alla Virginia Woolf ai labirinti di idee alla Borges, ai mondi assurdi kafkiani, alle storie di destino ripetuto alla García Márquez.

Il modello sotto il cofano: Kimi K2.5

Agent Swarm gira su Kimi K2.5 – e qui i numeri sono impressionanti, ma ve li do con contesto. È un modello MoE con 1 trilione di parametri totali, di cui 32 miliardi attivi. Addestrato su circa 15 trilioni di token misti.

Finestra di contesto da 256k token. Quattro modalità operative: Instant, Thinking, Agent, e Agent Swarm in beta.

Sui benchmark? 50.2% su HLE (l’esame finale dell’umanità, diciamo così), 74.9% su BrowseComp, 78.5% su MMMU Pro. In confronti diretti, prestazioni competitive o superiori a GPT-5.2, Claude Opus 4.5 e Gemini 3 Pro su diversi benchmark agentic.

Ma ecco il punto che mi interessa di più: i costi. Input a $0.60 per milione di token (che scendono a $0.10 per input cachati), output a $3.00 per milione. Claude Opus 4.5? $15 e $75 rispettivamente. Stiamo parlando di 100 e 30 volte più costoso.

Deployment locale: cosa serve davvero

Per chi vuole farlo girare in casa – e so che molti di voi ci stanno pensando – ecco la realtà.

Setup minimo con compressione estrema: 1 GPU con 24GB VRAM, 256GB RAM di sistema, 240GB di storage. Velocità? 1-2 token al secondo. Usabile per test, non per produzione.

Setup raccomandato per produzione: 2 H100 o 8 A100, quantizzazione INT4. Circa 600GB per i pesi quantizzati.

K2.5 è rilasciato sotto licenza MIT modificata, pesi su Hugging Face. C’è una clausola: prodotti commerciali con oltre 100 milioni di utenti mensili attivi o oltre 20 milioni di dollari di fatturato mensile devono mostrare ‘Kimi K2.5’ nell’interfaccia. Per tutti gli altri, zero vincoli.

Il contesto competitivo e cosa significa per il settore

Moonshot AI opera in quello che chiamano il mercato degli ‘AI Tigers’ cinesi – ByteDance Doubao, DeepSeek, Alibaba Qwen, Baidu ERNIE. A livello globale, OpenAI, Anthropic, Google, Meta.

L’azienda ha raccolto oltre 1 miliardo di dollari in vari round. Valutazione stimata a dicembre 2025: 4.8 miliardi. A novembre 2025, circa 80 dipendenti e 240 milioni di fatturato annuo. Il chatbot Kimi ha raggiunto 36 milioni di utenti attivi mensili al picco.

Quello che Agent Swarm rappresenta – e qui mi permetto una riflessione – è un cambio di paradigma significativo. Mentre l’industria si è concentrata per anni su modelli sempre più grandi, questo dimostra il valore dello scaling orizzontale attraverso la coordinazione di agenti multipli.

La capacità di auto-organizzarsi senza workflow predefiniti è un passo verso sistemi AI più autonomi e adattivi. Il rilascio open-source con pricing competitivo rende capacità agentic avanzate accessibili a una gamma più ampia di sviluppatori.

E non posso ignorare l’elefante nella stanza: Agent Swarm e K2.5 dimostrano la crescente competitività delle aziende AI cinesi, con prestazioni che competono o superano i modelli frontier americani a una frazione del costo.

Verso sistemi che si migliorano da soli

Moonshot AI ha indicato che continuerà a rafforzare l’architettura di Agent Swarm. Prossimi passi: comunicazione diretta tra sub-agent, controllo dinamico della larghezza parallela, ulteriori ottimizzazioni per scenari di ricerca ampia.

La visione del fondatore Yang Zhilin punta a tre milestone: lunghezza di contesto lungo (fatto), modello mondiale multimodale (in corso), architettura generale scalabile capace di auto-miglioramento continuo senza input umano.

L’ultimo punto è quello che mi fa riflettere. Sistemi AI che non solo si organizzano da soli, ma si migliorano da soli. Agent Swarm è un primo passo concreto in quella direzione – non più un assistente che aspetta comandi, ma un’organizzazione che cresce e si adatta.

Per provarlo: kimi.com/agent-swarm. Agent Swarm è disponibile per gli abbonati Top Tier.