Moonshot AI ha rilasciato Kimi K2.6, e guardando i numeri mi è venuto da pensare: aspetta, questo è davvero open-source?
Perché stiamo parlando di un modello che tiene testa a GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro su task di coding complessi. Non “ci va vicino” – li batte su diversi benchmark. E lo fa con licenza Apache 2.0, il che tradotto significa: fate quello che volete, zero vincoli commerciali.
4.000 chiamate tool in 12 ore (e non è impazzito)
Il caso più assurdo nei loro test: K2.6 ha scaricato e deployato Qwen3.5-0.8B su Mac, poi ha ottimizzato l’inferenza scrivendola in Zig – un linguaggio di nicchia che probabilmente nemmeno era nei dati di training. Risultato: throughput da 15 a 193 token/sec, battendo LM Studio del 20%.
Tutto questo attraverso 4.000+ chiamate tool, 12 ore di esecuzione continua, 14 iterazioni. Il tipo di sessione dove modelli normali si perdono al terzo step.
185% di performance su codice legacy
Altro test folle: hanno dato a K2.6 un matching engine finanziario di 8 anni (exchange-core). 13 ore dopo, il modello aveva:
- Analizzato flame graph di CPU e allocazioni
- Identificato bottleneck nascosti
- Riconfigurat la topologia dei thread (da 4ME+2RE a 2ME+1RE)
- Modificato 4.000+ righe di codice
Risultato: +185% di medium throughput, +133% di performance throughput. Su un engine già ottimizzato al limite.
Agent Swarm potenziato (300 sub-agent in parallelo)
Rispetto a K2.5, la versione Agent Swarm scala da 100 a 300 sub-agent eseguiti simultaneamente su 4.000 step coordinati. Non è solo “più grande” – cambia qualità:
- Ricerca broad + deep research in parallelo
- Analisi documenti + scrittura long-form simultanee
- Generazione multi-formato (doc, slide, spreadsheet, siti web) in un’unica run
Esempio pratico: gli hanno dato un CV e K2.6 ha spawnato 100 sub-agent per matchare 100 posizioni in California, generando dataset strutturato + 100 resume personalizzati.
Frontend design con tool di generazione visual
Oltre al coding puro, K2.6 fa qualcosa di interessante: da prompt semplice genera interfacce complete – layout strutturati, hero section estetiche, animazioni scroll-triggered. E usa attivamente tool di generazione immagini/video per creare asset visivamente coerenti.
Non solo static frontend: gestisce simple full-stack workflow – auth, user interaction, database ops per use case leggeri tipo transaction logging o session management.
Benchmark chiave (vs GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro):
- SWE-Bench Pro: 58.6% (batte tutti)
- Terminal-Bench 2.0: 66.7% (secondo dopo Gemini 68.5%)
- HLE-Full w/ tools: 54.0% (primo posto)
- DeepSearchQA f1-score: 92.5% (distacca GPT-5.4 di 14 punti)
- Claw Eval pass@3: 80.9%
Agent proattivi 24/7 (5 giorni senza supervisione)
Il team RL di Moonshot ha testato K2.6 come agent autonomo per 5 giorni consecutivi – monitoring, incident response, system operations. Gestione context persistente, task multi-thread, ciclo completo da alert a resolution.
Questo non è chatbot-che-risponde. È agent che gira in background, gestisce schedule, esegue codice, orchestra operazioni cross-platform senza intervento umano.
Claw Groups: bring your own agents
Preview di ricerca interessante: K2.6 coordina ecosistemi eterogenei di agent. Puoi portare agent da qualsiasi device (laptop, mobile, cloud), con qualsiasi modello, ognuno col proprio toolkit e memoria persistente.
K2.6 fa da coordinator: matcha task agli agent in base a skill profile, rileva failure, riassegna automaticamente, gestisce lifecycle completo dei deliverable.
Loro stessi dogfoodano questo: team marketing fatto di agent specializzati (Demo Maker, Benchmark Maker, Social Media Agent, Video Maker) coordinati da K2.6 per campagne end-to-end.
Valutazioni enterprise (beta test)
Diverse company hanno testato K2.6 in pre-release:
- CodeBuddy: +12% code generation accuracy, +18% long-context stability, 96.60% tool invocation success
- Vendor anonimo: +15% sui loro benchmark, migliore instruction following, meno coding error
- Hermes Agent: “Tool calling e agentic loop notevolmente più tight, coding step up evidente”
- Qoder: Aumento significativo nella frequenza di tool calling, maggiore proattività nell’execution
Disponibilità e costi
Disponibile su:
- Kimi.com e Kimi App
- API ufficiale
- Kimi Code
- Ollama (tutte le integrazioni out of the box)
Licenza: Apache 2.0 – zero sbattimenti per integrarlo in prodotti commerciali.
Performance SOTA a frazione del costo dei modelli proprietari. Per task long-context e agent always-on, il rapporto costo/performance è notevole.
Cosa significa per sviluppatori
Finalmente un modello open-source che regge sessioni di coding estese senza degradare. Instruction following solido, architectural integrity mantenuta su run lunghe, meno hack e workaround.
Per workflow agentic (tipo OpenClaw, Hermes, KiloClaw) è un salto qualitativo. Gestisce task decomposition in modo stabile, tool calling consistente, operazioni multi-step più streamlined.
E il fatto che sia open-source con Apache 2.0? Cambia le carte in tavola per team che vogliono customizzare, deployare on-premise, o integrare in prodotti senza vincoli di licensing.
