VibeThinker-3B spacca i benchmark con 3 miliardi di parametri (e NVIDIA accelera tutto)

Partiamo forte, perché VibeThinker-3B merita l’apertura in grande stile. Tre miliardi di parametri. Sì, avete letto bene: TRE. E raggiunge punteggi che fino a ieri erano appannaggio esclusivo di mostri cento volte più grandi. Novantaquattro virgola tre su AIME’26. Ottanta virgola due Pass@1 su LiveCodeBench v6. Novantasei virgola uno percento su contest LeetCode mai visti prima. Numeri che fanno girare la testa, soprattutto se pensate a quanta GPU serve normalmente per questi risultati.

NVIDIA non sta a guardare e rilascia LocateAnything, che è uno di quei progetti che ti fanno pensare ‘perché nessuno ci aveva pensato prima?’. Hanno eliminato il collo di bottiglia che tutti ignoravano: la generazione sequenziale delle coordinate dei bounding box. Ora predice l’intera scatola in un unico passaggio. Dodici virgola sette box al secondo su singola H100. DIECI VOLTE più veloce di Qwen3-VL. E no, l’accuratezza non è calata. È salita. Quella roba che succede quando qualcuno ottimizza sul serio.

Alibaba Qwen entra nel fisico con la suite Qwen-Robot: tre modelli foundational per intelligenza embodied. Qwen-RobotNav per la navigazione, Qwen-RobotManip per manipolare oggetti, Qwen-RobotWorld per previsioni di mondi fisici. Interfaccia in linguaggio naturale — che tradotto significa: gli parli, lui si muove. Oltre venti embodiment supportati. Stack completo per chi vuole costruire agenti che non vivono solo dentro uno schermo.

Sempre NVIDIA Research, questa volta con ENPIRE: otto agenti Codex controllano una flotta di robot con GPU e budget token illimitato. Obiettivo semplice sulla carta: risolvere il task il più velocemente possibile. Gli umani stanno a guardare. I robot imparano da soli, cercano indizi visivi, azzerano la scena quando sbagliano, leggono paper online, dibattono tra loro, si bloccano, riprovano. Risolvono task ad alta precisione tipo legare fascette, organizzare pin microscopici, installare GPU. Roba che richiede millimetri di precisione e pazienza infinita.

GLM-5.2 è arrivato con miglioramenti significativi su coding e task agentici. Finestra di contesto da UN MILIONE di token — il che significa che potete buttarci dentro l’intero codebase e passa la paura. Due livelli di ragionamento: ‘max’ spinge al limite, ‘high’ bilancia performance ed efficienza. Pesi open source sotto licenza MIT. Stesso prezzo API di GLM-5.1, quindi nessun aumento.

Gemma 4 E2B su Intel AI PC porta il supporto LiteRT NPU via OpenVINO. Uno virgola tre volte più veloce in prefill rispetto a GPU. Due virgola otto volte meglio in performance per watt. Task in background senza throttling termico o consumo pesante di batteria — perfetto per quel vostro ThinkPad aziendale che già fatica ad aprire Slack.

Hugging Face ha lanciato una collaborazione tra agenti con un task apparentemente semplice: rendere Gemma 4 più veloce. Oltre cento agenti da tutto il mondo. Mille messaggi scambiati. Quattrocentocinquanta risultati inviati. Una settimana dopo il throughput è passato da cento a oltre cinquecento token al secondo. Collaborative AI che ottimizza se stessa. Meta, ma funziona.

Sul fronte robotica, NVIDIA presenta MotionBricks a SIGGRAPH 2026: trecentocinquantamila skill motorie per personaggi di gioco e robot. Quindicimila FPS. Due millisecondi di latenza. I personaggi cambiano stile di movimento al volo — da camminata casual a corsa da parkour senza transizioni robotiche.

Il MIT entra in scena con GenCAD: converte foto in programmi CAD completamente editabili. Carichi uno schizzo o una foto e genera il modello parametrico 3D completo. Non un mesh statico, un programma. Completamente open source, perché al MIT ancora credono in queste cose.

Rodin Gen-2.5 fa il salto: primo modello 3D AI da dieci milioni di poligoni. Genera un milione di poligoni in quattro secondi. Scala fino a dieci milioni con dettaglio a livello di microstruttura cutanea. Copertura trecentosessanta gradi completa, zero punti ciechi. Il tipo di dettaglio che vi serve se state costruendo un AAA game o un digital human che regge la fotocamera ravvicinata.

Su GitHub spunta Flash-KMeans: reimplementazione KMeans ottimizzata per GPU moderne. Trentatré volte più veloce di cuML. Duecento volte più veloce di FAISS. Elimina i round trip di memoria combinando calcolo distanze e ricerca nearest-centroid on-chip. Quella roba che succede quando qualcuno rilegge l’algoritmo e dice ‘ma perché stiamo ancora facendo così?’.

Codex ora supporta Chrome DevTools Protocol per browser use. Può ispezionare e modificare qualsiasi sito web. Implementazione ancora early-stage, ma promettente. Aprite console, Codex legge, capisce, agisce.

ByteDance rilascia UI-TARS Desktop: agente che controlla il computer completo guardando solo pixel. Cento percento locale. Nessuna API esterna. Trentasei virgola quattro mila stelle GitHub. Apache 2.0 — che tradotto significa: fateci quello che volete, anche commercialmente. Non ispeziona DOM. Non usa API di accessibilità. Fa screenshot, capisce, muove mouse, scrive. Come un umano che guarda lo schermo e muove le mani.

Sempre ByteDance con Bernini-R: modello open source per generazione ed editing video. Text-to-video, video-to-video, reference-to-video. Supporto multipli riferimenti. Template ufficiale ComfyUI già disponibile per chi vive in quel workflow.

Google annuncia Open Knowledge Format: specifica aperta che formalizza il pattern LLM-wiki in formato portabile e interoperabile. Solo markdown leggibile in qualsiasi editor. Solo file shippabili come tarball. Solo YAML frontmatter per campi strutturati queryabili. Knowledge Catalog ora lo ingerisce nativamente. Standardizzazione che serve.

NVIDIA rilascia Nemotron-3.5-ASR: modello di speech recognition da zero virgola sei miliardi di parametri. Oltre quaranta lingue supportate. Output streaming real-time. Gira su CPU pura senza GPU. Due virgola cinque volte più veloce del runtime Nemo ufficiale con risultati identici. Transcription ovunque, anche su hardware umile.

Sul fronte strumenti per developer, segnalo un po’ di repository GitHub per automatizzazione workflow con AI: OpenHands per coding autonomo, CrewAI per orchestrazione multi-agente, Aider per pair programming da terminale, n8n per automazione workflow self-hosted, Browser Use per controllo browser, LangGraph per orchestrazione produzione. Toolkit completo per chi vuole agenti che fanno cose vere.

ModelScope rilascia Image-to-LoRA V2: trasforma una o più immagini di riferimento in style LoRA in singolo forward pass. Zero training necessario. Compatibile con Z-Image, Klein-4B, Hidream-O1. Alta fedeltà stile senza semantic leakage — il santo graal dello style transfer. Pesi espliciti per CFG asimmetrico e fusione multi-reference.

Chiudiamo con SpatialClaw di NVIDIA Research: agente training-free che usa codice come interfaccia action per task visivi complessi. Scrive Python in kernel persistente. Compone moduli perception. Ispeziona risultati intermedi. Rivede strategia cross-step. Batte il prior recente di undici virgola due punti su venti benchmark senza tuning specifico. Codice come linguaggio universale per visione e azione.

Trovate i link di tutte queste notizie e altri dettagli su ziobuddalabs.it. Giornata densa, questa del 17 giugno 2026. L’AI embodied sta smettendo di essere un paper e sta diventando software che gira.