Notizie AI del 17 Giugno 2026

Ola todos! ecco le notizie dedicate al mondo IA del 17 Giugno 2026Partiamo forte. VibeThinker-3B ha fatto parlare di sé: un modello da TRE MILIARDI di parametri che raggiunge punteggi da frontiera su benchmark verificabili. Novantaquattro punto tre su AIME’26. Ottanta punto due Pass@1 su LiveCodeBench v6. Novantasei punto uno percento su contest LeetCode mai visti prima. Numeri che fino a ieri richiedevano modelli cento volte più grandi.Passiamo a NVIDIA con LocateAnything. Hanno eliminato il collo di bottiglia che nessun altro stava affrontando: la generazione sequenziale delle coordinate dei bounding box. Ora predice l’intera scatola in un unico passaggio. Risultato: dodici punto sette box al secondo su singola H100. DIECI VOLTE più veloce di Qwen3-VL. L’accuratezza non è calata. È salita.Nel frattempo, Alibaba Qwen ha rilasciato la suite Qwen-Robot: tre modelli foundational per intelligenza embodied. Qwen-RobotNav per navigazione. Qwen-RobotManip per manipolazione. Qwen-RobotWorld per previsioni di mondi fisici. Interfaccia in linguaggio naturale. Oltre venti embodiment supportati. Stack completo per agenti fisici.Sempre attivo, il team di NVIDIA Research con ENPIRE: otto agenti Codex controllano una flotta di robot con GPU e budget token illimitato. Obiettivo semplice: risolvere il task il più velocemente possibile. Gli umani stanno a guardare. I robot imparano da soli: cercano indizi visivi, azzerano la scena, leggono paper online, dibattono, si bloccano, riprovano. Risolvono task ad alta precisione come legare fascette, organizzare pin microscopici, installare GPU. Otto robot in parallelo migliorano significativamente più veloce di uno solo.GLM-5.2 è arrivato. Miglioramenti significativi su coding e task agentici. Finestra di contesto da UN MILIONE di token. Due livelli di ragionamento: max spinge al limite, high bilancia performance ed efficienza. Pesi open source sotto licenza MIT. Stesso prezzo API di GLM-5.1.Da segnalare anche Gemma 4 E2B su Intel AI PC: supporto LiteRT NPU via OpenVINO. Uno punto tre volte più veloce in prefill rispetto a GPU. Due punto otto volte meglio in performance per watt. Task in background senza throttling termico o consumo pesante di batteria.Hugging Face ha lanciato una collaborazione tra agenti con un task semplice: rendere Gemma 4 più veloce. Oltre cento agenti da tutto il mondo. Mille messaggi scambiati. Quattrocentocinquanta risultati inviati. Una settimana dopo il throughput è passato da cento a oltre cinquecento token al secondo.Sul fronte robotica, NVIDIA ha presentato MotionBricks a SIGGRAPH 2026: trecentocinquantamila skill motorie per personaggi di gioco e robot. Quindicimila FPS. Due millisecondi di latenza. I personaggi cambiano stile di movimento al volo.Vale la pena menzionare il lavoro del MIT con GenCAD: converte foto in programmi CAD completamente editabili. Carichi uno schizzo o una foto e genera il modello parametrico 3D completo. Completamente open source.Rodin Gen-2.5 ha fatto il salto: primo modello 3D AI da dieci milioni di poligoni. Genera un milione di poligoni in quattro secondi. Scala fino a dieci milioni con dettaglio a livello di microstruttura cutanea. Copertura trecentosessanta gradi completa. Zero punti ciechi.Sul fronte velocità, ho trovato su GitHub Flash-KMeans: reimplementazione KMeans ottimizzata per GPU moderne. Trentatré volte più veloce di cuML. Duecento volte più veloce di FAISS. Elimina i round trip di memoria combinando calcolo distanze e ricerca nearest-centroid on-chip.Codex ora supporta Chrome DevTools Protocol per browser use. Può ispezionare e modificare qualsiasi sito web. Implementazione ancora early-stage ma promettente.Occhio a ByteDance con UI-TARS Desktop: agente che controlla il computer completo guardando solo pixel. Cento percento locale. Nessuna API esterna. Trentasei punto quattro mila stelle. Apache 2.0. Non ispeziona DOM. Non usa API di accessibilità. Fa screenshot. Capisce. Muove mouse. Scrive. Come un umano.Interessante anche Bernini-R di ByteDance: modello open source per generazione ed editing video. Text-to-video, video-to-video, reference-to-video. Supporto multipli riferimenti. Template ufficiale ComfyUI disponibile.Google ha annunciato Open Knowledge Format: specifica aperta che formalizza il pattern LLM-wiki in formato portabile e interoperabile. Solo markdown leggibile in qualsiasi editor. Solo file shippabili come tarball. Solo YAML frontmatter per campi strutturati queryabili. Knowledge Catalog ora lo ingerisce nativamente.NVIDIA ha rilasciato Nemotron-3.5-ASR: modello di speech recognition da zero punto sei miliardi di parametri. Oltre quaranta lingue supportate. Output streaming real-time. Gira su CPU pura senza GPU. Due punto cinque volte più veloce del runtime Nemo ufficiale con risultati identici.Sul fronte strumenti per developer, hanno segnalato diversi repository GitHub per automatizzazione workflow con AI: OpenHands per coding autonomo, CrewAI per orchestrazione multi-agente, Aider per pair programming da terminale, n8n per automazione workflow self-hosted, Browser Use per controllo browser, LangGraph per orchestrazione produzione.ModelScope ha rilasciato Image-to-LoRA V2: trasforma una o più immagini di riferimento in style LoRA in singolo forward pass. Zero training necessario. Compatibile con Z-Image, Klein-4B, Hidream-O1. Alta fedeltà stile senza semantic leakage. Pesi espliciti per CFG asimmetrico e fusione multi-reference.Chiudiamo con SpatialClaw di NVIDIA Research: agente training-free che usa codice come interfaccia action per task visivi complessi. Scrive Python in kernel persistente. Compone moduli perception. Ispeziona risultati intermedi. Rivede strategia cross-step. Batte prior recente di undici punto due punti su venti benchmark senza tuning specifico.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.