Ola todos! ecco le notizie dedicate al mondo IA del 19 Maggio 2026Microsoft ha rilasciato un modello da quattro miliardi di parametri che trasforma qualsiasi immagine in asset tridimensionale completo. TRE SECONDI. Usa un formato geometrico chiamato O-Voxel e converte tutto in mesh con texture in meno di cento millisecondi su CUDA. Output GLB con materiali PBR completi. Blender, Unity, Unreal. Completamente open source.E passiamo al dubbing locale…Qualcuno ha appena rilasciato OmniVoice Studio. Un’alternativa open source che probabilmente sostituisce settecentoventi dollari l’anno tra ElevenLabs e HeyGen. Drop di un MP4. Auto-trascrizione con Whisper, traduzione, clonaggio vocale da tre secondi di audio, separazione musica di sottofondo con Demucs, mix finale. Seicento lingue. Gira su Mac, NVIDIA, AMD o CPU. Locale. Zero costi.Ma c’è qualcosa di ancora più interessante…Google I/O leak conferma che l’app desktop Gemini sta diventando un vero agente locale. Due workspace: modalità Chat standard e Spark Mode dedicato ai task locali. Gemini Spark sembra potersi collegare a cartelle, analizzare codice, eseguire script, organizzare file, sincronizzare con Drive. Stream to Cursor funziona come Magic Pointer: Gemini capisce il contesto di qualsiasi finestra sotto il cursore. Overlay floating con condivisione schermo istantanea e switch rapido tra Gemini tre Flash e tre punto uno Pro. Supporto locale per Skills custom. Internamente Gemini Omni è chiamato Veo4 Omni.Passiamo al codice. Un tool open source crea un grafo semantico locale del tuo progetto per ridurre drasticamente i token bruciati dall’IA. NOVANTADUE PERCENTO tool call in meno. Settantuno percento più veloce nell’esplorazione. Compatibile con Claude Code, Cursor, Codex e OpenCode.E a proposito di compressione…Alibaba Qwen ha rilasciato Qwen-Image-VAE-due punto zero. VAE ultra-compresso per image generation. Global Skip Connections per dettagli nitidi, architettura asimmetrica per calcolo ridotto e velocità aumentata, semantic alignment per comprensione precisa. Il punto di svolta: riproduzione perfetta di testo su poster e documenti, storicamente il limite peggiore dei modelli generativi. Supera FLUX punto uno dev con compressione più alta.Sempre in tema, ma con un salto di scala…SenseTime ha rilasciato SenseNova U1. Primo modello che elabora pixel e parole contemporaneamente senza visual encoder né VAE. Un cervello unificato che processa immagini e testo insieme, senza traduzione di modalità.Passiamo ai world model. HY World due punto zero è stato completamente open-sourced. Codice di inferenza completo e tutti i modelli. World model interattivo per costruire ambienti simulati. E sempre su world model, Odyssey ha rilasciato Starchild-1. Primo world model multimodale realtime. Genera sia visuale che audio del mondo simulato in tempo reale.E passiamo alla produzione video. ViMax trasforma idee, script o interi romanzi in video professionali completi. Multi-agent coordination end-to-end. Dirige, scrive, produce da solo. Coerenza di personaggi, scene connesse, narrativa strutturata. Quattromila cento stelle. Rilasciato da Hong Kong University.ByteDance ha rilasciato Lance, modello multimodale unificato per comprensione, generazione ed editing di immagini e video. Tre miliardi per video, tre per immagini, tre per decoder. Architettura nativa unified. Multi-task synergy. Open source.E chiudiamo con hardware. AMD ha svelato il PC di sviluppo AI più piccolo al mondo, capace di eseguire modelli da duecento miliardi di parametri in locale.GitHub ha rilasciato Spec Kit. Novantacinquemila stelle in pochi giorni. Risolve il problema principale del vibe coding: invece di prompt vaghi e speranza, Spec Kit obbliga l’IA a creare prima una specifica strutturata, poi programma. Flusso: constitution, specify, clarify, plan, tasks, implement. Compatibile con Claude Code, Cursor, Copilot, Codex, Gemini CLI e oltre venticinque agenti.VS Code ora si connette direttamente a Google Colab. Codice locale, calcolo remoto gratuito. GPU T4 gratis dentro il tuo editor.Qualcuno ha rilasciato Audiblez, tool open source che trasforma EPUB in audiolibro completo su laptop locale. Usa Kokoro-ottantadue M, modello TTS da ottantadue milioni di parametri. Output M4B riproducibile ovunque. Cinque minuti su Google Colab T4, un’ora su M2 MacBook Pro CPU. Interfaccia grafica, supporto CUDA, lingue multiple, selezione voce. Zero subscription.E infine: Gemini tre punto cinque Flash ha costruito un intero web OS stile Windows da un singolo prompt. Singolo file HTML con CSS e JS embedded. Taskbar, start menu, finestre draggable e resizable, file explorer funzionale, terminale, browser mockup, icone desktop, notifiche, app impostazioni, temi, boot screen. Tutto in una pass, quasi senza correzioni.Roba da tenere d’occhio.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.