Ola todos! ecco le notizie dedicate al mondo IA del 09 Giugno 2026Grok Imagine 1.5 debutta su Higgsfield e domina la classifica Image-to-Video di Artificial Analysis: 1404 Elo, numero uno. Mantiene dettagli e fedeltà della luce dall’immagine originale. Tessuti, acqua, capelli e vetro: tutti renderizzati meglio.Nel frattempo, Tencent e diverse università hanno rilasciato MMAE, primo benchmark per l’editing audio. Non genera da zero: modifica file esistenti seguendo istruzioni in linguaggio naturale. Cambia solo quello che serve, lascia il resto intatto. Duemila campioni, oltre diciassettemila criteri di valutazione. I modelli attuali? Sotto il cinque percento di precisione.Quasar rilascia Quasar-Preview: diciotto miliardi di parametri, due attivi, cinque milioni di token di contesto. Loop Transformer più Quasar attention. Addestrato su Bittensor con infrastruttura decentralizzata. Prima prova pubblica che l’architettura Quasar funziona in scala reale.Passiamo a Nex AGI, che ha reso open source Nex-N2: una serie di modelli agentici per coding, ricerca e workflow lunghi. Nex-N2-Pro ha trecentonovantasette miliardi totali, diciassette attivi. Nex-N2-mini trentacinque totali, tre attivi. Ragionamento adattivo, licenza Apache. Settantacinque punto tre su Terminal-Bench, ottanta punto otto su SWE-Bench Verified.Sempre nel mondo AI, LongCat-Video-Avatar 1.5 di Meituan: framework open source per avatar parlanti da foto singola. Sincronizzazione labiale stabile, supporta video lunghi e conversazioni multi-persona. Funziona in cinese e inglese, stili realistici o animati. Licenza MIT, pronto per uso commerciale.Google aggiorna NotebookLM: ora gira su Gemini 3.5, ragionamento avanzato per progetti complessi. Nuovi formati di output: grafici, documenti, dati strutturati. Supporta PNG, SVG, PDF, DOCX, CSV, JSON, JPG, GIF, XLSX e PPTX. Ricerca più fluida, partenza immediata anche da idee vaghe.A proposito di compressione, TurboVec di Google: riduce trentuno gigabyte di memoria AI a quattro. Sedici volte meno spazio, ricerca più veloce di FAISS. Funziona offline, compatibile con LangChain e LlamaIndex. Open source.Kimi AI lancia Kimi Work: agente desktop locale che gestisce fino a trecento agenti in parallelo. Usa WebBridge per navigare, cercare, cliccare. Include strumenti finanziari nativi per Yahoo Finance, World Bank e Binance. Sistema di memoria che traccia preferenze e contesto. Output pronti in PPTX, Word, PDF ed Excel. Disponibile per macOS Apple Silicon e Windows.Da segnalare anche Voice-Pro: trasforma video YouTube eliminando audio originale, trascrive, traduce in oltre cento lingue, clona la voce originale e ridoppia. Gira localmente. Completamente gratuito. Meno di due minuti per video.Interessante anche JoyAI-Echo di JD: modello video open source per modifiche con linguaggio naturale. Cambia volti e voci in video lunghi senza rigenerare tutto. Genera video fino a cinque minuti. Completamente open source.Si muove anche NVIDIA con SkillSpector: strumento open source per rilevare vulnerabilità nelle skill degli agenti. Blocca prompt injection, esfiltrazioni dati, dipendenze vulnerabili e codice pericoloso.vLLM-Omni 0.22.0 è uscito: supporto day-zero per Cosmos 3 di NVIDIA. Testo, immagini, audio, video e azioni, in entrata e in uscita. Serving robotica con DreamZero e OpenPI. Supporto TTS con Qwen3-TTS, Qwen3-Omni e VoxCPM2. Trecentotrentanove commit, centoventiquattro contributor.ViMax della Hong Kong University: genera video professionali da idea, script o romanzo. Multi-agent per regia, sceneggiatura e produzione. Ruoli coerenti, scene collegate, storia completa. Già novemilauno stelle su GitHub.FLUX.2 klein ora gira on-device sui laptop ASUS ProArt con GPU RTX. Primo modello FLUX su hardware consumer. Generazione immagini sotto cinque secondi su otto gigabyte di VRAM. Nessuna API, nessun backend. Disponibile in MuseTree su tutta la linea ProArt.Google rilascia AI Edge Eloquent: app di dettatura gratuita per Mac e iPhone. Gira interamente on-device con Gemma 4 12B. Trascrive, rimuove parole di riempimento, lucida il testo. Comandi vocali per riformattare. Trascrizione audio e video integrata. Richiede Mac con almeno sedici gigabyte di RAM.llama.cpp aggiunge supporto video input: ora puoi usare le capacità di comprensione video di Gemma 4 direttamente via chat completions endpoint e mtmd-cli.ComfyUI lancia Comfy Desktop: app completamente ricostruita. Gestisce istanze multiple di ComfyUI con diverse versioni e custom node. Snapshot automatici prima di ogni update. Rollback con un click. Aggiornamenti day-zero per nuove release.Chiudiamo con HyperFrames: hanno reso open source dieci template frame.md per migliorare i tuoi video. Include tool gratuito per creare frame.md dal tuo design.md.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.