Ola todos! ecco le notizie dedicate al mondo IA del 08 Maggio 2026Qualcuno ha appena ucciso l’industria immobiliare. Un ragazzo ha scansionato un’intera casa con il telefono, l’ha caricata online e ora chiunque può visitarla da browser. Niente app, niente visori, niente agente. Solo un click e sei dentro. Ogni stanza, ogni angolo, ogni ombra. Fotorealismo puro.I numeri sono folli: commissione agente su una casa da cinquecentomila dollari? Quindicimila. Costo di questa scansione? Duecento dollari. Tempo per visitare cinquanta case? Una serata. Dimensione del file? Più piccola di un TikTok.La scienza dietro è ancora più pazza: si chiama 3D Gaussian Splatting. Invece di poligoni, usa milioni di minuscoli ‘splat’ di colore e profondità. L’IA ricostruisce la realtà dalle tue foto. Il risultato? Sembra che tu SIA LÌ.E non è finita qui…Next.js ha rilasciato le versioni 16.2.6 e 15.5.18 con importanti fix di sicurezza. Vulnerabilità multiple tra alte, moderate e basse severità, inclusa una upstream di React. Aggiornamento fortemente raccomandato.Ma c’è qualcosa di ancora più interessante…Google ha lanciato Gemini 3.1 Flash-Lite: il loro modello più efficiente dal punto di vista dei costi. Ottimizzato per task agentici ad alto volume, traduzione e processing dati semplici. Ora in produzione GA.Sempre in tema, ma con un salto di scala…Dopo settimane di test sui modelli cinesi, una nuova classifica per il coding: primo posto Kimi K2.6, seguito da GLM-5.1, MiMo V2.5 Pro, MiniMax 2.7 e DeepSeek V4 Pro. Ognuno con i propri superpoteri: K2.6 domina frontend e design, GLM-5.1 eccelle nel backend, MiMo nel code review.Qualcuno ha droppato un repo GitHub che scarica video da quasi ogni sito web. Si chiama ReClip. Self-hosted, open source. Incolla un link da YouTube, TikTok, Instagram, Twitter/X o mille altri siti. Scarica come MP4 o MP3. Niente pubblicità, niente popup, niente tracker. Supporta oltre mille siti, output MP4 o MP3, selezione risoluzione, download batch. È passato da zero a milleequattrocento stelle GitHub in nove giorni.E a proposito di automazione…La Cina ha reso open source un agente di automazione desktop che gira cento percento in locale. Vede il tuo schermo, controlla mouse e tastiera, completa task in qualsiasi app attraverso linguaggio naturale. Ventinovemila stelle su GitHub.Passiamo a qualcosa di completamente diverso…OpenAI ha lanciato tre nuovi modelli vocali realtime: GPT-Realtime-2 con ragionamento di classe GPT-5 per agenti vocali che possono pensare durante la conversazione, GPT-Realtime-Translate per traduzione live da settanta lingue input in tredici output, e GPT-Realtime-Whisper per trascrizione streaming mentre le persone parlano. Il contesto è salito da trentaduemila a centoventottomila token.GPT-Realtime-2 ha più che raddoppiato il suo predecessore sulla retention delle istruzioni: da trentasei virgola sette percento a settanta virgola otto percento APR. Sul benchmark Big Bench Audio raggiunge novantasei virgola sei percento, pari a Gemini 3.1 Flash Live Preview-High.Ma c’è dell’altro…La feature più virale di Anthropic è ora open source. CopilotKit ha rilasciato Open Generative UI, un’implementazione open source di Claude Artifacts che funziona in qualsiasi app. L’agente genera HTML/SVG runtime e CopilotKit lo streams token per token in un iframe sandboxato.Qualcuno ha rilasciato uno strumento che scarica video YouTube, rimuove la voce, trascrive, traduce in oltre cento lingue, clona la voce originale e ridoppia tutto. In meno di due minuti. Cento percento locale. Gratis.Sempre in tema, ma con un salto di scala…Qualcuno ha reso open source uno strumento che dà accesso diretto a Google Flights. Colpisce l’API di Google Flights direttamente, niente scraping, così Claude può trovare le date più economiche, filtrare per compagnie aeree, classe cabina, scali e finestre temporali in inglese semplice.Tencent ha rilasciato un modello cento percento open source che potrebbe essere migliore di Google Translate. E gira localmente sul tuo telefono. Solo quattrocentoquaranta megabyte, trentatré lingue, traduzione on-device completamente offline. Usano AngelSlim, il loro toolkit di compressione. Ecco perché il modello è così efficiente.Scale AI ha rilasciato Refactoring, l’ultimo leaderboard della suite SWE Atlas. Il test definitivo della capacità di un agente di ristrutturare codice senza rompere il sistema. Claude Opus 4.7 con Claude Code prende il primo posto.xAI sta preparando Grok Build per il rilascio su macOS, Windows e Linux. Supporterà planning mode, Plugins, Skills e MCPs. Potrà lavorare con l’albero Git, lanciare dev server e lavorare con un browser integrato.Microsoft ha rilasciato un corso gratuito di dodici lezioni su agenti AI. Codice reale, esercizi reali, zero teoria. CrewAI permette di costruire il primo crew multi-agente in meno di tre ore. Usato dal sessanta percento delle Fortune 500.LiveKit Inference ha reso disponibile il voice cloning. Lancio con Inworld e Cartesia. Clona una voce una volta e usala su più provider TTS, con fallback automatico alla stessa voce se un provider fallisce a metà chiamata. Gratis da creare, disponibile su tutti i piani a pagamento.Krisp ha rilasciato nuovi modelli per isolamento vocale, rilevamento turn, predizione turn e classificazione del parlato. Modelli audio dedicati e veloci che sono pilastri degli agenti vocali in produzione. Il modello VIVA voice isolation ha funzionato perfettamente anche sul pavimento rumorosissimo di una fiera con k-pop a tutto volume.Qualcuno ha costruito la prima suite Office al mondo progettata per agenti IA. Si chiama OfficeCLI e permette agli agenti di leggere, modificare e creare file Word, Excel e PowerPoint da linea di comando. Binario singolo senza dipendenze. Output JSON strutturato. Funziona su macOS, Linux e Windows.Tencent ha rilasciato Hy3 preview: un modello MoE da duecentonovantacinque miliardi di parametri, ventuno attivi, che sembra costruito per lavoro reale non per leaderboard. Duecentocinquantaseimila token di contesto, forte ragionamento più memoria in un flusso unico. Quaranta percento di efficienza in più. L’uso settimanale dei token ha superato i tre trilioni.Meta ha ufficialmente connesso Meta Ads a Claude. Il connettore è andato live il ventinove aprile duemilaventisei. Setup di sessanta secondi. Claude ha accesso completo read e write al tuo account pubblicitario. Può costruire l’intera struttura campagna, monitorare la salute del pixel, caricare cataloghi prodotti e generare report performance. Ventinove strumenti totali, tutti gratis durante la beta.MatLab ha droppato un Agentic Toolkit che permette a Claude, Codex, Gemini, Copilot di usare direttamente la tua istanza MATLAB locale. L’IA può eseguire codice MATLAB, eseguire test, fare debug, ispezionare toolbox, rivedere e modernizzare codice, costruire app, seguire best practice MATLAB automaticamente. Include skill IA specializzate.Qwen3.6-35B-A3B ha fatto un salto enorme nell’Object Detection. Score ODinW passato da quarantadue virgola sei a cinquanta virgola otto. Oltre al rilevamento standard, sfrutta il ragionamento LLM per identificare oggetti fine-grained come componenti PCB, rilevare auto piccole e occluse in parcheggi da vista aerea, gestire scene dense con oggetti multi-scala.Qualcuno ha costruito Lazyweb: duecentocinquantasettemila schermate reali di app e web, sei skill di ricerca design, e un MCP. Il tuo agente ora ha una libreria di riferimento prima di toccare un singolo componente. Gratis, nessun rate limit, nessuna sottoscrizione.Wan2.2: un modello image-to-video da quattordici miliardi di parametri che trasforma immagini statiche in video dinamici multi-scena. Costruito per la pipeline Diffusers.Il settore non si ferma mai.Salvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.