Notizie AI del 23 Giugno 2026

Ola todos! ecco le notizie dedicate al mondo IA del 23 Giugno 2026Passiamo a GLM-5.2, che adesso gira su AWS Marketplace. Accesso diretto tramite API unificata, senza server GPU da gestire in proprio. Workflows complessi, coding e ragionamento multi-step. Tutto dentro il cloud AWS.Nel frattempo, Meituan ha aperto il codice di LongCat-Video-Avatar. Un modello da tredici virgola sei miliardi di parametri che genera video digitali umani. Dai una foto e un audio: il sistema produce video in settecento venti p a trenta fotogrammi al secondo. Bocca, occhi, espressioni sincronizzati automaticamente. Inferenza più veloce di dieci volte rispetto ai competitor.Arriva anche Godogen su GitHub. Prompt in, gioco Godot out. Descrivi il gioco, l’AI costruisce progetto, logica, asset, engine. Se l’output non funziona, il sistema si corregge da solo. Tutto automatico dall’idea al primo prototipo giocabile.Sakana AI ha rilasciato Sakana Fugu. Un modello che orchestra altri modelli. Fugu Ultra raggiunge prestazioni simili a Claude Fable 5 e Mythos su benchmark complessi. Dietro una sola API, il sistema distribuisce task tra modelli specializzati, verifica risultati e restituisce una risposta unica.Da segnalare anche Unlimited-OCR di PaddlePaddle. Gestisce centinaia di pagine in un solo passaggio, mantenendo velocità costante. Novantatré percento su OmniDocBench. La chiave è R-SWA: tiene la cache KV costante durante la decodifica.Sempre attivo, Preferred Networks. Ha lanciato PLaMo tre punto zero Prime. Due varianti: Reasoning per task complessi, Non-reasoning per risposte rapide. Contesto esteso da sessantaquattro mila a duecentocinquantasei mila token. Sicurezza migliorata su contenuti rischiosi.Sul fronte robotica, il robot da ping pong Ace di Sony ha battuto Miyu Kihara sotto regole ufficiali ITTF. Prima vittoria documentata di un sistema AI contro un giocatore professionista in uno sport fisico.Si parla di Tabbit, browser agente di Meituan. Accesso gratuito a Claude Opus quattro punto otto, GPT-cinque punto cinque, GLM-cinque punto due. Cambio modello diretto dall’interfaccia. Versione internazionale disponibile per il download.Proseguiamo con Open Notebook, alternativa open source a Google NotebookLM Plus. Trentatreduemilaquattrocento star su GitHub. Ingerisce PDF, video, audio, pagine web. Chat con i tuoi documenti. Podcast multi-speaker personalizzabili. Gira completamente in locale con Ollama. Zero account, zero costi.Occhio a rmux. Riscrittura Rust di tmux, pensata per Agent. Gestione terminale multi-finestra con automazione nativa. Claude Code orchestra Codex e Gemini CLI sullo stesso terminale. Compatibile con oltre novanta comandi tmux.Merita attenzione StemDeck. Separa una traccia audio in sei stem indipendenti: voce, batteria, basso, chitarra, piano, altro. Mixer multi-traccia integrato. Esportazione singola o mix personalizzato. Locale, gratuito, open source.Spostamoci su PixelRAG. Salta parsing HTML. Screenshot della pagina, visione AI legge i pixel. Integrazione Claude Code tramite plugin MCP. Niente più dipendenze da struttura DOM.Altra novità: Hetty. Burp Suite open source. Dieci mila cinquecento star. Proxy HTTP completo: intercetta, modifica, ripete richieste. Windows, macOS, Linux.Colpo a sorpresa da Anthropic: tredici certificazioni Claude gratuite. Ufficiali, permanentemente gratis. Da Claude cento uno per principianti fino a MCP Advanced Topics per sviluppatori. Percorsi dedicati per educazione, nonprofit ed enterprise.Anche Google ha mosso le carte. Interactions API ora disponibile pubblicamente. Interfaccia primaria per modelli Gemini e agenti. Antigravity Agent con sandbox Linux isolato. Generazione immagini con Nano Banana, musica con Lyria 3. Esecuzione asincrona con background uguale true.Da non sottovalutare Page-Agent di Alibaba. Diciottomilasettecentostar. Agent frontend puro: clicca, compila form, opera interfacce web. Zero browser automation, zero screenshot, zero OCR. Linguaggio naturale come input.Interessante anche Violin su GitHub. Traduzione e doppiaggio automatico video. Trentatré lingue supportate. Whisper Large v3 per il riconoscimento, DeepSeek V4 Pro per traduzione, Cartesia Sonic 3 per sintesi vocale. Q&A diretto sul contenuto video.Si muove anche ElevenLabs. Ads Engine dentro ElevenCreative. Collega account Google, Meta, LinkedIn. Localizza campagne in oltre cinquanta lingue. Push diretto alle piattaforme pubblicitarie.Chiudiamo con Thinking in Boxes. Editing 3D per immagini tramite interfaccia a box. FLUX-Kontext più LoRA. Traduzione, rotazione, scaling precisi. Preservazione oggetti e fedeltà geometrica. Virtual staging ed e-commerce.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.