Notizie AI del 15 Maggio 2026

Ola todos! ecco le notizie dedicate al mondo IA del 15 Maggio 2026Un tizio ha costruito un sistema automatico anti-piccioni per il balcone. Telecamera USB cattura il video. YOLO World V2 identifica il piccione in tempo reale. Pistola ad acqua su servo motori punta e spara automaticamente. Gira su Orange Pi cinque. NPU dedicata per riconoscimento. Zero intervento manuale. Ventiquattro-sette. E funziona con qualsiasi cosa: scoiattoli, gatti, procioni. Rilevamento open vocabulary. Cambi il target quando vuoi.E non è finita qui…OpenAI ha portato Codex nell’app mobile di ChatGPT. Inizi un progetto, rivedi output, guidi l’esecuzione e approvi i prossimi step dal telefono. Codex continua a girare sul tuo laptop o devbox. Controllo remoto completo. Preview già disponibile.Ma c’è qualcosa di ancora più interessante…xAI ha lanciato Grok Build: CLI agente per coding, app e automazione workflow. Beta precoce riservata ai subscriber SuperGrok Heavy. Feedback utenti guiderà miglioramenti modello e prodotto. Si prova già ora.Sempre in tema, ma con un salto di scala…Gemini tre punto due Flash potrebbe raggiungere il novantadue percento delle performance di GPT cinque punto cinque su coding e reasoning. Costi inferenza quindici-venti volte inferiori. Latenza sotto i duecento millisecondi per la maggior parte delle query. Distillazione e sparsity tecniche di Google stanno comprimendo un modello frontier in una variante flash senza perdite di qualità drastiche.Passiamo a qualcosa di completamente diverso…È uscito un toolkit open source per generare ambienti tridimensionali con Claude Code. Input: un’immagine. Output: environment, mesh, fisica, lighting e audio. Completo. Si può provare subito.E a proposito di audio…Scenema Audio è il nuovo generatore vocale open source. Controllo emotivo avanzato. Clonazione vocale zero-shot. Tag di azione per direzione scenica, multilingue, narrazione lunga. Gira in locale. Gratis. LTX-due punto tre: hanno estratto solo il bit audio, fatto fine-tuning per TTS e raggiunto controllo emotivo di altissimo livello. Anche questa versione è già testabile.Un progetto GitHub chiamato agency-agents ha creato centoqarantaquattro agenti IA corrispondenti a quasi tutti i lavori del mondo. Frontend developer, UI designer, social media manager, sales, data engineer, legal advisor. Sessantamila stelle. Completamente open source. Si integra con Codex o Claude Code. Minuti per far girare un team virtuale completo. Perfetto per indie developer e piccoli team.Anthropoc ha pubblicato un workshop di ventotto minuti su come scrivere prompt per Claude. Insegnato da chi ha costruito il modello. Gratuito. Nessuna registrazione. Copre più di corsi da trecento dollari. Da guardare e salvare subito.Tavus ha rilasciato Image-to-Replica. Qualsiasi volto che esiste come singola immagine può sostenere una conversazione reale. Mascotte di brand, figure storiche, personaggi IA. Basta una foto. Dialoga.Google starebbe testando Gemini Spark: agente IA ventiquattro-sette per gestione inbox, task online, interazione con siti web, app connesse, chat e workflow produttivi. Impara da app Google, siti in cui sei loggato, chat, task, posizione e dati di Personal Intelligence. Salva dati browser remoto, login e esecuzione codice. Condivide info con terze parti se necessario. Può fare acquisti senza chiedere ogni volta. Test interno. Non ancora pubblico.Poetiq ha costruito un sistema Meta che ha creato da zero il proprio harness di coding. Ha raggiunto SOTA su LiveCodeBench Pro. Zero fine-tuning. Zero accesso a modelli speciali. Solo API standard. Con Gemini tre punto uno Pro ha battuto tutti i modelli frontier testati.Violin è uno skill open source per traduzione video. Combina riconoscimento vocale, traduzione LLM e sintesi vocale in un unico pipeline. ASR e TTS multilingua di alta qualità. Personalizzazione traduzione e voce. Chat col video. Supporto web app, CLI e agent skill. MIT license.AsymFlow porta FLUX punto due Klein in puro spazio pixel. Niente VAE. Texture più nitide, fedeltà visiva superiore. Quaranta percento più veloce. Low-rank noise parameterization risolve colli di bottiglia ad alta dimensionalità. Supporto ComfyUI in arrivo.DramaBox by Resembleai: nuova categoria di modelli vocali. Open source. Costruito per uso cinematografico. Non dà una voce, dà una performance. Emozioni drammatiche, sospiri, voce che si incrina dal dolore. Senza attori. Senza editing manuale.Giornata intensa.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.