Ola todos! ecco le notizie dedicate al mondo IA del 15 Maggio 2026
Un tizio ha costruito un sistema automatico anti-piccioni per il balcone. Telecamera USB cattura il video. YOLO World V2 identifica il piccione in tempo reale. Pistola ad acqua su servo motori punta e spara automaticamente. Gira su Orange Pi cinque. NPU dedicata per riconoscimento. Zero intervento manuale. Ventiquattro-sette. E funziona con qualsiasi cosa: scoiattoli, gatti, procioni. Rilevamento open vocabulary. Cambi il target quando vuoi.
E non è finita qui…
OpenAI ha portato Codex nell’app mobile di ChatGPT. Inizi un progetto, rivedi output, guidi l’esecuzione e approvi i prossimi step dal telefono. Codex continua a girare sul tuo laptop o devbox. Controllo remoto completo. Preview già disponibile.
Ma c’è qualcosa di ancora più interessante…
xAI ha lanciato Grok Build: CLI agente per coding, app e automazione workflow. Beta precoce riservata ai subscriber SuperGrok Heavy. Feedback utenti guiderà miglioramenti modello e prodotto. Si prova già ora.
Sempre in tema, ma con un salto di scala…
Gemini tre punto due Flash potrebbe raggiungere il novantadue percento delle performance di GPT cinque punto cinque su coding e reasoning. Costi inferenza quindici-venti volte inferiori. Latenza sotto i duecento millisecondi per la maggior parte delle query. Distillazione e sparsity tecniche di Google stanno comprimendo un modello frontier in una variante flash senza perdite di qualità drastiche.
Passiamo a qualcosa di completamente diverso…
È uscito un toolkit open source per generare ambienti tridimensionali con Claude Code. Input: un’immagine. Output: environment, mesh, fisica, lighting e audio. Completo. Si può provare subito.
E a proposito di audio…
Scenema Audio è il nuovo generatore vocale open source. Controllo emotivo avanzato. Clonazione vocale zero-shot. Tag di azione per direzione scenica, multilingue, narrazione lunga. Gira in locale. Gratis. LTX-due punto tre: hanno estratto solo il bit audio, fatto fine-tuning per TTS e raggiunto controllo emotivo di altissimo livello. Anche questa versione è già testabile.
Un progetto GitHub chiamato agency-agents ha creato centoqarantaquattro agenti IA corrispondenti a quasi tutti i lavori del mondo. Frontend developer, UI designer, social media manager, sales, data engineer, legal advisor. Sessantamila stelle. Completamente open source. Si integra con Codex o Claude Code. Minuti per far girare un team virtuale completo. Perfetto per indie developer e piccoli team.
Anthropoc ha pubblicato un workshop di ventotto minuti su come scrivere prompt per Claude. Insegnato da chi ha costruito il modello. Gratuito. Nessuna registrazione. Copre più di corsi da trecento dollari. Da guardare e salvare subito.
Tavus ha rilasciato Image-to-Replica. Qualsiasi volto che esiste come singola immagine può sostenere una conversazione reale. Mascotte di brand, figure storiche, personaggi IA. Basta una foto. Dialoga.
Google starebbe testando Gemini Spark: agente IA ventiquattro-sette per gestione inbox, task online, interazione con siti web, app connesse, chat e workflow produttivi. Impara da app Google, siti in cui sei loggato, chat, task, posizione e dati di Personal Intelligence. Salva dati browser remoto, login e esecuzione codice. Condivide info con terze parti se necessario. Può fare acquisti senza chiedere ogni volta. Test interno. Non ancora pubblico.
Poetiq ha costruito un sistema Meta che ha creato da zero il proprio harness di coding. Ha raggiunto SOTA su LiveCodeBench Pro. Zero fine-tuning. Zero accesso a modelli speciali. Solo API standard. Con Gemini tre punto uno Pro ha battuto tutti i modelli frontier testati.
Violin è uno skill open source per traduzione video. Combina riconoscimento vocale, traduzione LLM e sintesi vocale in un unico pipeline. ASR e TTS multilingua di alta qualità. Personalizzazione traduzione e voce. Chat col video. Supporto web app, CLI e agent skill. MIT license.
AsymFlow porta FLUX punto due Klein in puro spazio pixel. Niente VAE. Texture più nitide, fedeltà visiva superiore. Quaranta percento più veloce. Low-rank noise parameterization risolve colli di bottiglia ad alta dimensionalità. Supporto ComfyUI in arrivo.
DramaBox by Resembleai: nuova categoria di modelli vocali. Open source. Costruito per uso cinematografico. Non dà una voce, dà una performance. Emozioni drammatiche, sospiri, voce che si incrina dal dolore. Senza attori. Senza editing manuale.
Giornata intensa.
Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto it
Salvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.
Url delle notizie
THIS GUY BUILT AN AUTOMATED PIGEON DEFENSE SYSTEM FOR HIS BALCONY
— Om Patel (@om_patel5) May 14, 2026
pigeons kept nesting on his balcony so he engineered a full detection and deterrent system
here's how it works:
1 camera captures video in real time
2 an AI model identifies the pigeon in real time
3 a water… pic.twitter.com/GHiBoH3t7j
You've been asking for this one…
— OpenAI (@OpenAI) May 14, 2026
Now in preview: Codex in the ChatGPT mobile app.
Start new work, review outputs, steer execution, and approve next steps, all from the ChatGPT mobile app. Codex will keep running on your laptop, Mac mini, or devbox. pic.twitter.com/9i2Jckjt9z
An early beta of Grok Build, an agentic CLI for coding, building apps, and automating workflows is now available for SuperGrok Heavy subscribers.
— xAI (@xai) May 14, 2026
Through this early beta, we will improve the model and product based on your feedback.
Try it at https://t.co/bpTHpjivWD pic.twitter.com/Rlg4qMLkrv
Gemini 3.2 Flash – Capitalizing on DeepMind's clever distillation techniques…
— Bindu Reddy (@bindureddy) May 14, 2026
Rumors are that benchmarks show it's hitting 92% of GPT 5.5's performance on coding and reasoning tasks while being 15-20x cheaper on inference costs. The latency improvements are insane – sub-200ms…
open-sourcing a 3D gen toolkit for Claude Code
— neilson (@neilsonks) May 14, 2026
input image → environment, meshes, physics, lighting, & audio pic.twitter.com/95S23EucRQ
New open-source speech generator, Scenema Audio
— ⚡AI Search⚡ (@aisearchio) May 14, 2026
> Incredible emotion control
> Zero shot voice cloning
> Action tags for stage direction, multilingual, long-form narration
> Free & local
Give it a listen!https://t.co/wLjBvuGUKK pic.twitter.com/zz2GNmIcsM
they extracted only the audio bit of LTX-2.3, fine-tuned for TTS task and achieved SOTA TTS emotional control???
— apolinario 🌐 (@multimodalart) May 14, 2026
try it for yourself. So far I'm very impressed!https://t.co/A8qD9dc78b
又发现一个变态开源项目,叫agency-agents
— 阿西_出海 (@axichuhai) May 14, 2026
这哥们儿把世界上几乎所有职位都做成了 AI 员工,包括:
前端开发、UI 设计、自媒体运营、销售、市场分析师、数据工程师、法务顾问……
现在已经有 144 个 AI 员工,还在持续加。
GitHub 星标直接冲到 6 万+,完全免费开源。
在小龙虾或者 Claude code… https://t.co/RVjzDJz6f2 pic.twitter.com/zPqP8Lv0d4
🚨 Anthropic just showed a 28-minute workshop on how to actually do prompts for Claude.
— Anuj (@anujcodes_21) May 14, 2026
Taught by the people who built it.
Free to watch. No signup. Pure gold
I've seen $300 courses that don't cover what they teach in the first 8 minutes.
Watch it and bookmark it now. pic.twitter.com/LSj3iYPKY6
Introducing Image-to-Replica.
— Tavus (@tavus) May 14, 2026
Any face that can exist as a single image, whether it's a brand mascot that has lived in a logo for thirty years, a historical figure, or an AI character designed from a single prompt, can now hold a real conversation. pic.twitter.com/nF73wPZKBt
Google Gemini Spark spotted 🔥🔥
— AshutoshShrivastava (@ai_for_success) May 14, 2026
Google appears to be testing a new 24/7 experimental AI agent experience called Gemini Spark.
Gemini Spark is designed to act as an everyday AI agent that can help with:
– Inbox management
– Online tasks
– Website interactions
– Connected apps… pic.twitter.com/0LV0Bz0RpC
Poetiq's Meta-System built its own coding harness from scratch. It got SOTA on LiveCodeBench Pro.
— Poetiq (@poetiq_ai) May 14, 2026
No fine-tuning, no special model access. Just standard APIs. Using Gemini 3.1 Pro, it made a harness that beat all frontier models we tested. pic.twitter.com/v575oUYJeH
🌟Introducing🎻Violin — an Open-source Video Translation Skill.
— Kevin Lin (@KevinQHLin) May 14, 2026
📹Video is the dominant medium on the internet, yet most high-quality content (lecture, talk, podcast) is locked behind a single language, leaving global audiences behind.
So we built Violin: a video skill that… pic.twitter.com/x74QKkjPD7
FLUX.2 Klein in pure pixel space! No VAE.
— Wildminder (@wildmindai) May 14, 2026
AsymFlow – hyper-realistic images by working directly in pixel space rather than using compressed latent representations.
– sharper textures, superior visual fidelity
– 40% faster
– low-rank noise parameterization to solve… pic.twitter.com/LKgq2S7vPb
We're releasing a whole new category of voice models.
— Dev Shah (@0xDevShah) May 14, 2026
Introducing DramaBox — our state-of-the-art, open source voice model built for cinematic use cases.
Traditional TTS gives you a voice. DramaBox by @resembleai gives you a performance.
For too long, Voice AI has been stuck… pic.twitter.com/TplLUV5Heg
