Notizie AI del 03 Luglio 2026

Ola todos! ecco le notizie dedicate al mondo IA del 03 Luglio 2026Iniziamo con EdgeBench, benchmark per testare agenti su task che richiedono almeno dodici ore di lavoro continuo. Il gruppo di ricerca ha scoperto che la performance degli agenti segue una curva matematica precisa in relazione al tempo di interazione con l’ambiente. Hanno rilasciato cinquantuno task su centoventiquattro, con framework completo di valutazione.Passiamo ad Astryx, nuovo framework per agenti IA rilasciato da Meta. Gestisce operazioni asincrone, collaborazione multi-agente e tool esterni in modo nativo. Open source su GitHub.Claude Fable Cinque sta facendo impazzire tutti. Ho trovato esempi incredibili: un clone di Warcraft giocabile, Counter-Strike in vista dall’alto con multiplayer funzionante, tutto generato in poche ore. Dieci percento dei token. Una notte.Da segnalare anche uno studio di Google su RLMF. Insegna ai modelli a riconoscere i propri limiti. Il sistema affina il giudizio interno del modello durante il training, poi lo traduce in espressioni linguistiche naturali. Supera gli approcci standard fino al sessantatre percento.Nel frattempo, X ha attivato il proprio server MCP. Gli agenti possono ora leggere post, cercare utenti e gestire bookmark direttamente da Claude, Cursor o Copilot. Niente da costruire, tutto già pronto.Merita attenzione Voicebox, progetto open source per clonazione vocale. Funziona completamente in locale, senza limiti di utilizzo. Include input vocale globale e capacità di dialogo per agenti.Sul fronte guida autonoma, Oxford ha rilasciato PriorEye. Il sistema memorizza immagini stradali per anticipare situazioni di guida, come farebbe un pilota esperto. Nei test ha migliorato consistentemente le performance di diversi algoritmi.Vale la pena menzionare AutoMem, ricerca di Stanford sulla gestione della memoria negli agenti. Tratta la memoria come skill addestrabile: il modello decide cosa memorizzare e quando recuperare informazioni. Solo ottimizzando la memoria, senza toccare il resto, gli agenti migliorano di due-quattro volte.Arriva anche Karpathy LLM Wiki. Claude compila documenti in pagine markdown interconnesse dentro Obsidian. Uno scrittore ha generato cinquantasei pagine linkate in un’ora. La wiki rimane, NotebookLM dimentica.Claude Fable Cinque è tornato modificato. BridgeBench mostra cali drastici: debugging da ottantasei a ventisei punti, refactoring da settantatre a trentotto. Non è il modello che hanno bannato. Anthropic deve spiegazioni.vLLM ora supporta DSpark di DeepSeek. Speculative decoding che propone più token in parallelo, poi li verifica in un passo. Su otto B300 produce circa duecentocinquanta token al secondo.Si muove anche Codebase Memory MCP. Indicizza il kernel Linux completo in tre minuti. Crea un grafo di conoscenza del repository. Riduce il consumo di contesto del novantanove percento. Oltre ventiquattromila star su GitHub.Occhio a Higgsfield Explainer. Documentari senza volto generati automaticamente. Ricerca il topic, narra in qualsiasi lingua, render fino a dieci minuti. Powered by Fable Cinque e Gemini Omni Flash.Proseguiamo con gli Artifacts in Claude Code, ora disponibili anche su piano Pro e Max. Il codice va live su claude punto ai, si aggiorna in tempo reale. Pagine private per ogni account.Browser Use CLI Tre punto zero trasforma qualsiasi modello in agente browser avanzato. Controllo diretto CDP, cloud o Chrome locale. Sei volte più piccolo, meno token.Colpo a sorpresa da Gemini Tre punto cinque Pro, leak confermano salto qualitativo su design UI e generazione SVG. Anche nuovo Flash model in arrivo, ancora da chiarire se sarà Gemini Quattro Flash o Tre punto sei Flash.Anthropic annuncia Built with Claude: Life Sciences, hackathon virtuale globale con Gladstone Institute. Una settimana per costruire con Claude Science e Claude Code. Prize pool centomila dollari in crediti.Sempre attivo, Fable Cinque Low effort contro GLM Cinque punto due High effort su VulcanBench. Tutti e tre all’ottanta percento. Costi: due dollari ventisette contro otto dollari quarantuno contro quindici dollari ottantuno. Il più costoso non era Fable.Da non sottovalutare LeVLJEPA, primo metodo fully non-contrastive per pretraining vision-language competitivo con CLIP e SigLIP. Niente negativi, temperatura, momentum encoder o teacher-student. Ogni modalità predice l’embedding dell’altra.Ancora Anthropic con conversazione su Boris Cherny e Cat Wu. Raccontano il percorso da Claude Code a Claude Tag e come si è diffuso nell’azienda. Fable Cinque ora disponibile in Claude Tag.GitHub Copilot integra Kimi K Due punto sette Code. Primo modello open-weight selezionabile nel model picker. Testing mostra performance paragonabili ai frontier model a costo inferiore.Segnaliamo anche il corso Advanced LLM Agents da UC Berkeley. Tenuto da Dawn Song con guest lecturer da Google e Meta. Copre reasoning, planning, code generation, theorem proving e multimodal agents.Altra novità: GenRecon rilascia il codice. Poche immagini in ingresso, scena tridimensionale completa in uscita. Prior generativo su scene intere per qualità di ricostruzione senza precedenti.Spostiamoci su Pascal Editor, editor tridimensionale per edifici che gira in browser. Niente AutoCAD o Revit. Built with React Three Fiber e WebGPU. Hierarchy building completa, rendering GPU, undo-redo integrato. Open source.Chiudiamo con Gemma Quattro Ventisei B testato su Tesla T quattro del duemiladiciotto. Trecentocinquantamila token di contesto, generazione a quasi nove token al secondo. Hardware da cinquecento dollari, ottimizzazione software moderna. Sedici gigabyte VRAM sono il sweet spot per local AI.Trovate i link di queste notizie altri link interessanti sul mio sto ziobuddalabs punto itSalvate il video così da non perderlo, seguitemi sui miei canali social e sul nuovo podcast su spotify e mannaggia a voi se ancora non lo state facendo, condividete il video con amici e nemici e ola todos.