OpenAI ha rilasciato un aggiornamento sostanzioso dell’Agents SDK che cambia parecchio le carte in tavola per chi sviluppa agenti AI. La novità principale? Sandbox nativi e un harness che finalmente capisce come gli agenti lavorano davvero.
Cosa significa in pratica
Fino a ieri, chi voleva costruire agenti che facessero cose serie – tipo ispezionare file, eseguire comandi, editare codice – doveva scegliere tra tre mali. Framework agnostici che funzionano con qualsiasi modello ma non sfruttano le capacità specifiche dei modelli frontier. SDK dei provider che stanno più vicini al modello ma ti lasciano al buio su cosa succede nel mezzo. O API gestite che semplificano il deploy ma ti imprigionano nel loro ecosistema.
La nuova versione dell’SDK prova a risolvere questo casino dando agli sviluppatori infrastruttura standardizzata che – almeno sulla carta – funziona come si deve con i modelli OpenAI. Due pezzi chiave: un harness che lascia gli agenti lavorare su file e tool in modo naturale, più sandbox execution nativa per far girare tutto in sicurezza.
L’esempio pratico che fa capire tutto
Guardate questo codice. Create un workspace controllato, date istruzioni esplicite all’agente, gli passate i tool per ispezionare prove:
agent = SandboxAgent(
name="Dataroom Analyst",
model="gpt-5.4",
instructions="Answer using only files in data/. Cite source filenames.",
default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)})
)L’agente può accedere solo ai file che gli date, deve citare le fonti, lavora in un ambiente isolato. Niente sorprese, niente leak di dati, niente caos.
Harness potenziato: finalmente un loop agente serio
L’harness ora è costruito per agenti che lavorano con documenti, file, sistemi. Ha memoria configurabile, orchestrazione sandbox-aware, tool per il filesystem tipo Codex, integrazioni standardizzate con primitive che stanno diventando comuni nei sistemi agente frontier.
Questo include tool use via MCP, progressive disclosure via skills, istruzioni custom via AGENTS.md, esecuzione codice col tool shell, edit di file col tool apply patch. E continuerà a incorporare nuovi pattern nel tempo – così gli sviluppatori passano meno tempo ad aggiornare infrastruttura core e più tempo sulla logica specifica del dominio.
La parte interessante: l’harness aiuta a sbloccare più capacità dei modelli frontier allineando l’esecuzione col modo in cui quei modelli performano meglio. Tiene gli agenti più vicini al pattern operativo naturale del modello. Risultato: reliability e performance migliori su task complessi, specialmente quando il lavoro è long-running o coordinato su tool e sistemi diversi.
Sandbox nativi: il workspace che mancava
Supporto sandbox nativo significa che gli agenti possono girare in ambienti computer controllati con i file, tool e dipendenze che servono per un task.
Tanti agenti utili hanno bisogno di un workspace dove leggere e scrivere file, installare dipendenze, eseguire codice, usare tool in sicurezza. Il supporto sandbox nativo ti dà questo layer di esecuzione out of the box invece di costringerti a costruirlo pezzo per pezzo.
Puoi portare il tuo sandbox o usare il supporto built-in per Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel.
Per rendere questi ambienti portabili tra provider, l’SDK introduce anche un’astrazione Manifest per descrivere il workspace dell’agente. Monti file locali, definisci directory di output, porti dentro dati da storage provider tipo AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2.
Ti dà un modo consistente di plasmare l’ambiente dell’agente dal prototipo locale al deployment in produzione. E dà al modello un workspace prevedibile: dove trovare gli input, dove scrivere gli output, come tenere il lavoro organizzato durante un task long-running.
Separare harness e compute: sicurezza, durabilità, scala
I sistemi agente dovrebbero essere progettati assumendo tentativi di prompt-injection e exfiltration. Separare harness e compute aiuta a tenere le credenziali fuori dagli ambienti dove viene eseguito codice generato dal modello.
Abilita anche esecuzione durabile. Quando lo stato dell’agente è esternalizzato, perdere un container sandbox non significa perdere la run. Con snapshotting e rehydration built-in, l’SDK può ripristinare lo stato dell’agente in un container fresco e continuare dall’ultimo checkpoint se l’ambiente originale fallisce o scade.
Infine, rende gli agenti più scalabili. Le run possono usare uno o molti sandbox, invocare sandbox solo quando serve, routare subagent a ambienti isolati, parallelizzare lavoro tra container per esecuzione più veloce.
Il feedback che conta
Rachael Burns, Staff Engineer e AI Tech Lead in Oscar Health, ha testato l’SDK in anticipo: “Ha reso production-viable per noi automatizzare un workflow critico di clinical records che approcci precedenti non gestivano in modo abbastanza affidabile. Per noi la differenza non era solo estrarre i metadata giusti, ma capire correttamente i boundaries di ogni encounter in record lunghi e complessi. Di conseguenza, possiamo capire più velocemente cosa sta succedendo per ogni paziente in una data visita, aiutando i membri con le loro necessità di cura e migliorando la loro esperienza con noi.”
Tradotto: hanno automatizzato qualcosa di critico che prima non funzionava. I dettagli contano quando lavori su healthcare.
Pricing e disponibilità
Le nuove capacità dell’Agents SDK sono disponibili per tutti i clienti via API. Pricing standard basato su token e tool use – niente sorprese sul conto.
Cosa manca e cosa arriva
Harness e sandbox capabilities lanciano prima in Python. Supporto TypeScript pianificato per un rilascio futuro. Stanno anche lavorando per portare capacità agente aggiuntive – code mode e subagent inclusi – sia su Python che TypeScript.
Vogliono anche aiutare a far convergere l’ecosistema agente nel tempo: più sandbox provider, più integrazioni, più modi per gli sviluppatori di pluggare l’SDK nei tool e sistemi che già usano.
Insomma, l’idea è fare dell’SDK il punto di riferimento per costruire agenti seri. Meno tempo su infrastruttura custom, più tempo sul dominio specifico. Vedremo se mantengono.
