Google ha appena integrato il ‘computer use’ direttamente in Gemini 3.5 Flash. Tradotto: il modello ora può vedere, ragionare e agire su browser, mobile e desktop come farebbe un umano davanti allo schermo.
Prima era una funzione standalone, relegata a un modello separato chiamato Gemini 2.5 computer use. Adesso? È tutto dentro Flash, il modello principale. Il che significa che gli sviluppatori possono costruire agenti custom che navigano interfacce, cliccano pulsanti, compilano form e analizzano contenuti visivi senza API dedicate per ogni singola piattaforma.
Cosa significa ‘computer use’ nella pratica
Gemini già sapeva fare function calling e usare tool integrati come Search e Maps. Questo è diverso. Stiamo parlando di un modello che osserva uno schermo, capisce cosa sta vedendo e interagisce con l’interfaccia grafica. Esattamente come fareste voi.
Google mostra due esempi nel post. Nel primo, 3.5 Flash analizza l’app Gemini stessa e restituisce una lista categorizzata di funzionalità. Nel secondo, il modello audita la propria documentazione cercando problemi di accessibilità. Sì, Gemini che controlla Gemini. Meta, ma efficace.
Le applicazioni più interessanti? Test software continui e automazione di task enterprise su applicazioni professionali. Quegli scenari ‘long-horizon’ dove serve concatenare decine di azioni in sequenza senza perdere il filo.
Il problema: prompt injection in ambienti live
Far girare un agente autonomo su sistemi reali apre una voragine di rischi. Primo fra tutti: il prompt injection. Un sito malevolo potrebbe iniettare istruzioni nascoste nel contenuto visivo che l’agente sta osservando, dirottandone il comportamento.
Google risponde con ‘targeted adversarial training’ — addestramento mirato contro attacchi adversariali. E aggiunge due sistemi opzionali di safeguard enterprise:
- Conferma utente esplicita per azioni sensibili o irreversibili
- Stop automatico se viene identificato un tentativo di prompt injection indiretto
L’approccio è ‘defense-in-depth’: non basta il modello sicuro, serve combinare sandboxing, human-in-the-loop e controlli di accesso rigorosi. Il messaggio è chiaro: non lanciate agenti autonomi in produzione senza una rete di sicurezza.
Dove provarlo
La funzione è già disponibile via Gemini API e Gemini Enterprise Agent Platform. Google ha anche preparato un ambiente demo hostato da Browserbase per chi vuole testare senza setup locale.
C’è una reference implementation completa nella documentazione — che, diciamocelo, è il primo posto dove andare se non volete improvvisare architetture di sicurezza da zero.
Il computer use era l’ultimo tassello mancante per agenti davvero general-purpose. Adesso è integrato nel modello mainstream di Google, non più un esperimento laterale. Resta da vedere quanto sarà robusto in scenari non controllati. Perché una cosa è auditare la propria documentazione in un video promozionale, un’altra è sopravvivere al caos di un’applicazione enterprise legacy con UI degli anni ’90.
