Guardate, posso dirvi che l’AI fa progressi ogni mese. Ma sapete cosa mi ha colpito di questo annuncio? Non è tanto la potenza bruta del modello — è il tipo di problema che sta cercando di risolvere.
Google DeepMind ha appena rilasciato Gemini Robotics-ER 1.6, e qui la storia si fa interessante. Perché non stiamo parlando di chatbot che scrivono email o generano immagini. Stiamo parlando di robot che devono ragionare sul mondo fisico.
Il problema vero della robotica
Pensateci un secondo. Un robot industriale che ispeziona un impianto chimico non può limitarsi a seguire istruzioni tipo “vai al punto B e scatta una foto”. Deve:
- Leggere manometri analogici con precisione sub-tick (tipo, capire dove cade l’ago tra due tacche)
- Interpretare il livello di liquido in un’ampolla cilindrica tenendo conto della distorsione prospettica della telecamera
- Capire quando un compito è davvero finito guardando feed video da più angolazioni contemporaneamente
- Decidere autonomamente se riprovare un’operazione fallita o passare alla fase successiva
Roba che noi umani facciamo senza pensarci. Per un’AI? Nightmare material fino a poco fa.
Cosa fa Gemini Robotics-ER 1.6
Ok, nerd moment: questo modello specializzato non è un VLA (Vision-Language-Action model) che muove direttamente i motori. È il cervello strategico del robot. Quello che:
- Capisce l’ambiente attraverso ragionamento visivo e spaziale
- Pianifica task complessi
- Chiama altri tool quando serve (tipo Google Search o modelli VLA specifici)
- Decide se il lavoro è fatto o va rifatto
La parte che mi manda in brodo di giuggiole? Instrument reading. Capacità nuova, sviluppata collaborando con Boston Dynamics — quelli di Spot, il cane robot che avete visto in mille video.
Come legge gli strumenti (e perché è difficile)
Prendete un manometro industriale classico. Quello con l’ago, le tacche, magari due aghi per decimali diversi, scritte piccole che indicano l’unità di misura. Ora fotografatelo da angolazioni non perfette, con illuminazione industriale mediocre, magari parzialmente occluso.
Gemini Robotics-ER 1.6 usa una tecnica chiamata “agentic vision” — combina ragionamento visivo ed esecuzione di codice. In pratica:
- Zooma sull’immagine per vedere dettagli minuscoli
- Usa pointing (capacità di identificare punti precisi nello spazio) per mappare ago, tacche, intervalli
- Esegue codice per calcolare proporzioni e stime metriche
- Applica conoscenza del mondo per interpretare il risultato
Il risultato? Letture accurate di manometri, termometri, indicatori di livello verticali, sight glass chimici. Roba che prima richiedeva occhio umano o sensori dedicati.
Pointing: la base di tutto
Questa capacità — identificare punti precisi nello spazio 3D — è fondamentale. Non è solo “dov’è l’oggetto X”. È:
- Conteggio preciso: “Ci sono 6 pinze sul tavolo, 2 martelli, 1 paio di forbici” (e sa dire quando un oggetto richiesto non c’è, senza allucinarlo)
- Logica relazionale: “Sposta X nella posizione Y” richiede capire relazioni spaziali
- Ragionamento su vincoli: “Punta a ogni oggetto abbastanza piccolo da entrare nella tazza blu” — deve stimare volumi, non solo riconoscere forme
- Punti di presa ottimali: Dove afferrare un oggetto per sollevarlo senza farlo cadere
Nei benchmark interni, Gemini Robotics-ER 1.6 straccia sia la versione 1.5 che Gemini 3.0 Flash su questi task. Non di poco — parliamo di salti tipo dal 60% al 85% di accuracy in certi scenari.
Success detection: il vero game changer per l’autonomia
Sapete qual è il collo di bottiglia della robotica? Non è tanto “come faccio X”. È “ho finito X o devo riprovare?“
Un robot che sposta una penna blu in un portapenne nero deve capire — guardando feed da telecamere multiple (polso del braccio robotico + overhead camera) — se:
- La penna è effettivamente dentro il portapenne (non appoggiata accanto)
- È stabile (non sta per cadere)
- Il task è completato al 100%
Gemini Robotics-ER 1.6 migliora il multi-view reasoning — capisce come diverse prospettive si combinano in un quadro coerente, anche con occlusioni o illuminazione pessima. Questo sblocca vera autonomia: il robot decide da solo quando passare allo step successivo.
Safety: non solo buzzword
Google afferma che questo è il loro “safest robotics model yet”. Cosa significa concretamente?
- Compliance con policy di sicurezza: Performance superiore su task avversariali di ragionamento spaziale
- Vincoli fisici: “Non maneggiare liquidi”, “Non sollevare oggetti oltre 20kg” — il modello fa scelte più sicure su cosa può manipolare dato il gripper e i materiali
- Percezione rischi: Testato su scenari text/video basati su report reali di incidenti industriali. Migliora del +6% (text) e +10% (video) rispetto a Gemini 3.0 Flash nel riconoscere situazioni pericolose
Non perfetto — nessun sistema lo è — ma migliora sostanzialmente rispetto alla generazione precedente.
Il caso Boston Dynamics
Marco da Silva (VP e GM di Spot) dice una cosa interessante: “Capacità come instrument reading e ragionamento più affidabile permetteranno a Spot di vedere, capire e reagire a sfide reali completamente in autonomia.”
Tradotto: Spot può già camminare in impianti industriali e scattare foto di strumenti. Ma finora serviva un umano per interpretare quelle foto. Con Gemini Robotics-ER 1.6, il loop si chiude — il robot capisce cosa vede e può prendere decisioni operative.
Questo è il tipo di capacità che sblocca applicazioni commerciali vere. Non demo, non prototipi — deployment reale in facility che devono monitorare centinaia di punti di controllo ogni giorno.
Come provarlo
Disponibile da oggi via:
- Gemini API
- Google AI Studio
- Colab con esempi di configurazione e prompt per task di embodied reasoning
Google invita anche chi ha use case specializzati a inviare 10-50 immagini etichettate che mostrano failure modes specifici — vogliono feedback per migliorare capacità di ragionamento su applicazioni verticali.
Perché questo conta
Non è il modello più grosso. Non è il più veloce. Non genererà meme virali.
Ma è un pezzo critico del puzzle che separa “robot che fa demo impressionanti in lab” da “robot che lavora 8 ore al giorno in un impianto petrolchimico senza supervisione umana costante”.
Il salto non è nella potenza bruta — è nella precisione del ragionamento embodied. Capire dove cade un ago su un manometro. Stimare se un liquido ha raggiunto il livello target in un’ampolla. Decidere se una penna è davvero dentro un portapenne o solo appoggiata.
Dettagli microscopici. Che fanno tutta la differenza tra un sistema che funziona il 60% delle volte (inutile commercialmente) e uno che funziona il 95% (deployable).
E ora che questo pezzo esiste, accessibile via API, il vero test sarà vedere cosa ci costruiranno sopra i team di robotica là fuori.
