Gemini Robotics ER 1.6: quando i robot iniziano davvero a capire il mondo fisico

Guardate, posso dirvi che l’AI fa progressi ogni mese. Ma sapete cosa mi ha colpito di questo annuncio? Non è tanto la potenza bruta del modello — è il tipo di problema che sta cercando di risolvere.

Google DeepMind ha appena rilasciato Gemini Robotics-ER 1.6, e qui la storia si fa interessante. Perché non stiamo parlando di chatbot che scrivono email o generano immagini. Stiamo parlando di robot che devono ragionare sul mondo fisico.

Il problema vero della robotica

Pensateci un secondo. Un robot industriale che ispeziona un impianto chimico non può limitarsi a seguire istruzioni tipo “vai al punto B e scatta una foto”. Deve:

Leggere manometri analogici con precisione sub-tick (tipo, capire dove cade l’ago tra due tacche)
Interpretare il livello di liquido in un’ampolla cilindrica tenendo conto della distorsione prospettica della telecamera
Capire quando un compito è davvero finito guardando feed video da più angolazioni contemporaneamente
Decidere autonomamente se riprovare un’operazione fallita o passare alla fase successiva

Roba che noi umani facciamo senza pensarci. Per un’AI? Nightmare material fino a poco fa.

Cosa fa Gemini Robotics-ER 1.6

Ok, nerd moment: questo modello specializzato non è un VLA (Vision-Language-Action model) che muove direttamente i motori. È il cervello strategico del robot. Quello che:

Capisce l’ambiente attraverso ragionamento visivo e spaziale
Pianifica task complessi
Chiama altri tool quando serve (tipo Google Search o modelli VLA specifici)
Decide se il lavoro è fatto o va rifatto

La parte che mi manda in brodo di giuggiole? Instrument reading. Capacità nuova, sviluppata collaborando con Boston Dynamics — quelli di Spot, il cane robot che avete visto in mille video.

Come legge gli strumenti (e perché è difficile)

Prendete un manometro industriale classico. Quello con l’ago, le tacche, magari due aghi per decimali diversi, scritte piccole che indicano l’unità di misura. Ora fotografatelo da angolazioni non perfette, con illuminazione industriale mediocre, magari parzialmente occluso.

Gemini Robotics-ER 1.6 usa una tecnica chiamata “agentic vision” — combina ragionamento visivo ed esecuzione di codice. In pratica:

Zooma sull’immagine per vedere dettagli minuscoli
Usa pointing (capacità di identificare punti precisi nello spazio) per mappare ago, tacche, intervalli
Esegue codice per calcolare proporzioni e stime metriche
Applica conoscenza del mondo per interpretare il risultato

Il risultato? Letture accurate di manometri, termometri, indicatori di livello verticali, sight glass chimici. Roba che prima richiedeva occhio umano o sensori dedicati.

Pointing: la base di tutto

Questa capacità — identificare punti precisi nello spazio 3D — è fondamentale. Non è solo “dov’è l’oggetto X”. È:

Conteggio preciso: “Ci sono 6 pinze sul tavolo, 2 martelli, 1 paio di forbici” (e sa dire quando un oggetto richiesto non c’è, senza allucinarlo)
Logica relazionale: “Sposta X nella posizione Y” richiede capire relazioni spaziali
Ragionamento su vincoli: “Punta a ogni oggetto abbastanza piccolo da entrare nella tazza blu” — deve stimare volumi, non solo riconoscere forme
Punti di presa ottimali: Dove afferrare un oggetto per sollevarlo senza farlo cadere

Nei benchmark interni, Gemini Robotics-ER 1.6 straccia sia la versione 1.5 che Gemini 3.0 Flash su questi task. Non di poco — parliamo di salti tipo dal 60% al 85% di accuracy in certi scenari.

Success detection: il vero game changer per l’autonomia

Sapete qual è il collo di bottiglia della robotica? Non è tanto “come faccio X”. È “ho finito X o devo riprovare?“

Un robot che sposta una penna blu in un portapenne nero deve capire — guardando feed da telecamere multiple (polso del braccio robotico + overhead camera) — se:

La penna è effettivamente dentro il portapenne (non appoggiata accanto)
È stabile (non sta per cadere)
Il task è completato al 100%

Gemini Robotics-ER 1.6 migliora il multi-view reasoning — capisce come diverse prospettive si combinano in un quadro coerente, anche con occlusioni o illuminazione pessima. Questo sblocca vera autonomia: il robot decide da solo quando passare allo step successivo.

Safety: non solo buzzword

Google afferma che questo è il loro “safest robotics model yet”. Cosa significa concretamente?

Compliance con policy di sicurezza: Performance superiore su task avversariali di ragionamento spaziale
Vincoli fisici: “Non maneggiare liquidi”, “Non sollevare oggetti oltre 20kg” — il modello fa scelte più sicure su cosa può manipolare dato il gripper e i materiali
Percezione rischi: Testato su scenari text/video basati su report reali di incidenti industriali. Migliora del +6% (text) e +10% (video) rispetto a Gemini 3.0 Flash nel riconoscere situazioni pericolose

Non perfetto — nessun sistema lo è — ma migliora sostanzialmente rispetto alla generazione precedente.

Il caso Boston Dynamics

Marco da Silva (VP e GM di Spot) dice una cosa interessante: “Capacità come instrument reading e ragionamento più affidabile permetteranno a Spot di vedere, capire e reagire a sfide reali completamente in autonomia.”

Tradotto: Spot può già camminare in impianti industriali e scattare foto di strumenti. Ma finora serviva un umano per interpretare quelle foto. Con Gemini Robotics-ER 1.6, il loop si chiude — il robot capisce cosa vede e può prendere decisioni operative.

Questo è il tipo di capacità che sblocca applicazioni commerciali vere. Non demo, non prototipi — deployment reale in facility che devono monitorare centinaia di punti di controllo ogni giorno.

Come provarlo

Disponibile da oggi via:

Gemini API
Google AI Studio
Colab con esempi di configurazione e prompt per task di embodied reasoning

Google invita anche chi ha use case specializzati a inviare 10-50 immagini etichettate che mostrano failure modes specifici — vogliono feedback per migliorare capacità di ragionamento su applicazioni verticali.

Perché questo conta

Non è il modello più grosso. Non è il più veloce. Non genererà meme virali.

Ma è un pezzo critico del puzzle che separa “robot che fa demo impressionanti in lab” da “robot che lavora 8 ore al giorno in un impianto petrolchimico senza supervisione umana costante”.

Il salto non è nella potenza bruta — è nella precisione del ragionamento embodied. Capire dove cade un ago su un manometro. Stimare se un liquido ha raggiunto il livello target in un’ampolla. Decidere se una penna è davvero dentro un portapenne o solo appoggiata.

Dettagli microscopici. Che fanno tutta la differenza tra un sistema che funziona il 60% delle volte (inutile commercialmente) e uno che funziona il 95% (deployable).

E ora che questo pezzo esiste, accessibile via API, il vero test sarà vedere cosa ci costruiranno sopra i team di robotica là fuori.