Creare immagini precise e di alta qualità spesso significa passare ore in tentativi casuali. Serve un modello che capisca davvero cosa gli stai chiedendo.
Costruiti sulla famiglia di modelli Gemini 3, i modelli Nano Banana applicano capacità di ragionamento profondo per comprendere completamente il tuo prompt prima di generare un’immagine. Abbiamo passato settimane a testare Nano Banana 2 e Nano Banana Pro contro ogni caso d’uso immaginabile per spingerli al limite.
Ecco cosa abbiamo imparato e come ottenere i migliori risultati.
Panoramica dei modelli
I modelli Nano Banana sono modelli avanzati di generazione e editing di immagini che utilizzano conoscenze del mondo reale e capacità di ragionamento profondo per fornire risultati visivi precisi e ricchi. Nano Banana 2, annunciato di recente, brilla in tre aree:
- Visual più accurati: Nano Banana 2 è alimentato da informazioni e immagini in tempo reale dalla ricerca web. Questo significa migliori strumenti educativi, marketing localizzato, app di viaggio e altro.
- Funzionalità Pro veloci: Abbiamo sbloccato funzionalità premium – dal rendering del testo e traduzioni, all’upscaling a 2K/4K. I team creativi possono costruire narrative coerenti, storyboard e mockup di prodotti.
- Controllo di precisione: Genera o modifica immagini per adattarsi a qualsiasi requisito di progetto, con supporto nativo per 16:9, 9:16, 2:1 e altri. Aspettati illuminazione vibrante e texture più ricche, che tu stia generando poster, mockup di marketing o annunci.
Specifiche tecniche di Nano Banana 2 e Nano Banana Pro
Prima di immergersi nel prompting, ecco un breakdown di cosa i modelli possono gestire via API e Vertex AI:
- Context windows: Gemini 3.1 Flash Image (Nano Banana 2) supporta un massimo di 131.072 token di input, mentre Gemini 3 Pro Image (Nano Banana Pro) supporta un massimo di 65.536 token di input. Entrambi i modelli supportano un massimo di 32.768 token di output.
- Risoluzioni: Capacità di generazione integrate per visual 1K, 2K e 4K. Gemini 3.1 Flash Image aggiunge la risoluzione più piccola da 512px (0.5K).
- Aspect ratio: Entrambi i modelli supportano 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 e 21:9. Gemini 3.1 Flash Image Preview aggiunge anche aspect ratio 1:4, 4:1, 1:8 e 8:1.
- Input di immagini: Puoi mixare fino a 14 immagini di oggetti di riferimento in un singolo prompt. I tipi MIME supportati includono image/png, image/jpeg, image/webp, image/heic e image/heif.
- Input di documenti: Puoi inserire file di testo e pdf. La dimensione massima del file per file è 50 MB per importazioni API e Cloud Storage, o 7 MB per caricamenti diretti tramite la console Google Cloud.
- Output: Entrambi i modelli producono testo e immagini.
- Base di conoscenza del modello: Entrambi i modelli hanno una data di cutoff della conoscenza di gennaio 2025.
- Dati in tempo reale: Entrambi i modelli sono alimentati da informazioni in tempo reale dalla ricerca web.
- Trust & safety: Tutte le immagini generate includono Content Credentials C2PA e un watermark SynthID.
Best practice per un prompting efficace
Quando si tratta di prompting efficace, ci sono alcuni modi per garantire che il visual che ottieni sia quello che hai chiesto. Ecco alcune linee guida:
- Sii specifico: Fornisci dettagli concreti su soggetto, illuminazione e composizione.
- Usa un inquadramento positivo: Descrivi cosa vuoi, non cosa non vuoi (ad esempio “strada vuota” invece di “nessuna auto”).
- Controlla la telecamera: Usa termini fotografici e cinematografici come “low angle” e “aerial view”.
- Itera: Affina le immagini con prompt di follow-up in modo conversazionale.
La chiave è iniziare un prompt con un verbo forte che dica al modello l’operazione primaria che vuoi eseguire.
Cinque framework di prompting
1. Generazione di immagini
Quando generi un’immagine, la struttura del tuo prompt dipende interamente dal fatto che tu stia usando immagini di riferimento o facendo affidamento esclusivamente sul testo.
Generazione text-to-image senza riferimenti
Quando inizi con una tela bianca, sei tu il regista. Un semplice elenco di parole chiave non basterà; devi descrivere la scena in modo narrativo.
Formula: [Soggetto] + [Azione] + [Luogo/contesto] + [Composizione] + [Stile]
Esempio di prompt: [Soggetto] Una modella di moda sorprendente che indossa un vestito marrone su misura, stivali eleganti e tiene una borsa strutturata. [Azione] In posa con una postura sicura, statuaria, leggermente girata. [Luogo/contesto] Uno sfondo studio rosso ciliegia profondo, senza soluzione di continuità. [Composizione] Inquadratura medio-piena, centrata. [Stile] Stile editoriale da rivista di moda, scattato su pellicola analogica medio formato, grana pronunciata, alta saturazione, effetto di illuminazione cinematografica.
Generazione multimodale (generazione con riferimenti)
Gemini ti permette di combinare più immagini di riferimento per guidare l’output finale. Questo è perfetto per mantenere la coerenza del personaggio o per fondere un prodotto specifico in un nuovo ambiente.
Formula: [Immagini di riferimento] + [Istruzione di relazione] + [Nuovo scenario]
Esempio di prompt: Usando lo schizzo su tovagliolo allegato come struttura e il campione di tessuto allegato come texture [Riferimenti], trasforma questo in un render 3D ad alta fedeltà di una poltrona [Relazione]. Posizionala in un soggiorno minimalista inondato di sole [Nuovo Scenario].
2. Editing di immagini
L’editing richiede una mentalità diversa dalla generazione. Hai già un’immagine di base; il tuo prompt deve concentrarsi su cosa sta cambiando e cosa rimane uguale.
Editing conversazionale (senza nuovi riferimenti)
Quando generi un’immagine e vuoi modificarla in modo conversazionale:
Semantic masking (inpainting): Puoi definire una “maschera” attraverso il testo per modificare una parte specifica di un’immagine lasciando il resto intatto.
Suggerimento di prompting: Sii esplicito su cosa mantenere esattamente uguale.
Esempio di prompt: “Rimuovi l’uomo dalla foto”
Composizione e trasferimento di stile (con nuovi riferimenti)
Porta nuove immagini nel prompt per alterare una esistente:
- Aggiunta di elementi: Carica un’immagine di base e un’immagine di un oggetto, e dì al modello di combinarle.
- Trasferimento di stile: Carica una foto e chiedi al modello di ricreare il suo contenuto esatto in uno stile artistico diverso, come trasformare una foto di una strada cittadina moderna in un dipinto in stile Van Gogh.
3. Informazioni in tempo reale dalla ricerca web
I modelli Gemini Image possono cercare attivamente sul web per generare immagini basate su informazioni in tempo reale.
Come cambia il prompting: Invece di descrivere una scena fittizia, istruisci il modello a recuperare dati del mondo reale e poi specifica come visualizzarli.
La formula: [Fonte/Richiesta di ricerca] + [Compito analitico] + [Traduzione visiva]
Esempio di prompt: [Cerca il meteo attuale e la data a San Francisco] + [Analiticamente, usa questi dati per modificare la scena (ad esempio, se piove, rendila grigia e piovosa)] + [Visualizza questo in un concetto di città in miniatura in una tazza incorporato in un’interfaccia utente realistica e moderna di smartphone.
Nano Banana 2 è alimentato da informazioni e immagini in tempo reale dalla ricerca web. Questa funzionalità arriverà presto su Vertex AI e aiuterà i tuoi team a creare visual più accurati.
4. Rendering del testo e localizzazione
Nano Banana 2 e Nano Banana Pro eccellono nel rendering di testo nitido e leggibile per poster d’impatto, diagrammi e mockup di prodotti. Supporta inoltre la generazione di testo multilingue all’avanguardia in oltre 10 lingue.
Per ottenere i migliori risultati tipografici, segui queste regole:
- Usa le virgolette: Racchiudi le parole desiderate tra virgolette (ad esempio, “Buon compleanno” o “URBAN EXPLORER”).
- Scegli un font: Descrivi lo stile tipografico o il nome del font. Richiedi un “font sans-serif grassetto, bianco” o “font Century Gothic 12px”.
- Traduci e localizza: Scrivi il tuo prompt in una lingua e specifica una lingua di destinazione per l’output del testo.
Hack text-first: Quando generi testo per un’immagine, i modelli Gemini Image funzionano meglio se prima conversi con loro per generare i concetti di testo, e poi chiedi un’immagine con quel testo.
5. Prompt come un Creative Director
Per elevare i tuoi risultati da buoni a mozzafiato, devi smettere di digitare parole chiave e iniziare a dirigere la scena. I modelli di immagini Gemini offrono controlli di qualità da studio. Ecco come fare prompt come un Creative Director:
1. Progetta la tua illuminazione
Dì al modello esattamente come la scena è illuminata.
- Setup da studio: Chiedi un “setup softbox a tre punti” per illuminare uniformemente un prodotto.
- Effetti drammatici: Richiedi “Illuminazione Chiaroscuro con contrasto duro e alto” o “Retroilluminazione dell’ora d’oro che crea lunghe ombre”.
2. Scegli la tua fotocamera, obiettivo e messa a fuoco
Usa terminologia hardware e fotografica specifica per controllare la profondità, la distorsione e la prospettiva del tuo scatto.
- Hardware: Dettaglia il tipo esatto di fotocamera per cambiare il DNA visivo dell’immagine. Chiedi che lo scatto sia fatto con una GoPro per una sensazione d’azione immersiva e distorta, una fotocamera Fujifilm per un’autentica scienza del colore, o una fotocamera usa e getta economica per un’estetica flash grezza e nostalgica.
- Obiettivo: Forza la prospettiva richiedendo esplicitamente uno “scatto a basso angolo con una profondità di campo ridotta (f/1.8)”. Se devi mostrare una vasta scala, chiedi un “obiettivo grandangolare”. Per dettagli intricati, specifica un “obiettivo macro”.
3. Definisci la gradazione del colore e il tipo di pellicola
La texture e il colore dell’immagine finale impostano il tono emotivo.
Se vuoi un’atmosfera nostalgica o grezza, dì al modello di renderizzare l’immagine “come se fosse su pellicola a colori degli anni ’80, leggermente granulosa”. Per un’estetica moderna e cupa, chiedi una “Gradazione del colore cinematografica con toni turchese attenuati”.
4. Enfatizza materialità e texture
Quando generi loghi, prodotti o personaggi, definisci la loro composizione fisica. Non chiedere solo una giacca; chiedi “tweed blu navy”. Invece di “armatura”, descrivi “armatura a piastre elfiche ornate, incisa con motivi a foglia d’argento”. Se stai progettando un mockup, specifica la superficie, come una “tazza da caffè in ceramica minimalista”.
Vai oltre
Nano Banana Pro e Nano Banana 2 sono progettati per funzionare perfettamente con i nostri altri modelli di creazione generativa.
- Nano Banana + Gemini: Gemini 3 può aiutarti a creare prompt e con la direzione creativa.
- Nano Banana + Veo: Crea keyframe con Nano Banana per dirigere un’animazione, poi usa Veo per generare il video tra di loro.
- Nano Banana + Veo + Lyria: Genera i visual del tuo progetto, poi aggiungi una colonna sonora AI personalizzata con Lyria.
