Con Gemini Omni Flash · 19 maggio 2026

Crea video
da qualunque input,
con Gemini Omni.

Q: Cosa posso mettere in input e cosa esce?

Al lancio, in input: testo, fino a 5 immagini di riferimento, una referenza vocale, un clip video o degli sketch. In uscita: clip da 10 s, formato 16:9, 1080p, con audio nativo. L'output di immagine e audio è nella roadmap di Google: lo aggiungeremo appena arriva.

Q: Quando esce l'API e quanto costerà?

Google ha detto "nelle prossime settimane" il 19 maggio. I prezzi non sono ancora pubblici. Le proiezioni della stampa si attestano fra $0,10 e $0,30 al secondo di video. Ribalteremo i prezzi Google senza ricarico e fattureremo la postazione ($20-100 al mese) sopra. Iscriviti alla waiting list dell'API sopra per ricevere le chiavi il giorno del lancio.

Omni Studio mette Gemini Omni nelle tue mani, il modello multimodale di Google DeepMind. Porta testo, fino a cinque immagini, una referenza vocale o un clip. Ricevi un video con audio nativo, watermarkato. E lo affini parlandogli.

Apri lo Studio Vedi la galleria

~23s tempo medio di render

10s clip · 16:9 · 1080p

5 immagini di riferimento · 1 voce

SynthID su ogni output

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

Realizzato con Omni · ultime 24h

Un muro di generazioni.

Clicca su un riquadro per remixarlo.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

Scopri la galleria completa →

Multimodale in ingresso

Porta quello che hai. Mescola come vuoi.

Tutti questi formati possono convivere in un solo prompt.

01 · TESTO

Linguaggio naturale

Descrivi l'inquadratura. Appoggiati a ciò che il modello sa già.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · IMMAGINI × 5

Immagini di riferimento

Fino a cinque immagini per guidare il rendering.

03 · VOCE

Referenza vocale

Un clip vocale. Registra una sequenza di numeri per autenticare la tua.

04 · VIDEO

Clip video

Remixa un clip esistente. Cambia stile, sostituisci un elemento, trasferisci il movimento.

Cosa dicono i beta tester

Sei voci. Un solo filo.

Il prompt a sei assi è il vero cambio di passo. Dichiariamo inquadratura, luce, azione, e iteriamo su quello che è davvero in scena. Tempo per i concept board crollato dell'80 %.

Mira Tessier

Direttrice creativa · Foxglove Studio

Il testo renderizzato dentro l'inquadratura è stato il click. Hero di prodotto con il codice SKU dentro l'immagine, senza passare da After Effects. Tre settimane di lavoro in agenzia in un pomeriggio.

Rachel Kim

Brand Lead · Northwind

Insegno fisica al liceo. Gli explainer in stop-motion richiedevano una settimana. Con Omni prompto lo schema una volta, raffino in chat, lo pubblico nella stessa ora.

Liam Patel

Educator · Klein & Co Academy

Editare conversando batte qualsiasi smanettamento sui parametri. "Rendi la luce più calda" funziona e basta, e il personaggio resta lo stesso da inquadratura a inquadratura.

Sofia Garcia

Creator YouTube · 480k iscritti

L'audio nativo mi ha convinto. Voce sincronizzata con le labbra, ambiente della stanza, foley, tutto in un solo render. Mi ha salvato il budget di post-produzione due volte questo mese.

Ethan Brooks

Filmmaker indipendente · Lumen Labs

Qualunque referenza, fino a cinque insieme. Stile da un poster, movimento da un clip, voce da un wav. Omni non oppone resistenza, fa la cosa.

Maya Iwasaki

Brand Designer · Helio

Come funziona

Tre passaggi. Uno studio.

Dal prompt al clip alla rifinitura, tutto sulla stessa schermata.

PASSAGGIO 01

Componi su sei assi

La guida ai prompt trasformata in campi.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire

⌘↵ Genera

PASSAGGIO 02

Guarda il rendering

Median 23 seconds. Live status & cost.

⏱ 0:23 fino al primo frame

PASSAGGIO 03

Affina parlando

Le rifiniture conversazionali mantengono coerente la scena.

rendi la luce più calda

✓ ri-renderizzato

aggiungi una leggera foschia

✓ keeping fox & camera path

⌘B Mostra chat

Funzionalità

Cosa fa davvero Gemini Omni.

Nove capacità che il modello restituisce in modo costante. Niente cherry-pick da demo.

01 · TESTO

Testo a schermo

Lettere che si leggono davvero. Lower thirds, poster, sequenze alfabetiche, branding nell'inquadratura.

02 · CHAT

Editing multi-turno

Genera, poi itera conversando. La scena resta coerente da una rifinitura all'altra.

03 · INPUT

Ogni referenza, ogni formato

Immagine, video, audio, sketch. Combina fino a cinque input in un solo prompt.

04 · CAMERA

Regia della camera

Dolly, push-in, piano sequenza, over-the-shoulder. Tu lo dici a parole, il modello lo esegue.

05 · AUDIO

Voce e SFX nativi

Suono diegetico, layer d'ambiente, voce sincronizzata con le labbra. Senza passaggi audio separati.

06 · STILE

Style transfer

Dalla claymation al voxel art fino all'ologramma. Il movimento tiene, cambia solo la superficie.

07 · MOVIMENTO

Fisica coerente

Le biglie rotolano, la stoffa si posa, l'acqua riflette. Le reazioni a catena si concatenano davvero.

08 · PERSONAGGI

Coerenza dei personaggi

La stessa persona da un'inquadratura all'altra, in ogni ambiente o stile. Volti e abiti tengono.

09 · PROVENIENZA

Watermark SynthID

Una provenienza verificabile. Il watermark sopravvive a compressione, ritaglio e ri-codifica.

Omni contro il resto

Gemini Omni contro il resto.

Lettura onesta: dove Omni è in vantaggio, dove pareggia, e cosa non vuole essere.

	Siamo noiOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
Testo a schermo	Leader di categoria. Lower thirds, poster, sequenze alfabetiche tengono.	Buono. Le caption brevi funzionano.	Limitato. Deraglia sui testi lunghi.	Buono. Testo di marca dignitoso.
Editing multi-turno	Chat nativa. Scena e personaggio restano coerenti.	Re-prompt manuale.	Re-prompt manuale.	Re-prompt manuale.
Audio nativo	Voce + SFX + ambiente in un passaggio.	Limitato. Solo SFX.	Output muto.	Output muto.
Input di riferimento	Immagine, video, audio, sketch. Fino a 5 combinati.	Solo immagine.	Immagine, clip breve.	Immagine, motion brush.
Durata in uscita	10 s di base, concatenabili in chat.	8 s.	8 a 20 s secondo il piano.	10 s.
Provenienza	Watermark SynthID, verificabile.	Watermark SynthID.	Metadati C2PA.	Metadati C2PA.
Ideale per	Creator, insegnanti e team brand che pubblicano video pronti all'uso.	Filmmaker in cerca di un look puramente cinematografico.	Short-form narrativo.	Motion design e workflow VFX.

Istantanea. Il mercato cambia in fretta, aggiorniamo la tabella ogni mese.

Prezzi

Gli stessi piani di Gemini.
Senza sovrapprezzi a sorpresa.

I prezzi di Google, ribaltati come sono. Un abbonamento fisso per postazione, e basta.

Plus

$20/mese

Fino a 200 minuti al mese.

200 min / mese
Clip da 10 s · 1080p · audio attivo
Watermark SynthID
Library & templates

CONSIGLIATO

Pro

$30/mese

Coda prioritaria, rifiniture illimitate.

1.000 min / mese
Coda prioritaria · render più veloci
Rifiniture conversazionali illimitate
Passthrough API personale
Preset ad alta risoluzione

Ultra

$100/mese

Spazio di lavoro condiviso per i team.

Generazioni illimitate
Workspace team (5 postazioni)
Brand kit & asset library
Supporto prioritario
Audit log & SSO

Domande

Le domande che probabilmente farai.

Se la tua non c'è, scrivici.

01Cos'è Gemini Omni, esattamente?

Gemini Omni è il primo modello any-to-any di Google DeepMind, annunciato il 19 maggio 2026 a I/O. Un modello, un passaggio: legge testo, immagini, audio e video, e restituisce video con audio nativo. Raccoglie l'eredità della famiglia Veo e assorbe capacità di Nano Banana (editing immagini) e Genie (mondi interattivi). Omni Studio è la nostra interfaccia sopra, senza alcuna affiliazione con Google. Passiamo per le API ufficiali Gemini e Vertex senza ricarichi.

02Cosa posso mettere in input e cosa esce?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Come funzionano le rifiniture conversazionali?

Omni è stato addestrato per l'editing multi-turno, mantiene la scena coerente fra una rifinitura e l'altra. Dopo una generazione scrivi cose come "rendi la luce più calda" o "cambia lo sfondo" e il modello ri-renderizza preservando personaggi, movimento e traiettoria di camera. Ogni rifinitura è un nuovo nodo nel tuo albero di libreria, così puoi ramificare e confrontare.

04Cos'è SynthID e perché conta?

SynthID è il watermark invisibile di Google, integrato in ogni output di Omni. Impercettibile a occhio umano ma verificabile dall'app Gemini, da Chrome e da Google Search. Resiste a ri-codifica, ritaglio e registrazione schermo. La provenienza non è opzionale: ogni clip generato qui esce firmato.

05Come gestite voce e volti?

La modifica vocale è limitata al lancio (decisione di Google) finché non arriva un'implementazione più sicura. Puoi caricare una referenza vocale, ma per usare la tua voce come avatar dovrai prima registrare una breve sequenza di numeri (il safeguard ufficiale anti-deepfake). Tutti gli output sono watermarkati con SynthID e la piattaforma è riservata a maggiori di 18 anni.

06Quando esce l'API e quanto costerà?

Google said 'in the coming weeks' on May 19. Prezzi isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mese) on top. Join the API waitlist above to get keys the day it goes live.

07Posso disdire quando voglio? E i rimborsi?

Sì. Disdetta direttamente nelle impostazioni, senza email, senza attrito. I minuti non usati restano disponibili per 30 giorni. Se disdici entro 14 giorni dal pagamento, rimborsiamo il mese intero, senza domande, senza moduli.

08Dove sono i miei dati? Servono ad addestrare il modello?

Prompt e output stanno su Vercel Blob Storage (regione UE di default, US in opzione). Non usiamo le tue generazioni per l'addestramento. Il processing sottostante di Google segue i termini d'uso dei dati dell'API Gemini. Zero Data Retention disponibile sui piani Pro e Ultra.

Crea video
da qualunque input,
con Gemini Omni.

Scrivi il tuo primo prompt.
Guarda cosa ne fa Omni.

Uno studio. Quattro modi di creare.

Creator short-form

Brand & marketing

Explainers & education

Agencies & studios

Un muro di generazioni.

Porta quello che hai. Mescola come vuoi.

Linguaggio naturale

Immagini di riferimento

Referenza vocale

Clip video

Sei voci. Un solo filo.

Gemini Omni Flash, in numeri.

Tre passaggi. Uno studio.

Componi su sei assi

Guarda il rendering

Affina parlando

Cosa fa davvero Gemini Omni.

Testo a schermo

Editing multi-turno

Ogni referenza, ogni formato

Regia della camera

Voce e SFX nativi

Style transfer

Fisica coerente

Coerenza dei personaggi

Watermark SynthID

Gemini Omni contro il resto.

Gli stessi piani di Gemini.
Senza sovrapprezzi a sorpresa.

Le domande che probabilmente farai.

Crea qualcosa oggi. Tre generazioni in omaggio.

Crea videoda qualunque input,con Gemini Omni.

Scrivi il tuo primo prompt.Guarda cosa ne fa Omni.

Uno studio. Quattro modi di creare.

Creator short-form

Brand & marketing

Explainers & education

Agencies & studios

Un muro di generazioni.

Porta quello che hai. Mescola come vuoi.

Linguaggio naturale

Immagini di riferimento

Referenza vocale

Clip video

Sei voci. Un solo filo.

Gemini Omni Flash, in numeri.

Tre passaggi. Uno studio.

Componi su sei assi

Guarda il rendering

Affina parlando

Cosa fa davvero Gemini Omni.

Testo a schermo

Editing multi-turno

Ogni referenza, ogni formato

Regia della camera

Voce e SFX nativi

Style transfer

Fisica coerente

Coerenza dei personaggi

Watermark SynthID

Gemini Omni contro il resto.

Gli stessi piani di Gemini.Senza sovrapprezzi a sorpresa.

Le domande che probabilmente farai.

Crea qualcosa oggi. Tre generazioni in omaggio.

Crea video
da qualunque input,
con Gemini Omni.

Scrivi il tuo primo prompt.
Guarda cosa ne fa Omni.

Gli stessi piani di Gemini.
Senza sovrapprezzi a sorpresa.