Gemini Omni Flash è online. Prova il prompt qui sotto, senza registrazione · Provalo ora →
Ω Omni Studio v0.1 · beta
Accedi Inizia
Con Gemini Omni Flash · 19 maggio 2026

Crea video
da qualunque input,
con Gemini Omni.

Omni Studio mette Gemini Omni nelle tue mani, il modello multimodale di Google DeepMind. Porta testo, fino a cinque immagini, una referenza vocale o un clip. Ricevi un video con audio nativo, watermarkato. E lo affini parlandogli.

~23s tempo medio di render
10s clip · 16:9 · 1080p
5 immagini di riferimento · 1 voce
SynthID su ogni output
LIVE · TRY NOW

Scrivi il tuo primo prompt.
Guarda cosa ne fa Omni.

Nessuna registrazione per vedere il tuo primo video.

Prompt
158 chars to generate
Prova un esempio:
tokenizing prompt
Formato
16:9
Durata
8 s
Risoluzione
1080p
Voce
Auto

23s fino al primo frame · 1080p · SynthID
Team che creano con Omni
Northwind Foxglove Aetheric Lumen Labs Klein & Co Helio
Pensato per

Uno studio. Quattro modi di creare.

Omni si adatta al tuo workflow, non viceversa.

01 · CREATOR

Creator short-form

Un'immagine dentro, un hook da 10 secondi fuori. Senza timeline.

02 · MARKETING

Brand & marketing

Composizioni prodotto con testo incastonato nell'inquadratura, tutto pilotato a voce.

03 · EDUCAZIONE

Explainers & education

Explainer in claymation, visualizzazioni scientifiche, vignette storiche.

04 · AGENZIE

Agencies & studios

Concept board, reel di pitch, varianti di style transfer in serie.

Realizzato con Omni · ultime 24h

Un muro di generazioni.

Clicca su un riquadro per remixarlo.

ONER
"When the person touches the mirror, transforms into a detailed monochrome line art drawing"
transform · 0:08via DeepMind
ZOOM
"Make the hand-shaped hole super zoom and magnify the ground it's looking at"
reimagine · 0:10via DeepMind
SOUND
"When the finger touches the animal toy, play the sound the animal makes"
sound · 0:08via DeepMind
CLAY
"Skeuomorphism stop-motion explainer of how the brain hippocampus works"
explainer · 0:18via DeepMind
VOXEL
"When the person touches the mirror, the entire environment turns into 3D voxel art"
transform · 0:08via DeepMind
MUSIC
"The lights of the apartments start turning on in sync with the music"
reimagine · 0:08via DeepMind
TEXT
"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."
text · 0:11via DeepMind
FIELD
"Transport the violinist to the image environment, sun-drenched grassy field"
multi-turn · 0:08via DeepMind
PUPPET
"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"
transform · 0:08via DeepMind
ANGLE
"Change the camera angle to be over the violinist's shoulder"
multi-turn · 0:08via DeepMind
HOLO
"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"
transform · 0:08via DeepMind
TEXT
"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."
text · 0:09via DeepMind
Scopri la galleria completa →
Multimodale in ingresso

Porta quello che hai. Mescola come vuoi.

Tutti questi formati possono convivere in un solo prompt.

01 · TESTO

Linguaggio naturale

Descrivi l'inquadratura. Appoggiati a ciò che il modello sa già.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious
02 · IMMAGINI × 5

Immagini di riferimento

Fino a cinque immagini per guidare il rendering.

03 · VOCE

Referenza vocale

Un clip vocale. Registra una sequenza di numeri per autenticare la tua.

04 · VIDEO

Clip video

Remixa un clip esistente. Cambia stile, sostituisci un elemento, trasferisci il movimento.

Cosa dicono i beta tester

Sei voci. Un solo filo.

Il prompt a sei assi è il vero cambio di passo. Dichiariamo inquadratura, luce, azione, e iteriamo su quello che è davvero in scena. Tempo per i concept board crollato dell'80 %.

MT
Mira Tessier
Direttrice creativa · Foxglove Studio

Il testo renderizzato dentro l'inquadratura è stato il click. Hero di prodotto con il codice SKU dentro l'immagine, senza passare da After Effects. Tre settimane di lavoro in agenzia in un pomeriggio.

RK
Rachel Kim
Brand Lead · Northwind

Insegno fisica al liceo. Gli explainer in stop-motion richiedevano una settimana. Con Omni prompto lo schema una volta, raffino in chat, lo pubblico nella stessa ora.

LP
Liam Patel
Educator · Klein & Co Academy

Editare conversando batte qualsiasi smanettamento sui parametri. "Rendi la luce più calda" funziona e basta, e il personaggio resta lo stesso da inquadratura a inquadratura.

SG
Sofia Garcia
Creator YouTube · 480k iscritti

L'audio nativo mi ha convinto. Voce sincronizzata con le labbra, ambiente della stanza, foley, tutto in un solo render. Mi ha salvato il budget di post-produzione due volte questo mese.

EB
Ethan Brooks
Filmmaker indipendente · Lumen Labs

Qualunque referenza, fino a cinque insieme. Stile da un poster, movimento da un clip, voce da un wav. Omni non oppone resistenza, fa la cosa.

MI
Maya Iwasaki
Brand Designer · Helio
Il modello

Gemini Omni Flash, in numeri.

Il primo modello della famiglia Omni di DeepMind.

Leggi la model card →
Famiglia
Omni
Successore di Veo, Genie e Nano Banana
Output
Video + audio
Native sound · image & audio out soon
Input
Any-to-any
Testo · immagine × 5 · voce · video · sketch
Provenienza
SynthID
Watermarkato e verificabile
Come funziona

Tre passaggi. Uno studio.

Dal prompt al clip alla rifinitura, tutto sulla stessa schermata.

PASSAGGIO 01

Componi su sei assi

La guida ai prompt trasformata in campi.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire
⌘↵ Genera
PASSAGGIO 02

Guarda il rendering

Median 23 seconds. Live status & cost.

0:23 fino al primo frame
PASSAGGIO 03

Affina parlando

Le rifiniture conversazionali mantengono coerente la scena.

rendi la luce più calda
✓ ri-renderizzato
aggiungi una leggera foschia
✓ keeping fox & camera path
⌘B Mostra chat
Funzionalità

Cosa fa davvero Gemini Omni.

Nove capacità che il modello restituisce in modo costante. Niente cherry-pick da demo.

01 · TESTO

Testo a schermo

Lettere che si leggono davvero. Lower thirds, poster, sequenze alfabetiche, branding nell'inquadratura.

02 · CHAT

Editing multi-turno

Genera, poi itera conversando. La scena resta coerente da una rifinitura all'altra.

03 · INPUT

Ogni referenza, ogni formato

Immagine, video, audio, sketch. Combina fino a cinque input in un solo prompt.

04 · CAMERA

Regia della camera

Dolly, push-in, piano sequenza, over-the-shoulder. Tu lo dici a parole, il modello lo esegue.

05 · AUDIO

Voce e SFX nativi

Suono diegetico, layer d'ambiente, voce sincronizzata con le labbra. Senza passaggi audio separati.

06 · STILE

Style transfer

Dalla claymation al voxel art fino all'ologramma. Il movimento tiene, cambia solo la superficie.

07 · MOVIMENTO

Fisica coerente

Le biglie rotolano, la stoffa si posa, l'acqua riflette. Le reazioni a catena si concatenano davvero.

08 · PERSONAGGI

Coerenza dei personaggi

La stessa persona da un'inquadratura all'altra, in ogni ambiente o stile. Volti e abiti tengono.

09 · PROVENIENZA

Watermark SynthID

Una provenienza verificabile. Il watermark sopravvive a compressione, ritaglio e ri-codifica.

Omni contro il resto

Gemini Omni contro il resto.

Lettura onesta: dove Omni è in vantaggio, dove pareggia, e cosa non vuole essere.

Siamo noiOmni Studio Google · VeoVeo 3.1 OpenAISora 2 RunwayGen-4
Testo a schermo Leader di categoria. Lower thirds, poster, sequenze alfabetiche tengono. Buono. Le caption brevi funzionano. Limitato. Deraglia sui testi lunghi. Buono. Testo di marca dignitoso.
Editing multi-turno Chat nativa. Scena e personaggio restano coerenti. Re-prompt manuale. Re-prompt manuale. Re-prompt manuale.
Audio nativo Voce + SFX + ambiente in un passaggio. Limitato. Solo SFX. Output muto. Output muto.
Input di riferimento Immagine, video, audio, sketch. Fino a 5 combinati. Solo immagine. Immagine, clip breve. Immagine, motion brush.
Durata in uscita 10 s di base, concatenabili in chat. 8 s. 8 a 20 s secondo il piano. 10 s.
Provenienza Watermark SynthID, verificabile. Watermark SynthID. Metadati C2PA. Metadati C2PA.
Ideale per Creator, insegnanti e team brand che pubblicano video pronti all'uso. Filmmaker in cerca di un look puramente cinematografico. Short-form narrativo. Motion design e workflow VFX.
Istantanea. Il mercato cambia in fretta, aggiorniamo la tabella ogni mese.
Prezzi

Gli stessi piani di Gemini.
Senza sovrapprezzi a sorpresa.

I prezzi di Google, ribaltati come sono. Un abbonamento fisso per postazione, e basta.

Plus
$20/mese

Fino a 200 minuti al mese.

  • 200 min / mese
  • Clip da 10 s · 1080p · audio attivo
  • Watermark SynthID
  • Library & templates
CONSIGLIATO
Pro
$30/mese

Coda prioritaria, rifiniture illimitate.

  • 1.000 min / mese
  • Coda prioritaria · render più veloci
  • Rifiniture conversazionali illimitate
  • Passthrough API personale
  • Preset ad alta risoluzione
Ultra
$100/mese

Spazio di lavoro condiviso per i team.

  • Generazioni illimitate
  • Workspace team (5 postazioni)
  • Brand kit & asset library
  • Supporto prioritario
  • Audit log & SSO
Domande

Le domande che probabilmente farai.

Se la tua non c'è, scrivici.

01Cos'è Gemini Omni, esattamente?

Gemini Omni è il primo modello any-to-any di Google DeepMind, annunciato il 19 maggio 2026 a I/O. Un modello, un passaggio: legge testo, immagini, audio e video, e restituisce video con audio nativo. Raccoglie l'eredità della famiglia Veo e assorbe capacità di Nano Banana (editing immagini) e Genie (mondi interattivi). Omni Studio è la nostra interfaccia sopra, senza alcuna affiliazione con Google. Passiamo per le API ufficiali Gemini e Vertex senza ricarichi.

02Cosa posso mettere in input e cosa esce?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Come funzionano le rifiniture conversazionali?

Omni è stato addestrato per l'editing multi-turno, mantiene la scena coerente fra una rifinitura e l'altra. Dopo una generazione scrivi cose come "rendi la luce più calda" o "cambia lo sfondo" e il modello ri-renderizza preservando personaggi, movimento e traiettoria di camera. Ogni rifinitura è un nuovo nodo nel tuo albero di libreria, così puoi ramificare e confrontare.

04Cos'è SynthID e perché conta?

SynthID è il watermark invisibile di Google, integrato in ogni output di Omni. Impercettibile a occhio umano ma verificabile dall'app Gemini, da Chrome e da Google Search. Resiste a ri-codifica, ritaglio e registrazione schermo. La provenienza non è opzionale: ogni clip generato qui esce firmato.

05Come gestite voce e volti?

La modifica vocale è limitata al lancio (decisione di Google) finché non arriva un'implementazione più sicura. Puoi caricare una referenza vocale, ma per usare la tua voce come avatar dovrai prima registrare una breve sequenza di numeri (il safeguard ufficiale anti-deepfake). Tutti gli output sono watermarkati con SynthID e la piattaforma è riservata a maggiori di 18 anni.

06Quando esce l'API e quanto costerà?

Google said 'in the coming weeks' on May 19. Prezzi isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mese) on top. Join the API waitlist above to get keys the day it goes live.

07Posso disdire quando voglio? E i rimborsi?

Sì. Disdetta direttamente nelle impostazioni, senza email, senza attrito. I minuti non usati restano disponibili per 30 giorni. Se disdici entro 14 giorni dal pagamento, rimborsiamo il mese intero, senza domande, senza moduli.

08Dove sono i miei dati? Servono ad addestrare il modello?

Prompt e output stanno su Vercel Blob Storage (regione UE di default, US in opzione). Non usiamo le tue generazioni per l'addestramento. Il processing sottostante di Google segue i termini d'uso dei dati dell'API Gemini. Zero Data Retention disponibile sui piani Pro e Ultra.

Crea qualcosa oggi. Tre generazioni in omaggio.

Tre generazioni offerte. Niente carta.