Omni Studio mette Gemini Omni nelle tue mani, il modello multimodale di Google DeepMind. Porta testo, fino a cinque immagini, una referenza vocale o un clip. Ricevi un video con audio nativo, watermarkato. E lo affini parlandogli.
Nessuna registrazione per vedere il tuo primo video.
Omni si adatta al tuo workflow, non viceversa.
Un'immagine dentro, un hook da 10 secondi fuori. Senza timeline.
Composizioni prodotto con testo incastonato nell'inquadratura, tutto pilotato a voce.
Explainer in claymation, visualizzazioni scientifiche, vignette storiche.
Concept board, reel di pitch, varianti di style transfer in serie.
Clicca su un riquadro per remixarlo.
Tutti questi formati possono convivere in un solo prompt.
Descrivi l'inquadratura. Appoggiati a ciò che il modello sa già.
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
Fino a cinque immagini per guidare il rendering.
Un clip vocale. Registra una sequenza di numeri per autenticare la tua.
Remixa un clip esistente. Cambia stile, sostituisci un elemento, trasferisci il movimento.
Il prompt a sei assi è il vero cambio di passo. Dichiariamo inquadratura, luce, azione, e iteriamo su quello che è davvero in scena. Tempo per i concept board crollato dell'80 %.
Il testo renderizzato dentro l'inquadratura è stato il click. Hero di prodotto con il codice SKU dentro l'immagine, senza passare da After Effects. Tre settimane di lavoro in agenzia in un pomeriggio.
Insegno fisica al liceo. Gli explainer in stop-motion richiedevano una settimana. Con Omni prompto lo schema una volta, raffino in chat, lo pubblico nella stessa ora.
Editare conversando batte qualsiasi smanettamento sui parametri. "Rendi la luce più calda" funziona e basta, e il personaggio resta lo stesso da inquadratura a inquadratura.
L'audio nativo mi ha convinto. Voce sincronizzata con le labbra, ambiente della stanza, foley, tutto in un solo render. Mi ha salvato il budget di post-produzione due volte questo mese.
Qualunque referenza, fino a cinque insieme. Stile da un poster, movimento da un clip, voce da un wav. Omni non oppone resistenza, fa la cosa.
Il primo modello della famiglia Omni di DeepMind.
Dal prompt al clip alla rifinitura, tutto sulla stessa schermata.
La guida ai prompt trasformata in campi.
Median 23 seconds. Live status & cost.
Le rifiniture conversazionali mantengono coerente la scena.
Nove capacità che il modello restituisce in modo costante. Niente cherry-pick da demo.
Lettere che si leggono davvero. Lower thirds, poster, sequenze alfabetiche, branding nell'inquadratura.
Genera, poi itera conversando. La scena resta coerente da una rifinitura all'altra.
Immagine, video, audio, sketch. Combina fino a cinque input in un solo prompt.
Dolly, push-in, piano sequenza, over-the-shoulder. Tu lo dici a parole, il modello lo esegue.
Suono diegetico, layer d'ambiente, voce sincronizzata con le labbra. Senza passaggi audio separati.
Dalla claymation al voxel art fino all'ologramma. Il movimento tiene, cambia solo la superficie.
Le biglie rotolano, la stoffa si posa, l'acqua riflette. Le reazioni a catena si concatenano davvero.
La stessa persona da un'inquadratura all'altra, in ogni ambiente o stile. Volti e abiti tengono.
Una provenienza verificabile. Il watermark sopravvive a compressione, ritaglio e ri-codifica.
Lettura onesta: dove Omni è in vantaggio, dove pareggia, e cosa non vuole essere.
| Siamo noiOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| Testo a schermo | Leader di categoria. Lower thirds, poster, sequenze alfabetiche tengono. | Buono. Le caption brevi funzionano. | Limitato. Deraglia sui testi lunghi. | Buono. Testo di marca dignitoso. |
| Editing multi-turno | Chat nativa. Scena e personaggio restano coerenti. | Re-prompt manuale. | Re-prompt manuale. | Re-prompt manuale. |
| Audio nativo | Voce + SFX + ambiente in un passaggio. | Limitato. Solo SFX. | Output muto. | Output muto. |
| Input di riferimento | Immagine, video, audio, sketch. Fino a 5 combinati. | Solo immagine. | Immagine, clip breve. | Immagine, motion brush. |
| Durata in uscita | 10 s di base, concatenabili in chat. | 8 s. | 8 a 20 s secondo il piano. | 10 s. |
| Provenienza | Watermark SynthID, verificabile. | Watermark SynthID. | Metadati C2PA. | Metadati C2PA. |
| Ideale per | Creator, insegnanti e team brand che pubblicano video pronti all'uso. | Filmmaker in cerca di un look puramente cinematografico. | Short-form narrativo. | Motion design e workflow VFX. |
I prezzi di Google, ribaltati come sono. Un abbonamento fisso per postazione, e basta.
Fino a 200 minuti al mese.
Coda prioritaria, rifiniture illimitate.
Spazio di lavoro condiviso per i team.
Se la tua non c'è, scrivici.
Gemini Omni è il primo modello any-to-any di Google DeepMind, annunciato il 19 maggio 2026 a I/O. Un modello, un passaggio: legge testo, immagini, audio e video, e restituisce video con audio nativo. Raccoglie l'eredità della famiglia Veo e assorbe capacità di Nano Banana (editing immagini) e Genie (mondi interattivi). Omni Studio è la nostra interfaccia sopra, senza alcuna affiliazione con Google. Passiamo per le API ufficiali Gemini e Vertex senza ricarichi.
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
Omni è stato addestrato per l'editing multi-turno, mantiene la scena coerente fra una rifinitura e l'altra. Dopo una generazione scrivi cose come "rendi la luce più calda" o "cambia lo sfondo" e il modello ri-renderizza preservando personaggi, movimento e traiettoria di camera. Ogni rifinitura è un nuovo nodo nel tuo albero di libreria, così puoi ramificare e confrontare.
SynthID è il watermark invisibile di Google, integrato in ogni output di Omni. Impercettibile a occhio umano ma verificabile dall'app Gemini, da Chrome e da Google Search. Resiste a ri-codifica, ritaglio e registrazione schermo. La provenienza non è opzionale: ogni clip generato qui esce firmato.
La modifica vocale è limitata al lancio (decisione di Google) finché non arriva un'implementazione più sicura. Puoi caricare una referenza vocale, ma per usare la tua voce come avatar dovrai prima registrare una breve sequenza di numeri (il safeguard ufficiale anti-deepfake). Tutti gli output sono watermarkati con SynthID e la piattaforma è riservata a maggiori di 18 anni.
Google said 'in the coming weeks' on May 19. Prezzi isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mese) on top. Join the API waitlist above to get keys the day it goes live.
Sì. Disdetta direttamente nelle impostazioni, senza email, senza attrito. I minuti non usati restano disponibili per 30 giorni. Se disdici entro 14 giorni dal pagamento, rimborsiamo il mese intero, senza domande, senza moduli.
Prompt e output stanno su Vercel Blob Storage (regione UE di default, US in opzione). Non usiamo le tue generazioni per l'addestramento. Il processing sottostante di Google segue i termini d'uso dei dati dell'API Gemini. Zero Data Retention disponibile sui piani Pro e Ultra.
Tre generazioni offerte. Niente carta.