Com Gemini Omni Flash · 19 de maio de 2026

Crie vídeos
a partir de qualquer entrada,
com Gemini Omni.

Q: O que posso colocar na entrada e o que sai?

No lançamento, entrada: texto, até 5 imagens de referência, uma referência de voz, um clipe de vídeo ou sketches. Saída: clipes de 10 s, formato 16:9, 1080p, com áudio nativo. Saída de imagem e áudio está no roadmap do Google, vamos liberar assim que chegarem.

Q: Quando sai a API e quanto custa?

O Google disse "nas próximas semanas" em 19 de maio. Os preços ainda não são públicos. Projeções da imprensa giram em torno de $0,10-0,30 por segundo de vídeo. Vamos repassar os preços do Google sem mark-up e cobrar o assento ($20-100/mês) por cima. Entre na lista de espera da API ali em cima pra receber suas chaves no dia do lançamento.

O Omni Studio coloca o Gemini Omni nas suas mãos, o modelo multimodal do Google DeepMind. Traga texto, até cinco imagens, uma referência de voz ou um clipe. Você recebe um vídeo com som nativo e marca d'água. E refina conversando com ele.

Abrir o Studio Ver a galeria

~23s tempo médio de render

10s clipes · 16:9 · 1080p

5 imagens de referência · 1 voz

SynthID em toda saída

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

Feito com o Omni · últimas 24h

Um mural de gerações.

Clique em qualquer card para remixar.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

Ver a galeria completa →

Multimodal na entrada

Traga o que você tem. Misture livremente.

Tudo isso convive em um único prompt.

01 · TEXTO

Linguagem natural

Descreva o plano. Conte com o que o modelo já sabe.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · IMAGEM × 5

Imagens de referência

Até cinco imagens como guia.

03 · VOZ

Referência de voz

Um clipe de voz. Grave uma sequência de números para reivindicar a sua.

04 · VÍDEO

Clipe de vídeo

Remixe um clipe que já existe. Mude o estilo, troque elementos, transfira o movimento.

O que dizem os beta testers

Seis leituras iniciais. Um mesmo padrão.

O prompt em seis eixos muda tudo. A gente declara enquadramento, luz, ação, e itera no que tá ali na tela. Tempo de concept board caiu 80 %.

Mira Tessier

Diretora de criação · Foxglove Studio

O texto renderizado dentro do quadro foi o estopim pra mim. Hero de produto com o SKU já incrustado, sem precisar de After Effects. Três semanas de agência numa tarde.

Rachel Kim

Brand Lead · Northwind

Dou aula de física no ensino médio. Explainers em stop-motion levavam uma semana. Com o Omni, prompteio o esquema uma vez, refino no chat, publico na própria aula.

Liam Patel

Educator · Klein & Co Academy

Editar conversando é muito melhor do que ficar ajustando parâmetro. "Deixa a luz mais quente" funciona direto, e o personagem segue sendo a mesma pessoa de plano em plano.

Sofia Garcia

Criadora de YouTube · 480 mil inscritos

Áudio nativo foi o que me convenceu. Voz sincronizada com os lábios, ambiência, foley, tudo num único render. Salvou meu orçamento de pós duas vezes esse mês.

Ethan Brooks

Cineasta indie · Lumen Labs

Qualquer referência, até cinco combinadas. O estilo de um pôster, o movimento de um clipe, a voz de um wav. O Omni não cria atrito, só faz acontecer.

Maya Iwasaki

Brand Designer · Helio

Como funciona

Três passos. Um estúdio.

Do prompt ao clipe à edição, tudo na mesma tela.

PASSO 01

Componha em seis eixos

O guia de prompt virou campos estruturados.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire

⌘↵ Gerar

PASSO 02

Acompanhe o render

Median 23 seconds. Live status & cost.

⏱ 0:23 até o primeiro frame

PASSO 03

Refine conversando

Edições por conversa mantêm a cena coerente.

deixa a luz mais quente

✓ renderizado de novo

adiciona uma neblina leve

✓ keeping fox & camera path

⌘B Mostrar chat

Recursos

O que o Gemini Omni realmente faz.

Nove capacidades que o modelo entrega de forma constante. Nada de cherry-pick.

01 · TEXTO

Texto na tela

Letras que dá pra ler de verdade. Lower thirds, pôsteres, sequências do alfabeto, branding embutido.

02 · CHAT

Edição por turnos

Gere e itere conversando. A cena se mantém coerente entre edições.

03 · ENTRADAS

Qualquer referência, qualquer formato

Imagem, vídeo, áudio, sketch. Combine até cinco entradas em um único prompt.

04 · CÂMERA

Direção de câmera

Dolly, push-in, plano-sequência, sobre o ombro. Você descreve em palavras, o modelo respeita.

05 · ÁUDIO

Voz e SFX nativos

Som diegético, camadas de ambiência, voz sincronizada com os lábios. Sem passe de áudio extra.

06 · ESTILO

Style transfer

Da claymation ao voxel art, passando pelo holograma. O movimento se mantém, só a superfície muda.

07 · MOVIMENTO

Física que respeita

As bolinhas rolam, o tecido cai, a água reflete. Reações em cadeia acontecem de verdade.

08 · PERSONAGENS

Coerência de personagens

A mesma pessoa de plano em plano, em qualquer ambiente ou estilo. Rostos e figurinos se mantêm.

09 · PROCEDÊNCIA

Marca d'água SynthID

Procedência que você verifica. A marca sobrevive a compressão, corte e re-codificação.

Omni frente ao resto

Gemini Omni vs a concorrência.

Leitura honesta: onde o Omni lidera, onde empata, e o que ele não quer ser.

	Somos nósOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
Texto na tela	Líder da categoria. Lower thirds, pôsteres, sequências do alfabeto seguram.	Bom. Legendas curtas funcionam.	Limitado. Erra em textos longos.	Bom. Texto de marca aceitável.
Edição por turnos	Chat nativo. Cena e personagem se mantêm coerentes.	Re-prompt manual.	Re-prompt manual.	Re-prompt manual.
Áudio nativo	Voz + SFX + ambiência num único passe.	Limitado. Só SFX.	Saída muda.	Saída muda.
Entradas de referência	Imagem, vídeo, áudio, sketch. Até 5 combinadas.	Só imagem.	Imagem, clipe curto.	Imagem, motion brush.
Duração de saída	10 s base, encadeáveis pelo chat.	8 s.	8 a 20 s conforme o plano.	10 s.
Procedência	Marca d'água SynthID, verificável.	Marca d'água SynthID.	Metadados C2PA.	Metadados C2PA.
Ideal para	Criadores, professores e times de marca que entregam vídeo pronto pra publicar.	Cineastas atrás de um look puramente cinematográfico.	Short-form narrativo.	Motion design e workflows VFX.

Instantâneo. O mercado muda rápido, atualizamos a tabela todo mês.

Preços

Os mesmos planos do Gemini.
Sem mark-up surpresa.

Os preços do Google, repassados como são. Uma mensalidade fixa por assento, só isso.

Plus

$20/mês

Até 200 minutos por mês.

200 min / mês
Clipes de 10 s · 1080p · áudio ativo
Marca d'água SynthID
Library & templates

RECOMENDADO

Pro

$30/mês

Fila prioritária e edições ilimitadas.

1.000 min / mês
Fila prioritária · render mais rápido
Edições por conversa ilimitadas
Passthrough de API pessoal
Presets de resolução alta

Ultra

$100/mês

Workspace compartilhado para times.

Gerações ilimitadas
Workspace de time (5 assentos)
Brand kit & asset library
Suporte prioritário
Audit log & SSO

Perguntas

O que você provavelmente vai perguntar.

Se a sua não está aqui, manda mensagem pra gente.

01O que é o Gemini Omni, exatamente?

O Gemini Omni é o primeiro modelo any-to-any do Google DeepMind, anunciado em 19 de maio de 2026 no I/O. Um modelo, um único passe: lê texto, imagens, áudio e vídeo, e entrega vídeo com som nativo. Pega o bastão da linha Veo e absorve capacidades do Nano Banana (edição de imagem) e do Genie (mundos interativos). O Omni Studio é a nossa interface por cima, sem qualquer afiliação com o Google. Repassamos as APIs oficiais Gemini e Vertex sem mark-up.

02O que posso colocar na entrada e o que sai?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Como funciona a edição por conversa?

O Omni foi treinado pra edição por turnos: ele mantém a cena coerente entre edições. Depois de gerar, você escreve coisas como "deixa a luz mais quente" ou "troca o fundo", e o modelo re-renderiza preservando personagens, movimento e trajetória de câmera. Cada edição é um nó novo na sua árvore de biblioteca, pra ramificar e comparar.

04O que é o SynthID e por que importa?

O SynthID é a marca d'água invisível do Google, embutida em toda saída do Omni. Imperceptível pro olho humano, mas verificável pelo app Gemini, Chrome e Google Search. Resiste a re-codificação, corte e gravação de tela. Procedência não é opcional: todo clipe gerado aqui sai assinado.

05Como vocês lidam com voz e rostos?

A modificação de voz é restrita no lançamento (decisão do Google) até uma implementação mais segura chegar. Você pode enviar uma referência de voz, mas pra usar a sua própria como avatar precisa primeiro gravar uma sequência curta de números (a proteção oficial contra deepfake). Toda saída leva marca d'água SynthID, e a plataforma é só pra maiores de 18.

06Quando sai a API e quanto custa?

Google said 'in the coming weeks' on May 19. Preços isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mês) on top. Join the API waitlist above to get keys the day it goes live.

07Posso cancelar quando quiser? E reembolso?

Pode. Cancelamento direto nas configurações, sem e-mail, sem fricção. Minutos não usados ficam disponíveis por 30 dias. Se cancelar nos 14 dias depois do pagamento, devolvemos o mês inteiro, sem pergunta, sem formulário.

08Onde meus dados ficam? Eles treinam o modelo?

Prompts e saídas ficam no Vercel Blob Storage (região UE por padrão, EUA opcional). Não usamos suas gerações pra treinar. O processamento subjacente do Google segue os termos de uso de dados da API Gemini. Retenção zero de dados (Zero Data Retention) disponível nos planos Pro e Ultra.

Crie vídeos
a partir de qualquer entrada,
com Gemini Omni.

Escreva seu primeiro prompt.
Veja o que o Omni faz.

Um estúdio. Quatro jeitos de criar.

Criadores short-form

Brand & marketing

Explainers & education

Agencies & studios

Um mural de gerações.

Traga o que você tem. Misture livremente.

Linguagem natural

Imagens de referência

Referência de voz

Clipe de vídeo

Seis leituras iniciais. Um mesmo padrão.

Gemini Omni Flash, em números.

Três passos. Um estúdio.

Componha em seis eixos

Acompanhe o render

Refine conversando

O que o Gemini Omni realmente faz.

Texto na tela

Edição por turnos

Qualquer referência, qualquer formato

Direção de câmera

Voz e SFX nativos

Style transfer

Física que respeita

Coerência de personagens

Marca d'água SynthID

Gemini Omni vs a concorrência.

Os mesmos planos do Gemini.
Sem mark-up surpresa.

O que você provavelmente vai perguntar.

Crie algo hoje. Três gerações por nossa conta.

Crie vídeosa partir de qualquer entrada,com Gemini Omni.

Escreva seu primeiro prompt.Veja o que o Omni faz.

Um estúdio. Quatro jeitos de criar.

Criadores short-form

Brand & marketing

Explainers & education

Agencies & studios

Um mural de gerações.

Traga o que você tem. Misture livremente.

Linguagem natural

Imagens de referência

Referência de voz

Clipe de vídeo

Seis leituras iniciais. Um mesmo padrão.

Gemini Omni Flash, em números.

Três passos. Um estúdio.

Componha em seis eixos

Acompanhe o render

Refine conversando

O que o Gemini Omni realmente faz.

Texto na tela

Edição por turnos

Qualquer referência, qualquer formato

Direção de câmera

Voz e SFX nativos

Style transfer

Física que respeita

Coerência de personagens

Marca d'água SynthID

Gemini Omni vs a concorrência.

Os mesmos planos do Gemini.Sem mark-up surpresa.

O que você provavelmente vai perguntar.

Crie algo hoje. Três gerações por nossa conta.

Crie vídeos
a partir de qualquer entrada,
com Gemini Omni.

Escreva seu primeiro prompt.
Veja o que o Omni faz.

Os mesmos planos do Gemini.
Sem mark-up surpresa.