Gemini Omni Flash está no ar. Experimente o prompt abaixo, sem cadastro · Experimente agora →
Ω Omni Studio v0.1 · beta
Entrar Começar
Com Gemini Omni Flash · 19 de maio de 2026

Crie vídeos
a partir de qualquer entrada,
com Gemini Omni.

O Omni Studio coloca o Gemini Omni nas suas mãos, o modelo multimodal do Google DeepMind. Traga texto, até cinco imagens, uma referência de voz ou um clipe. Você recebe um vídeo com som nativo e marca d'água. E refina conversando com ele.

~23s tempo médio de render
10s clipes · 16:9 · 1080p
5 imagens de referência · 1 voz
SynthID em toda saída
LIVE · TRY NOW

Escreva seu primeiro prompt.
Veja o que o Omni faz.

Sem cadastro para ver seu primeiro vídeo.

Prompt
158 chars to generate
Experimente um exemplo:
tokenizing prompt
Formato
16:9
Duração
8 s
Resolução
1080p
Voz
Auto

23s até o primeiro frame · 1080p · SynthID
Times criando com Omni
Northwind Foxglove Aetheric Lumen Labs Klein & Co Helio
Feito para

Um estúdio. Quatro jeitos de criar.

O Omni se adapta ao seu workflow, não o contrário.

01 · CRIADORES

Criadores short-form

Uma imagem entra, um gancho de 10 s sai. Sem timeline.

02 · MARKETING

Brand & marketing

Composições de produto com texto renderizado no quadro, no comando da voz.

03 · EDUCAÇÃO

Explainers & education

Explicações em claymation, visualizações científicas, vinhetas históricas.

04 · AGÊNCIAS

Agencies & studios

Concept boards, reels de pitch, variações de style transfer em série.

Feito com o Omni · últimas 24h

Um mural de gerações.

Clique em qualquer card para remixar.

ONER
"When the person touches the mirror, transforms into a detailed monochrome line art drawing"
transform · 0:08via DeepMind
ZOOM
"Make the hand-shaped hole super zoom and magnify the ground it's looking at"
reimagine · 0:10via DeepMind
SOUND
"When the finger touches the animal toy, play the sound the animal makes"
sound · 0:08via DeepMind
CLAY
"Skeuomorphism stop-motion explainer of how the brain hippocampus works"
explainer · 0:18via DeepMind
VOXEL
"When the person touches the mirror, the entire environment turns into 3D voxel art"
transform · 0:08via DeepMind
MUSIC
"The lights of the apartments start turning on in sync with the music"
reimagine · 0:08via DeepMind
TEXT
"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."
text · 0:11via DeepMind
FIELD
"Transport the violinist to the image environment, sun-drenched grassy field"
multi-turn · 0:08via DeepMind
PUPPET
"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"
transform · 0:08via DeepMind
ANGLE
"Change the camera angle to be over the violinist's shoulder"
multi-turn · 0:08via DeepMind
HOLO
"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"
transform · 0:08via DeepMind
TEXT
"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."
text · 0:09via DeepMind
Ver a galeria completa →
Multimodal na entrada

Traga o que você tem. Misture livremente.

Tudo isso convive em um único prompt.

01 · TEXTO

Linguagem natural

Descreva o plano. Conte com o que o modelo já sabe.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious
02 · IMAGEM × 5

Imagens de referência

Até cinco imagens como guia.

03 · VOZ

Referência de voz

Um clipe de voz. Grave uma sequência de números para reivindicar a sua.

04 · VÍDEO

Clipe de vídeo

Remixe um clipe que já existe. Mude o estilo, troque elementos, transfira o movimento.

O que dizem os beta testers

Seis leituras iniciais. Um mesmo padrão.

O prompt em seis eixos muda tudo. A gente declara enquadramento, luz, ação, e itera no que tá ali na tela. Tempo de concept board caiu 80 %.

MT
Mira Tessier
Diretora de criação · Foxglove Studio

O texto renderizado dentro do quadro foi o estopim pra mim. Hero de produto com o SKU já incrustado, sem precisar de After Effects. Três semanas de agência numa tarde.

RK
Rachel Kim
Brand Lead · Northwind

Dou aula de física no ensino médio. Explainers em stop-motion levavam uma semana. Com o Omni, prompteio o esquema uma vez, refino no chat, publico na própria aula.

LP
Liam Patel
Educator · Klein & Co Academy

Editar conversando é muito melhor do que ficar ajustando parâmetro. "Deixa a luz mais quente" funciona direto, e o personagem segue sendo a mesma pessoa de plano em plano.

SG
Sofia Garcia
Criadora de YouTube · 480 mil inscritos

Áudio nativo foi o que me convenceu. Voz sincronizada com os lábios, ambiência, foley, tudo num único render. Salvou meu orçamento de pós duas vezes esse mês.

EB
Ethan Brooks
Cineasta indie · Lumen Labs

Qualquer referência, até cinco combinadas. O estilo de um pôster, o movimento de um clipe, a voz de um wav. O Omni não cria atrito, só faz acontecer.

MI
Maya Iwasaki
Brand Designer · Helio
O modelo

Gemini Omni Flash, em números.

O primeiro modelo da família Omni do DeepMind.

Ler a model card →
Família
Omni
Sucessor de Veo, Genie e Nano Banana
Saída
Vídeo + áudio
Native sound · image & audio out soon
Entradas
Any-to-any
Texto · imagem × 5 · voz · vídeo · sketch
Procedência
SynthID
Com marca d'água, verificável
Como funciona

Três passos. Um estúdio.

Do prompt ao clipe à edição, tudo na mesma tela.

PASSO 01

Componha em seis eixos

O guia de prompt virou campos estruturados.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire
⌘↵ Gerar
PASSO 02

Acompanhe o render

Median 23 seconds. Live status & cost.

0:23 até o primeiro frame
PASSO 03

Refine conversando

Edições por conversa mantêm a cena coerente.

deixa a luz mais quente
✓ renderizado de novo
adiciona uma neblina leve
✓ keeping fox & camera path
⌘B Mostrar chat
Recursos

O que o Gemini Omni realmente faz.

Nove capacidades que o modelo entrega de forma constante. Nada de cherry-pick.

01 · TEXTO

Texto na tela

Letras que dá pra ler de verdade. Lower thirds, pôsteres, sequências do alfabeto, branding embutido.

02 · CHAT

Edição por turnos

Gere e itere conversando. A cena se mantém coerente entre edições.

03 · ENTRADAS

Qualquer referência, qualquer formato

Imagem, vídeo, áudio, sketch. Combine até cinco entradas em um único prompt.

04 · CÂMERA

Direção de câmera

Dolly, push-in, plano-sequência, sobre o ombro. Você descreve em palavras, o modelo respeita.

05 · ÁUDIO

Voz e SFX nativos

Som diegético, camadas de ambiência, voz sincronizada com os lábios. Sem passe de áudio extra.

06 · ESTILO

Style transfer

Da claymation ao voxel art, passando pelo holograma. O movimento se mantém, só a superfície muda.

07 · MOVIMENTO

Física que respeita

As bolinhas rolam, o tecido cai, a água reflete. Reações em cadeia acontecem de verdade.

08 · PERSONAGENS

Coerência de personagens

A mesma pessoa de plano em plano, em qualquer ambiente ou estilo. Rostos e figurinos se mantêm.

09 · PROCEDÊNCIA

Marca d'água SynthID

Procedência que você verifica. A marca sobrevive a compressão, corte e re-codificação.

Omni frente ao resto

Gemini Omni vs a concorrência.

Leitura honesta: onde o Omni lidera, onde empata, e o que ele não quer ser.

Somos nósOmni Studio Google · VeoVeo 3.1 OpenAISora 2 RunwayGen-4
Texto na tela Líder da categoria. Lower thirds, pôsteres, sequências do alfabeto seguram. Bom. Legendas curtas funcionam. Limitado. Erra em textos longos. Bom. Texto de marca aceitável.
Edição por turnos Chat nativo. Cena e personagem se mantêm coerentes. Re-prompt manual. Re-prompt manual. Re-prompt manual.
Áudio nativo Voz + SFX + ambiência num único passe. Limitado. Só SFX. Saída muda. Saída muda.
Entradas de referência Imagem, vídeo, áudio, sketch. Até 5 combinadas. Só imagem. Imagem, clipe curto. Imagem, motion brush.
Duração de saída 10 s base, encadeáveis pelo chat. 8 s. 8 a 20 s conforme o plano. 10 s.
Procedência Marca d'água SynthID, verificável. Marca d'água SynthID. Metadados C2PA. Metadados C2PA.
Ideal para Criadores, professores e times de marca que entregam vídeo pronto pra publicar. Cineastas atrás de um look puramente cinematográfico. Short-form narrativo. Motion design e workflows VFX.
Instantâneo. O mercado muda rápido, atualizamos a tabela todo mês.
Preços

Os mesmos planos do Gemini.
Sem mark-up surpresa.

Os preços do Google, repassados como são. Uma mensalidade fixa por assento, só isso.

Plus
$20/mês

Até 200 minutos por mês.

  • 200 min / mês
  • Clipes de 10 s · 1080p · áudio ativo
  • Marca d'água SynthID
  • Library & templates
RECOMENDADO
Pro
$30/mês

Fila prioritária e edições ilimitadas.

  • 1.000 min / mês
  • Fila prioritária · render mais rápido
  • Edições por conversa ilimitadas
  • Passthrough de API pessoal
  • Presets de resolução alta
Ultra
$100/mês

Workspace compartilhado para times.

  • Gerações ilimitadas
  • Workspace de time (5 assentos)
  • Brand kit & asset library
  • Suporte prioritário
  • Audit log & SSO
Perguntas

O que você provavelmente vai perguntar.

Se a sua não está aqui, manda mensagem pra gente.

01O que é o Gemini Omni, exatamente?

O Gemini Omni é o primeiro modelo any-to-any do Google DeepMind, anunciado em 19 de maio de 2026 no I/O. Um modelo, um único passe: lê texto, imagens, áudio e vídeo, e entrega vídeo com som nativo. Pega o bastão da linha Veo e absorve capacidades do Nano Banana (edição de imagem) e do Genie (mundos interativos). O Omni Studio é a nossa interface por cima, sem qualquer afiliação com o Google. Repassamos as APIs oficiais Gemini e Vertex sem mark-up.

02O que posso colocar na entrada e o que sai?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Como funciona a edição por conversa?

O Omni foi treinado pra edição por turnos: ele mantém a cena coerente entre edições. Depois de gerar, você escreve coisas como "deixa a luz mais quente" ou "troca o fundo", e o modelo re-renderiza preservando personagens, movimento e trajetória de câmera. Cada edição é um nó novo na sua árvore de biblioteca, pra ramificar e comparar.

04O que é o SynthID e por que importa?

O SynthID é a marca d'água invisível do Google, embutida em toda saída do Omni. Imperceptível pro olho humano, mas verificável pelo app Gemini, Chrome e Google Search. Resiste a re-codificação, corte e gravação de tela. Procedência não é opcional: todo clipe gerado aqui sai assinado.

05Como vocês lidam com voz e rostos?

A modificação de voz é restrita no lançamento (decisão do Google) até uma implementação mais segura chegar. Você pode enviar uma referência de voz, mas pra usar a sua própria como avatar precisa primeiro gravar uma sequência curta de números (a proteção oficial contra deepfake). Toda saída leva marca d'água SynthID, e a plataforma é só pra maiores de 18.

06Quando sai a API e quanto custa?

Google said 'in the coming weeks' on May 19. Preços isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mês) on top. Join the API waitlist above to get keys the day it goes live.

07Posso cancelar quando quiser? E reembolso?

Pode. Cancelamento direto nas configurações, sem e-mail, sem fricção. Minutos não usados ficam disponíveis por 30 dias. Se cancelar nos 14 dias depois do pagamento, devolvemos o mês inteiro, sem pergunta, sem formulário.

08Onde meus dados ficam? Eles treinam o modelo?

Prompts e saídas ficam no Vercel Blob Storage (região UE por padrão, EUA opcional). Não usamos suas gerações pra treinar. O processamento subjacente do Google segue os termos de uso de dados da API Gemini. Retenção zero de dados (Zero Data Retention) disponível nos planos Pro e Ultra.

Crie algo hoje. Três gerações por nossa conta.

Três gerações por conta da casa. Sem cartão.