O Omni Studio coloca o Gemini Omni nas suas mãos, o modelo multimodal do Google DeepMind. Traga texto, até cinco imagens, uma referência de voz ou um clipe. Você recebe um vídeo com som nativo e marca d'água. E refina conversando com ele.
Sem cadastro para ver seu primeiro vídeo.
O Omni se adapta ao seu workflow, não o contrário.
Uma imagem entra, um gancho de 10 s sai. Sem timeline.
Composições de produto com texto renderizado no quadro, no comando da voz.
Explicações em claymation, visualizações científicas, vinhetas históricas.
Concept boards, reels de pitch, variações de style transfer em série.
Clique em qualquer card para remixar.
Tudo isso convive em um único prompt.
Descreva o plano. Conte com o que o modelo já sabe.
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
Até cinco imagens como guia.
Um clipe de voz. Grave uma sequência de números para reivindicar a sua.
Remixe um clipe que já existe. Mude o estilo, troque elementos, transfira o movimento.
O prompt em seis eixos muda tudo. A gente declara enquadramento, luz, ação, e itera no que tá ali na tela. Tempo de concept board caiu 80 %.
O texto renderizado dentro do quadro foi o estopim pra mim. Hero de produto com o SKU já incrustado, sem precisar de After Effects. Três semanas de agência numa tarde.
Dou aula de física no ensino médio. Explainers em stop-motion levavam uma semana. Com o Omni, prompteio o esquema uma vez, refino no chat, publico na própria aula.
Editar conversando é muito melhor do que ficar ajustando parâmetro. "Deixa a luz mais quente" funciona direto, e o personagem segue sendo a mesma pessoa de plano em plano.
Áudio nativo foi o que me convenceu. Voz sincronizada com os lábios, ambiência, foley, tudo num único render. Salvou meu orçamento de pós duas vezes esse mês.
Qualquer referência, até cinco combinadas. O estilo de um pôster, o movimento de um clipe, a voz de um wav. O Omni não cria atrito, só faz acontecer.
O primeiro modelo da família Omni do DeepMind.
Do prompt ao clipe à edição, tudo na mesma tela.
O guia de prompt virou campos estruturados.
Median 23 seconds. Live status & cost.
Edições por conversa mantêm a cena coerente.
Nove capacidades que o modelo entrega de forma constante. Nada de cherry-pick.
Letras que dá pra ler de verdade. Lower thirds, pôsteres, sequências do alfabeto, branding embutido.
Gere e itere conversando. A cena se mantém coerente entre edições.
Imagem, vídeo, áudio, sketch. Combine até cinco entradas em um único prompt.
Dolly, push-in, plano-sequência, sobre o ombro. Você descreve em palavras, o modelo respeita.
Som diegético, camadas de ambiência, voz sincronizada com os lábios. Sem passe de áudio extra.
Da claymation ao voxel art, passando pelo holograma. O movimento se mantém, só a superfície muda.
As bolinhas rolam, o tecido cai, a água reflete. Reações em cadeia acontecem de verdade.
A mesma pessoa de plano em plano, em qualquer ambiente ou estilo. Rostos e figurinos se mantêm.
Procedência que você verifica. A marca sobrevive a compressão, corte e re-codificação.
Leitura honesta: onde o Omni lidera, onde empata, e o que ele não quer ser.
| Somos nósOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| Texto na tela | Líder da categoria. Lower thirds, pôsteres, sequências do alfabeto seguram. | Bom. Legendas curtas funcionam. | Limitado. Erra em textos longos. | Bom. Texto de marca aceitável. |
| Edição por turnos | Chat nativo. Cena e personagem se mantêm coerentes. | Re-prompt manual. | Re-prompt manual. | Re-prompt manual. |
| Áudio nativo | Voz + SFX + ambiência num único passe. | Limitado. Só SFX. | Saída muda. | Saída muda. |
| Entradas de referência | Imagem, vídeo, áudio, sketch. Até 5 combinadas. | Só imagem. | Imagem, clipe curto. | Imagem, motion brush. |
| Duração de saída | 10 s base, encadeáveis pelo chat. | 8 s. | 8 a 20 s conforme o plano. | 10 s. |
| Procedência | Marca d'água SynthID, verificável. | Marca d'água SynthID. | Metadados C2PA. | Metadados C2PA. |
| Ideal para | Criadores, professores e times de marca que entregam vídeo pronto pra publicar. | Cineastas atrás de um look puramente cinematográfico. | Short-form narrativo. | Motion design e workflows VFX. |
Os preços do Google, repassados como são. Uma mensalidade fixa por assento, só isso.
Até 200 minutos por mês.
Fila prioritária e edições ilimitadas.
Workspace compartilhado para times.
Se a sua não está aqui, manda mensagem pra gente.
O Gemini Omni é o primeiro modelo any-to-any do Google DeepMind, anunciado em 19 de maio de 2026 no I/O. Um modelo, um único passe: lê texto, imagens, áudio e vídeo, e entrega vídeo com som nativo. Pega o bastão da linha Veo e absorve capacidades do Nano Banana (edição de imagem) e do Genie (mundos interativos). O Omni Studio é a nossa interface por cima, sem qualquer afiliação com o Google. Repassamos as APIs oficiais Gemini e Vertex sem mark-up.
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
O Omni foi treinado pra edição por turnos: ele mantém a cena coerente entre edições. Depois de gerar, você escreve coisas como "deixa a luz mais quente" ou "troca o fundo", e o modelo re-renderiza preservando personagens, movimento e trajetória de câmera. Cada edição é um nó novo na sua árvore de biblioteca, pra ramificar e comparar.
O SynthID é a marca d'água invisível do Google, embutida em toda saída do Omni. Imperceptível pro olho humano, mas verificável pelo app Gemini, Chrome e Google Search. Resiste a re-codificação, corte e gravação de tela. Procedência não é opcional: todo clipe gerado aqui sai assinado.
A modificação de voz é restrita no lançamento (decisão do Google) até uma implementação mais segura chegar. Você pode enviar uma referência de voz, mas pra usar a sua própria como avatar precisa primeiro gravar uma sequência curta de números (a proteção oficial contra deepfake). Toda saída leva marca d'água SynthID, e a plataforma é só pra maiores de 18.
Google said 'in the coming weeks' on May 19. Preços isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mês) on top. Join the API waitlist above to get keys the day it goes live.
Pode. Cancelamento direto nas configurações, sem e-mail, sem fricção. Minutos não usados ficam disponíveis por 30 dias. Se cancelar nos 14 dias depois do pagamento, devolvemos o mês inteiro, sem pergunta, sem formulário.
Prompts e saídas ficam no Vercel Blob Storage (região UE por padrão, EUA opcional). Não usamos suas gerações pra treinar. O processamento subjacente do Google segue os termos de uso de dados da API Gemini. Retenção zero de dados (Zero Data Retention) disponível nos planos Pro e Ultra.
Três gerações por conta da casa. Sem cartão.