Gemini Omni Flash ya está disponible. Prueba la demo de abajo, sin registro · Pruébalo ya →
Ω Omni Studio v0.1 · beta
Entrar Empezar
Con Gemini Omni Flash · 19 de mayo de 2026

Crea vídeos
desde cualquier input,
con Gemini Omni.

Omni Studio pone Gemini Omni a tu alcance, el modelo multimodal de Google DeepMind. Trae texto, hasta cinco imágenes, una referencia de voz o un clip. Recibes un vídeo con sonido nativo y marca de agua. Y lo refinas conversando con él.

~23s tiempo medio de render
10s clips · 16:9 · 1080p
5 imágenes de referencia · 1 voz
SynthID en cada salida
LIVE · TRY NOW

Escribe tu primera prompt.
Mira lo que Omni hace con ella.

Sin registro para ver tu primer vídeo.

Prompt
158 chars to generate
Pruébalo con un ejemplo:
tokenizing prompt
Formato
16:9
Duración
8 s
Resolución
1080p
Voz
Auto

23s hasta el primer frame · 1080p · SynthID
Equipos que crean con Omni
Northwind Foxglove Aetheric Lumen Labs Klein & Co Helio
Pensado para

Un estudio. Cuatro formas de crear.

Omni se adapta a tu workflow, no al revés.

01 · CREADORES

Creadores short-form

Una imagen entra, un gancho de 10 s sale. Sin timeline.

02 · MARKETING

Brand & marketing

Bodegones de producto con texto incrustado en el cuadro, todo guiado por conversación.

03 · EDUCACIÓN

Explainers & education

Explicaciones en claymation, visualizaciones científicas, viñetas históricas.

04 · AGENCIAS

Agencies & studios

Concept boards, reels de pitch, variaciones de style transfer en serie.

Hecho con Omni · últimas 24 h

Un muro de generaciones.

Haz clic en cualquier viñeta para remezclarla.

ONER
"When the person touches the mirror, transforms into a detailed monochrome line art drawing"
transform · 0:08via DeepMind
ZOOM
"Make the hand-shaped hole super zoom and magnify the ground it's looking at"
reimagine · 0:10via DeepMind
SOUND
"When the finger touches the animal toy, play the sound the animal makes"
sound · 0:08via DeepMind
CLAY
"Skeuomorphism stop-motion explainer of how the brain hippocampus works"
explainer · 0:18via DeepMind
VOXEL
"When the person touches the mirror, the entire environment turns into 3D voxel art"
transform · 0:08via DeepMind
MUSIC
"The lights of the apartments start turning on in sync with the music"
reimagine · 0:08via DeepMind
TEXT
"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."
text · 0:11via DeepMind
FIELD
"Transport the violinist to the image environment, sun-drenched grassy field"
multi-turn · 0:08via DeepMind
PUPPET
"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"
transform · 0:08via DeepMind
ANGLE
"Change the camera angle to be over the violinist's shoulder"
multi-turn · 0:08via DeepMind
HOLO
"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"
transform · 0:08via DeepMind
TEXT
"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."
text · 0:09via DeepMind
Descubrir la galería completa →
Multimodal en la entrada

Trae lo que tengas. Mézclalo libremente.

Todo esto convive en una sola prompt.

01 · TEXTO

Lenguaje natural

Describe el plano. Apóyate en lo que el modelo ya sabe.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious
02 · IMAGEN × 5

Imágenes de referencia

Hasta cinco imágenes como guía.

03 · VOZ

Referencia de voz

Un clip de voz. Graba una secuencia de números para reivindicar la tuya.

04 · VÍDEO

Clip de vídeo

Remezcla un clip existente. Cambia el estilo, sustituye, transfiere el movimiento.

Lo que dicen los beta testers

Seis lecturas tempranas. Un mismo hilo.

La prompt en seis ejes lo cambia todo. Declaramos el encuadre, la luz, la acción, y iteramos sobre lo que está realmente en pantalla. Tiempo de concept board reducido un 80 %.

MT
Mira Tessier
Directora creativa · Foxglove Studio

El renderizado de texto en pantalla es el clic para mí. Un hero de producto con el SKU dentro del cuadro, sin pasar por After Effects. Tres semanas de trabajo de agencia en una tarde.

RK
Rachel Kim
Brand Lead · Northwind

Doy clase de física en bachillerato. Los explainers en stop-motion llevaban una semana. Con Omni prompteo el esquema una vez, refino en chat, lo publico durante la propia hora.

LP
Liam Patel
Educator · Klein & Co Academy

Editar conversando supera al ajuste de parámetros. "Hazlo más cálido" funciona sin más, y el personaje sigue siendo el mismo de un plano a otro.

SG
Sofia Garcia
Creadora de YouTube · 480 k suscriptores

El audio nativo fue lo que me convenció. Voz sincronizada con los labios, ambiente de la sala, foley, todo en una sola pasada. Me salvó el presupuesto de postpro dos veces este mes.

EB
Ethan Brooks
Cineasta independiente · Lumen Labs

Cualquier referencia, hasta cinco combinadas. El estilo de un cartel, el movimiento de un clip, la voz de un wav. Omni no se resiste, simplemente lo hace.

MI
Maya Iwasaki
Brand Designer · Helio
El modelo

Gemini Omni Flash, en cifras.

El primer modelo de la familia Omni de DeepMind.

Leer la ficha del modelo →
Familia
Omni
Sucesor de Veo, Genie y Nano Banana
Salida
Vídeo + audio
Native sound · image & audio out soon
Entradas
Any-to-any
Texto · imagen × 5 · voz · vídeo · sketch
Procedencia
SynthID
Con marca de agua, verificable
Cómo funciona

Tres pasos. Un estudio.

De la prompt al clip y a la edición, en la misma pantalla.

PASO 01

Compón en seis ejes

La guía de prompts convertida en campos.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire
⌘↵ Generar
PASO 02

Mira cómo renderiza

Median 23 seconds. Live status & cost.

0:23 hasta el primer frame
PASO 03

Refina conversando

Las ediciones por conversación mantienen la escena coherente.

haz la luz más cálida
✓ renderizado de nuevo
añade una niebla ligera
✓ keeping fox & camera path
⌘B Mostrar chat
Funciones

Lo que Gemini Omni hace de verdad.

Nueve capacidades que el modelo entrega de forma constante. Ni rastro de cherry-pick.

01 · TEXTO

Texto en pantalla

Letras que se leen de verdad. Lower thirds, carteles, secuencias del abecedario, branding integrado.

02 · CHAT

Edición por turnos

Genera y luego itera conversando. La escena se mantiene coherente entre ediciones.

03 · ENTRADAS

Cualquier referencia, cualquier formato

Imagen, vídeo, audio, sketch. Combina hasta cinco entradas en una sola prompt.

04 · CÁMARA

Dirección de cámara

Dolly, push-in, plano secuencia, sobre el hombro. Lo describes con palabras, el modelo lo respeta.

05 · AUDIO

Voz y SFX nativos

Sonido diegético, capas de ambiente, voz sincronizada con los labios. Sin pase de audio extra.

06 · ESTILO

Style transfer

De la claymation al voxel art, pasando por el holograma. El movimiento se sostiene, solo cambia la superficie.

07 · MOVIMIENTO

Física que se sostiene

Las canicas ruedan, la tela cae, el agua refleja. Las reacciones en cadena se encadenan de verdad.

08 · PERSONAJES

Coherencia de personajes

La misma persona de un plano a otro, en cualquier entorno o estilo. Caras y ropa se sostienen.

09 · PROCEDENCIA

Marca de agua SynthID

Procedencia verificable. La marca sobrevive a la compresión, al recorte y al recodificado.

Omni frente al resto

Gemini Omni frente al resto.

Lectura honesta: dónde Omni va por delante, dónde empata, y qué no quiere ser.

Somos nosotrosOmni Studio Google · VeoVeo 3.1 OpenAISora 2 RunwayGen-4
Texto en pantalla Líder del sector. Lower thirds, carteles, secuencias del abecedario se sostienen. Bien. Las leyendas cortas funcionan. Limitado. Deriva en textos largos. Bien. Texto de marca correcto.
Edición por turnos Chat nativo. Escena y personaje se mantienen coherentes. Re-prompt manual. Re-prompt manual. Re-prompt manual.
Audio nativo Voz + SFX + ambiente en una pasada. Limitado. Solo SFX. Salida muda. Salida muda.
Entradas de referencia Imagen, vídeo, audio, sketch. Hasta 5 combinadas. Solo imagen. Imagen, clip corto. Imagen, motion brush.
Duración de salida 10 s base, encadenables vía chat. 8 s. 8 a 20 s según el plan. 10 s.
Procedencia Marca de agua SynthID, verificable. Marca de agua SynthID. Metadatos C2PA. Metadatos C2PA.
Ideal para Creadores, docentes y equipos de marca que entregan vídeo listo para publicar. Cineastas con foco en un look puramente cinematográfico. Cortos narrativos. Motion design y workflows VFX.
Instantánea. El mercado se mueve rápido, refrescamos la tabla cada mes.
Precios

Los mismos planes que Gemini.
Sin sorpresas.

Los precios de Google se trasladan tal cual. Una cuota fija por asiento, y nada más.

Plus
$20/mes

Hasta 200 minutos al mes.

  • 200 min / mes
  • Clips de 10 s · 1080p · audio activado
  • Marca de agua SynthID
  • Library & templates
RECOMENDADO
Pro
$30/mes

Cola prioritaria y ediciones ilimitadas.

  • 1.000 min / mes
  • Cola prioritaria · render más rápido
  • Ediciones por conversación ilimitadas
  • Passthrough de API personal
  • Presets de alta resolución
Ultra
$100/mes

Espacio de trabajo compartido para equipos.

  • Generaciones ilimitadas
  • Workspace de equipo (5 asientos)
  • Brand kit & asset library
  • Soporte prioritario
  • Audit log & SSO
Preguntas

Lo que seguramente vas a preguntar.

Si la tuya no está aquí, escríbenos.

01¿Qué es Gemini Omni exactamente?

Gemini Omni es el primer modelo any-to-any de Google DeepMind, anunciado el 19 de mayo de 2026 en la I/O. Un solo modelo, una sola pasada: lee texto, imagen, audio y vídeo, y entrega vídeo con sonido nativo. Recoge el testigo de la familia Veo y absorbe capacidades de Nano Banana (edición de imagen) y Genie (mundos interactivos). Omni Studio es nuestra interfaz por encima, sin afiliación con Google. Pasamos por las APIs oficiales de Gemini y Vertex, sin recargo.

02¿Qué puedo meter en la entrada y qué sale?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03¿Cómo funciona la edición por conversación?

Omni se entrenó para edición por turnos y mantiene la escena coherente entre ediciones. Después de generar, escribes cosas como "haz la luz más cálida" o "cambia el fondo", y el modelo vuelve a renderizar conservando personajes, movimiento y trayectoria de cámara. Cada edición es un nodo nuevo en tu árbol de biblioteca, para ramificar y comparar.

04¿Qué es SynthID y por qué importa?

SynthID es la marca de agua invisible de Google, integrada en cada salida de Omni. Imperceptible para el ojo humano pero verificable desde la app de Gemini, Chrome y Google Search. Resiste al recodificado, al recorte y a la grabación de pantalla. La procedencia no es opcional: cada clip que generes aquí sale firmado.

05¿Cómo gestionáis la voz y los rostros?

La modificación de voz está limitada al lanzamiento (decisión de Google) hasta que llegue una implementación más segura. Puedes enviar una referencia de voz, pero para usar tu propia voz como avatar primero tendrás que grabar una secuencia corta de números (el salvavidas oficial contra deepfakes). Toda salida lleva marca de agua SynthID y la plataforma es solo para mayores de 18.

06¿Cuándo llega la API y a qué precio?

Google said 'in the coming weeks' on May 19. Precios isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mes) on top. Join the API waitlist above to get keys the day it goes live.

07¿Puedo cancelar cuando quiera? ¿Y reembolsos?

Sí. Cancelación desde los ajustes, sin email, sin fricción. Los minutos no usados se trasladan 30 días. Si cancelas en los 14 días siguientes al pago, te devolvemos el mes completo, sin preguntas, sin formularios.

08¿Dónde se almacenan mis datos? ¿Se usan para entrenar?

Las prompts y las salidas viven en Vercel Blob Storage (región UE por defecto, EE. UU. opcional). No usamos tus generaciones para entrenar. El procesamiento subyacente de Google sigue los términos de uso de datos de la API de Gemini. Retención cero de datos disponible en Pro y Ultra.

Crea algo hoy. Tres generaciones gratis.

Tres generaciones por nuestra cuenta. Sin tarjeta.