Con Gemini Omni Flash · 19 de mayo de 2026

Crea vídeos
desde cualquier input,
con Gemini Omni.

Q: ¿Qué puedo meter en la entrada y qué sale?

En el lanzamiento, entrada: texto, hasta 5 imágenes de referencia, una referencia de voz, un clip de vídeo o sketches. Salida: clips de 10 s, formato 16:9, 1080p, con audio nativo. La salida de imagen y audio está en la hoja de ruta de Google y la añadiremos cuando llegue.

Q: ¿Cuándo llega la API y a qué precio?

Google dijo "en las próximas semanas" el 19 de mayo. El precio aún no es público. Las proyecciones de la prensa rondan los $0,10-0,30 por segundo de vídeo. Repercutiremos el precio de Google sin recargo y facturaremos el asiento ($20-100 al mes) por encima. Apúntate a la lista de espera de la API para recibir tus claves el día del lanzamiento.

Omni Studio pone Gemini Omni a tu alcance, el modelo multimodal de Google DeepMind. Trae texto, hasta cinco imágenes, una referencia de voz o un clip. Recibes un vídeo con sonido nativo y marca de agua. Y lo refinas conversando con él.

Abrir el Studio Ver la galería

~23s tiempo medio de render

10s clips · 16:9 · 1080p

5 imágenes de referencia · 1 voz

SynthID en cada salida

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

Hecho con Omni · últimas 24 h

Un muro de generaciones.

Haz clic en cualquier viñeta para remezclarla.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

Descubrir la galería completa →

Multimodal en la entrada

Trae lo que tengas. Mézclalo libremente.

Todo esto convive en una sola prompt.

01 · TEXTO

Lenguaje natural

Describe el plano. Apóyate en lo que el modelo ya sabe.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · IMAGEN × 5

Imágenes de referencia

Hasta cinco imágenes como guía.

03 · VOZ

Referencia de voz

Un clip de voz. Graba una secuencia de números para reivindicar la tuya.

04 · VÍDEO

Clip de vídeo

Remezcla un clip existente. Cambia el estilo, sustituye, transfiere el movimiento.

Lo que dicen los beta testers

Seis lecturas tempranas. Un mismo hilo.

La prompt en seis ejes lo cambia todo. Declaramos el encuadre, la luz, la acción, y iteramos sobre lo que está realmente en pantalla. Tiempo de concept board reducido un 80 %.

Mira Tessier

Directora creativa · Foxglove Studio

El renderizado de texto en pantalla es el clic para mí. Un hero de producto con el SKU dentro del cuadro, sin pasar por After Effects. Tres semanas de trabajo de agencia en una tarde.

Rachel Kim

Brand Lead · Northwind

Doy clase de física en bachillerato. Los explainers en stop-motion llevaban una semana. Con Omni prompteo el esquema una vez, refino en chat, lo publico durante la propia hora.

Liam Patel

Educator · Klein & Co Academy

Editar conversando supera al ajuste de parámetros. "Hazlo más cálido" funciona sin más, y el personaje sigue siendo el mismo de un plano a otro.

Sofia Garcia

Creadora de YouTube · 480 k suscriptores

El audio nativo fue lo que me convenció. Voz sincronizada con los labios, ambiente de la sala, foley, todo en una sola pasada. Me salvó el presupuesto de postpro dos veces este mes.

Ethan Brooks

Cineasta independiente · Lumen Labs

Cualquier referencia, hasta cinco combinadas. El estilo de un cartel, el movimiento de un clip, la voz de un wav. Omni no se resiste, simplemente lo hace.

Maya Iwasaki

Brand Designer · Helio

Cómo funciona

Tres pasos. Un estudio.

De la prompt al clip y a la edición, en la misma pantalla.

PASO 01

Compón en seis ejes

La guía de prompts convertida en campos.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire

⌘↵ Generar

PASO 02

Mira cómo renderiza

Median 23 seconds. Live status & cost.

⏱ 0:23 hasta el primer frame

PASO 03

Refina conversando

Las ediciones por conversación mantienen la escena coherente.

haz la luz más cálida

✓ renderizado de nuevo

añade una niebla ligera

✓ keeping fox & camera path

⌘B Mostrar chat

Funciones

Lo que Gemini Omni hace de verdad.

Nueve capacidades que el modelo entrega de forma constante. Ni rastro de cherry-pick.

01 · TEXTO

Texto en pantalla

Letras que se leen de verdad. Lower thirds, carteles, secuencias del abecedario, branding integrado.

02 · CHAT

Edición por turnos

Genera y luego itera conversando. La escena se mantiene coherente entre ediciones.

03 · ENTRADAS

Cualquier referencia, cualquier formato

Imagen, vídeo, audio, sketch. Combina hasta cinco entradas en una sola prompt.

04 · CÁMARA

Dirección de cámara

Dolly, push-in, plano secuencia, sobre el hombro. Lo describes con palabras, el modelo lo respeta.

05 · AUDIO

Voz y SFX nativos

Sonido diegético, capas de ambiente, voz sincronizada con los labios. Sin pase de audio extra.

06 · ESTILO

Style transfer

De la claymation al voxel art, pasando por el holograma. El movimiento se sostiene, solo cambia la superficie.

07 · MOVIMIENTO

Física que se sostiene

Las canicas ruedan, la tela cae, el agua refleja. Las reacciones en cadena se encadenan de verdad.

08 · PERSONAJES

Coherencia de personajes

La misma persona de un plano a otro, en cualquier entorno o estilo. Caras y ropa se sostienen.

09 · PROCEDENCIA

Marca de agua SynthID

Procedencia verificable. La marca sobrevive a la compresión, al recorte y al recodificado.

Omni frente al resto

Gemini Omni frente al resto.

Lectura honesta: dónde Omni va por delante, dónde empata, y qué no quiere ser.

	Somos nosotrosOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
Texto en pantalla	Líder del sector. Lower thirds, carteles, secuencias del abecedario se sostienen.	Bien. Las leyendas cortas funcionan.	Limitado. Deriva en textos largos.	Bien. Texto de marca correcto.
Edición por turnos	Chat nativo. Escena y personaje se mantienen coherentes.	Re-prompt manual.	Re-prompt manual.	Re-prompt manual.
Audio nativo	Voz + SFX + ambiente en una pasada.	Limitado. Solo SFX.	Salida muda.	Salida muda.
Entradas de referencia	Imagen, vídeo, audio, sketch. Hasta 5 combinadas.	Solo imagen.	Imagen, clip corto.	Imagen, motion brush.
Duración de salida	10 s base, encadenables vía chat.	8 s.	8 a 20 s según el plan.	10 s.
Procedencia	Marca de agua SynthID, verificable.	Marca de agua SynthID.	Metadatos C2PA.	Metadatos C2PA.
Ideal para	Creadores, docentes y equipos de marca que entregan vídeo listo para publicar.	Cineastas con foco en un look puramente cinematográfico.	Cortos narrativos.	Motion design y workflows VFX.

Instantánea. El mercado se mueve rápido, refrescamos la tabla cada mes.

Precios

Los mismos planes que Gemini.
Sin sorpresas.

Los precios de Google se trasladan tal cual. Una cuota fija por asiento, y nada más.

Plus

$20/mes

Hasta 200 minutos al mes.

200 min / mes
Clips de 10 s · 1080p · audio activado
Marca de agua SynthID
Library & templates

RECOMENDADO

Pro

$30/mes

Cola prioritaria y ediciones ilimitadas.

1.000 min / mes
Cola prioritaria · render más rápido
Ediciones por conversación ilimitadas
Passthrough de API personal
Presets de alta resolución

Ultra

$100/mes

Espacio de trabajo compartido para equipos.

Generaciones ilimitadas
Workspace de equipo (5 asientos)
Brand kit & asset library
Soporte prioritario
Audit log & SSO

Preguntas

Lo que seguramente vas a preguntar.

Si la tuya no está aquí, escríbenos.

01¿Qué es Gemini Omni exactamente?

Gemini Omni es el primer modelo any-to-any de Google DeepMind, anunciado el 19 de mayo de 2026 en la I/O. Un solo modelo, una sola pasada: lee texto, imagen, audio y vídeo, y entrega vídeo con sonido nativo. Recoge el testigo de la familia Veo y absorbe capacidades de Nano Banana (edición de imagen) y Genie (mundos interactivos). Omni Studio es nuestra interfaz por encima, sin afiliación con Google. Pasamos por las APIs oficiales de Gemini y Vertex, sin recargo.

02¿Qué puedo meter en la entrada y qué sale?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03¿Cómo funciona la edición por conversación?

Omni se entrenó para edición por turnos y mantiene la escena coherente entre ediciones. Después de generar, escribes cosas como "haz la luz más cálida" o "cambia el fondo", y el modelo vuelve a renderizar conservando personajes, movimiento y trayectoria de cámara. Cada edición es un nodo nuevo en tu árbol de biblioteca, para ramificar y comparar.

04¿Qué es SynthID y por qué importa?

SynthID es la marca de agua invisible de Google, integrada en cada salida de Omni. Imperceptible para el ojo humano pero verificable desde la app de Gemini, Chrome y Google Search. Resiste al recodificado, al recorte y a la grabación de pantalla. La procedencia no es opcional: cada clip que generes aquí sale firmado.

05¿Cómo gestionáis la voz y los rostros?

La modificación de voz está limitada al lanzamiento (decisión de Google) hasta que llegue una implementación más segura. Puedes enviar una referencia de voz, pero para usar tu propia voz como avatar primero tendrás que grabar una secuencia corta de números (el salvavidas oficial contra deepfakes). Toda salida lleva marca de agua SynthID y la plataforma es solo para mayores de 18.

06¿Cuándo llega la API y a qué precio?

Google said 'in the coming weeks' on May 19. Precios isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mes) on top. Join the API waitlist above to get keys the day it goes live.

07¿Puedo cancelar cuando quiera? ¿Y reembolsos?

Sí. Cancelación desde los ajustes, sin email, sin fricción. Los minutos no usados se trasladan 30 días. Si cancelas en los 14 días siguientes al pago, te devolvemos el mes completo, sin preguntas, sin formularios.

08¿Dónde se almacenan mis datos? ¿Se usan para entrenar?

Las prompts y las salidas viven en Vercel Blob Storage (región UE por defecto, EE. UU. opcional). No usamos tus generaciones para entrenar. El procesamiento subyacente de Google sigue los términos de uso de datos de la API de Gemini. Retención cero de datos disponible en Pro y Ultra.

Crea vídeos
desde cualquier input,
con Gemini Omni.

Escribe tu primera prompt.
Mira lo que Omni hace con ella.

Un estudio. Cuatro formas de crear.

Creadores short-form

Brand & marketing

Explainers & education

Agencies & studios

Un muro de generaciones.

Trae lo que tengas. Mézclalo libremente.

Lenguaje natural

Imágenes de referencia

Referencia de voz

Clip de vídeo

Seis lecturas tempranas. Un mismo hilo.

Gemini Omni Flash, en cifras.

Tres pasos. Un estudio.

Compón en seis ejes

Mira cómo renderiza

Refina conversando

Lo que Gemini Omni hace de verdad.

Texto en pantalla

Edición por turnos

Cualquier referencia, cualquier formato

Dirección de cámara

Voz y SFX nativos

Style transfer

Física que se sostiene

Coherencia de personajes

Marca de agua SynthID

Gemini Omni frente al resto.

Los mismos planes que Gemini.
Sin sorpresas.

Lo que seguramente vas a preguntar.

Crea algo hoy. Tres generaciones gratis.

Crea vídeosdesde cualquier input,con Gemini Omni.

Escribe tu primera prompt.Mira lo que Omni hace con ella.

Un estudio. Cuatro formas de crear.

Creadores short-form

Brand & marketing

Explainers & education

Agencies & studios

Un muro de generaciones.

Trae lo que tengas. Mézclalo libremente.

Lenguaje natural

Imágenes de referencia

Referencia de voz

Clip de vídeo

Seis lecturas tempranas. Un mismo hilo.

Gemini Omni Flash, en cifras.

Tres pasos. Un estudio.

Compón en seis ejes

Mira cómo renderiza

Refina conversando

Lo que Gemini Omni hace de verdad.

Texto en pantalla

Edición por turnos

Cualquier referencia, cualquier formato

Dirección de cámara

Voz y SFX nativos

Style transfer

Física que se sostiene

Coherencia de personajes

Marca de agua SynthID

Gemini Omni frente al resto.

Los mismos planes que Gemini.Sin sorpresas.

Lo que seguramente vas a preguntar.

Crea algo hoy. Tres generaciones gratis.

Crea vídeos
desde cualquier input,
con Gemini Omni.

Escribe tu primera prompt.
Mira lo que Omni hace con ella.

Los mismos planes que Gemini.
Sin sorpresas.