Omni Studio pone Gemini Omni a tu alcance, el modelo multimodal de Google DeepMind. Trae texto, hasta cinco imágenes, una referencia de voz o un clip. Recibes un vídeo con sonido nativo y marca de agua. Y lo refinas conversando con él.
Sin registro para ver tu primer vídeo.
Omni se adapta a tu workflow, no al revés.
Una imagen entra, un gancho de 10 s sale. Sin timeline.
Bodegones de producto con texto incrustado en el cuadro, todo guiado por conversación.
Explicaciones en claymation, visualizaciones científicas, viñetas históricas.
Concept boards, reels de pitch, variaciones de style transfer en serie.
Haz clic en cualquier viñeta para remezclarla.
Todo esto convive en una sola prompt.
Describe el plano. Apóyate en lo que el modelo ya sabe.
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
Hasta cinco imágenes como guía.
Un clip de voz. Graba una secuencia de números para reivindicar la tuya.
Remezcla un clip existente. Cambia el estilo, sustituye, transfiere el movimiento.
La prompt en seis ejes lo cambia todo. Declaramos el encuadre, la luz, la acción, y iteramos sobre lo que está realmente en pantalla. Tiempo de concept board reducido un 80 %.
El renderizado de texto en pantalla es el clic para mí. Un hero de producto con el SKU dentro del cuadro, sin pasar por After Effects. Tres semanas de trabajo de agencia en una tarde.
Doy clase de física en bachillerato. Los explainers en stop-motion llevaban una semana. Con Omni prompteo el esquema una vez, refino en chat, lo publico durante la propia hora.
Editar conversando supera al ajuste de parámetros. "Hazlo más cálido" funciona sin más, y el personaje sigue siendo el mismo de un plano a otro.
El audio nativo fue lo que me convenció. Voz sincronizada con los labios, ambiente de la sala, foley, todo en una sola pasada. Me salvó el presupuesto de postpro dos veces este mes.
Cualquier referencia, hasta cinco combinadas. El estilo de un cartel, el movimiento de un clip, la voz de un wav. Omni no se resiste, simplemente lo hace.
El primer modelo de la familia Omni de DeepMind.
De la prompt al clip y a la edición, en la misma pantalla.
La guía de prompts convertida en campos.
Median 23 seconds. Live status & cost.
Las ediciones por conversación mantienen la escena coherente.
Nueve capacidades que el modelo entrega de forma constante. Ni rastro de cherry-pick.
Letras que se leen de verdad. Lower thirds, carteles, secuencias del abecedario, branding integrado.
Genera y luego itera conversando. La escena se mantiene coherente entre ediciones.
Imagen, vídeo, audio, sketch. Combina hasta cinco entradas en una sola prompt.
Dolly, push-in, plano secuencia, sobre el hombro. Lo describes con palabras, el modelo lo respeta.
Sonido diegético, capas de ambiente, voz sincronizada con los labios. Sin pase de audio extra.
De la claymation al voxel art, pasando por el holograma. El movimiento se sostiene, solo cambia la superficie.
Las canicas ruedan, la tela cae, el agua refleja. Las reacciones en cadena se encadenan de verdad.
La misma persona de un plano a otro, en cualquier entorno o estilo. Caras y ropa se sostienen.
Procedencia verificable. La marca sobrevive a la compresión, al recorte y al recodificado.
Lectura honesta: dónde Omni va por delante, dónde empata, y qué no quiere ser.
| Somos nosotrosOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| Texto en pantalla | Líder del sector. Lower thirds, carteles, secuencias del abecedario se sostienen. | Bien. Las leyendas cortas funcionan. | Limitado. Deriva en textos largos. | Bien. Texto de marca correcto. |
| Edición por turnos | Chat nativo. Escena y personaje se mantienen coherentes. | Re-prompt manual. | Re-prompt manual. | Re-prompt manual. |
| Audio nativo | Voz + SFX + ambiente en una pasada. | Limitado. Solo SFX. | Salida muda. | Salida muda. |
| Entradas de referencia | Imagen, vídeo, audio, sketch. Hasta 5 combinadas. | Solo imagen. | Imagen, clip corto. | Imagen, motion brush. |
| Duración de salida | 10 s base, encadenables vía chat. | 8 s. | 8 a 20 s según el plan. | 10 s. |
| Procedencia | Marca de agua SynthID, verificable. | Marca de agua SynthID. | Metadatos C2PA. | Metadatos C2PA. |
| Ideal para | Creadores, docentes y equipos de marca que entregan vídeo listo para publicar. | Cineastas con foco en un look puramente cinematográfico. | Cortos narrativos. | Motion design y workflows VFX. |
Los precios de Google se trasladan tal cual. Una cuota fija por asiento, y nada más.
Hasta 200 minutos al mes.
Cola prioritaria y ediciones ilimitadas.
Espacio de trabajo compartido para equipos.
Si la tuya no está aquí, escríbenos.
Gemini Omni es el primer modelo any-to-any de Google DeepMind, anunciado el 19 de mayo de 2026 en la I/O. Un solo modelo, una sola pasada: lee texto, imagen, audio y vídeo, y entrega vídeo con sonido nativo. Recoge el testigo de la familia Veo y absorbe capacidades de Nano Banana (edición de imagen) y Genie (mundos interactivos). Omni Studio es nuestra interfaz por encima, sin afiliación con Google. Pasamos por las APIs oficiales de Gemini y Vertex, sin recargo.
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
Omni se entrenó para edición por turnos y mantiene la escena coherente entre ediciones. Después de generar, escribes cosas como "haz la luz más cálida" o "cambia el fondo", y el modelo vuelve a renderizar conservando personajes, movimiento y trayectoria de cámara. Cada edición es un nodo nuevo en tu árbol de biblioteca, para ramificar y comparar.
SynthID es la marca de agua invisible de Google, integrada en cada salida de Omni. Imperceptible para el ojo humano pero verificable desde la app de Gemini, Chrome y Google Search. Resiste al recodificado, al recorte y a la grabación de pantalla. La procedencia no es opcional: cada clip que generes aquí sale firmado.
La modificación de voz está limitada al lanzamiento (decisión de Google) hasta que llegue una implementación más segura. Puedes enviar una referencia de voz, pero para usar tu propia voz como avatar primero tendrás que grabar una secuencia corta de números (el salvavidas oficial contra deepfakes). Toda salida lleva marca de agua SynthID y la plataforma es solo para mayores de 18.
Google said 'in the coming weeks' on May 19. Precios isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mes) on top. Join the API waitlist above to get keys the day it goes live.
Sí. Cancelación desde los ajustes, sin email, sin fricción. Los minutos no usados se trasladan 30 días. Si cancelas en los 14 días siguientes al pago, te devolvemos el mes completo, sin preguntas, sin formularios.
Las prompts y las salidas viven en Vercel Blob Storage (región UE por defecto, EE. UU. opcional). No usamos tus generaciones para entrenar. El procesamiento subyacente de Google sigue los términos de uso de datos de la API de Gemini. Retención cero de datos disponible en Pro y Ultra.
Tres generaciones por nuestra cuenta. Sin tarjeta.