Créez des vidéos avec Gemini Omni à partir d'un prompt

Q: Que puis-je mettre en entrée, et qu'est-ce qui sort ?

Au lancement, en entrée : du texte, jusqu'à 5 images de référence, une référence vocale, un clip vidéo ou des sketches. En sortie : des clips de 10 s, au format 16:9, en 1080p, avec audio natif. Les sorties image et audio figurent sur la feuille de route Google ; nous les ajouterons dès qu'elles arriveront.

Q: Quand sort l'API, et comment sera-t-elle tarifée ?

Google a annoncé "dans les semaines à venir" le 19 mai. La tarification n'est pas encore publique. Les projections de la presse tournent autour de $0,10 à $0,30 par seconde de vidéo. Nous répercuterons les prix Google sans majoration, en plus de l'abonnement siège ($20 à $100 par mois). Inscrivez-vous à la liste d'attente API pour recevoir vos clés dès le jour J.

Créé avec Omni · ces 24 dernières heures

Un mur de générations.

Cliquez sur une vignette pour la remixer.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

Découvrir la galerie complète →

Multimodal en entrée

Apportez ce que vous avez. Mélangez librement.

Tous ces formats peuvent cohabiter dans une seule prompt.

01 · TEXTE

Langage naturel

Décrivez votre plan. Appuyez-vous sur tout ce que le modèle sait déjà.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · IMAGE × 5

Images de référence

Jusqu'à cinq images pour guider le rendu.

03 · VOIX

Référence vocale

Un clip vocal. Enregistrez une suite de chiffres pour authentifier la vôtre.

04 · VIDÉO

Clip vidéo

Remixez un clip existant. Changez le style, remplacez un élément, transférez le mouvement.

Ce qu'en disent les bêta-testeurs

Six retours. Un même constat.

La prompt en six axes change la donne. On déclare le cadrage, la lumière, l'action, et on itère sur ce qui s'affiche vraiment. Le temps passé sur les concept boards a fondu de 80 %.

Mira Tessier

Directrice créative · Foxglove Studio

Le rendu de texte incrusté, c'est l'élément qui m'a convaincu. Un hero produit avec le SKU directement dans l'image, sans passer par After Effects. Trois semaines d'agence en une après-midi.

Rachel Kim

Brand Lead · Northwind

J'enseigne la physique au lycée. Les explainers en stop-motion prenaient une semaine. Avec Omni, je prompte le schéma une fois, j'affine en chat, je publie pendant l'heure de cours.

Liam Patel

Educator · Klein & Co Academy

Affiner par conversation, c'est mille fois mieux que de tripoter des paramètres. "Réchauffe la lumière" : ça marche, et le personnage reste le même d'un plan à l'autre.

Sofia Garcia

Créatrice YouTube · 480 k abonnés

L'audio natif a été décisif pour moi. Voix synchronisée aux lèvres, ambiance de la pièce, foley, tout en un seul rendu. Mon budget post-prod a survécu deux fois ce mois-ci.

Ethan Brooks

Réalisateur indépendant · Lumen Labs

Toute référence, jusqu'à cinq combinées. Le style d'une affiche, le mouvement d'un clip, la voix d'un wav. Omni n'oppose aucune résistance, il exécute.

Maya Iwasaki

Brand Designer · Helio

Mode d'emploi

Trois étapes. Un seul studio.

De la prompt au clip, jusqu'à la retouche, tout se passe sur le même écran.

ÉTAPE 01

Composez selon six axes

Le guide de prompt repensé en champs structurés.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire

⌘↵ Générer

ÉTAPE 02

Regardez le rendu se faire

Median 23 seconds. Live status & cost.

⏱ 0:23 jusqu'à la première image

ÉTAPE 03

Affinez en discutant

Les retouches par conversation préservent la cohérence de la scène.

réchauffe la lumière

✓ nouveau rendu

ajoute une brume légère

✓ keeping fox & camera path

⌘B Afficher le chat

Fonctionnalités

Ce que Gemini Omni sait vraiment faire.

Neuf capacités testées, livrées de façon constante. Pas un effet de démo.

01 · TEXTE

Texte rendu à l'écran

Du texte qui se lit pour de vrai. Lower thirds, affiches, séquences alphabétiques, branding incrusté.

02 · CHAT

Édition par conversation

Générez, puis itérez à la voix. La scène reste cohérente d'une retouche à l'autre.

03 · ENTRÉES

Toute référence, tout format

Image, vidéo, audio, sketch : combinez jusqu'à cinq entrées dans une seule prompt.

04 · CAMÉRA

Direction caméra

Dolly, push-in, plan séquence, over-the-shoulder. Vous le décrivez en langage naturel, le modèle l'exécute.

05 · AUDIO

Voix et SFX natifs

Son diégétique, couches d'ambiance, voix synchronisée aux lèvres. Aucun pass audio à ajouter.

06 · STYLE

Style transfer

De la claymation au voxel art, en passant par l'hologramme. Le mouvement tient, seule la matière change.

07 · MOUVEMENT

Physique respectée

Les billes roulent, le tissu retombe, l'eau réfléchit. Les réactions en chaîne s'enchaînent vraiment.

08 · PERSONNAGES

Cohérence des personnages

Le même visage d'un plan à l'autre, peu importe l'environnement ou le style. Tenues et traits conservés.

09 · PROVENANCE

Watermarking SynthID

Une provenance vérifiable. Le watermark survit à la compression, au recadrage et au ré-encodage.

Omni face au marché

Gemini Omni face à la concurrence.

Une lecture franche : ce qu'Omni fait mieux, ce qu'il fait pareil, et ce qu'il ne cherche pas à faire.

	C'est nousOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
Texte à l'écran	Le meilleur de sa catégorie. Lower thirds, affiches, séquences alphabétiques tiennent.	Bon. Les légendes courtes fonctionnent.	Limité. Dérive sur les textes longs.	Bon. Texte de marque correct.
Édition par conversation	Chat natif. La scène et le personnage restent cohérents.	Re-prompt manuel.	Re-prompt manuel.	Re-prompt manuel.
Audio natif	Voix + SFX + ambiance, en un seul rendu.	Limité. SFX uniquement.	Sortie muette.	Sortie muette.
Entrées de référence	Image, vidéo, audio, sketch. Jusqu'à 5 combinées.	Image uniquement.	Image, court clip.	Image, motion brush.
Durée de sortie	10 s de base, enchaînables en chat.	8 s.	8 à 20 s selon le plan.	10 s.
Provenance	Watermark SynthID, vérifiable.	Watermark SynthID.	Métadonnées C2PA.	Métadonnées C2PA.
Idéal pour	Créateurs, enseignants et équipes brand qui livrent de la vidéo prête à publier.	Réalisateurs en quête d'un rendu purement cinématique.	Court-format narratif.	Motion design et VFX.

Instantané du marché. Nous rafraîchissons ce tableau chaque mois.

Tarifs

Les mêmes plans que Gemini.
Sans majoration cachée.

Les prix Google, répercutés tels quels. Un abonnement fixe par siège, et c'est tout.

Plus

$20/mois

Jusqu'à 200 minutes par mois.

200 min / mois
Clips 10 s · 1080p · audio activé
Watermark SynthID
Library & templates

RECOMMANDÉ

Pro

$30/mois

File prioritaire et retouches illimitées.

1 000 min / mois
File prioritaire · rendu plus rapide
Retouches par conversation illimitées
Passthrough API personnel
Préréglages haute résolution

Ultra

$100/mois

Un espace de travail partagé pour les équipes.

Générations illimitées
Workspace équipe (5 sièges)
Brand kit & asset library
Support prioritaire
Audit log & SSO

FAQ

Les questions que vous allez sans doute poser.

Si la vôtre n'y est pas, écrivez-nous.

01Qu'est-ce que Gemini Omni exactement ?

Gemini Omni est le premier modèle tout-vers-tout de Google DeepMind, annoncé le 19 mai 2026 lors de la conférence I/O. Un seul modèle, un seul passage : il comprend texte, images, audio et vidéo, et restitue une vidéo avec son natif. Il prend la suite de la famille Veo et absorbe les capacités de Nano Banana (édition d'images) et de Genie (mondes interactifs). Omni Studio est notre interface au-dessus du modèle, sans aucune affiliation avec Google. Nous nous appuyons sur les APIs officielles Gemini et Vertex, sans majoration.

02Que puis-je mettre en entrée, et qu'est-ce qui sort ?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Comment fonctionnent les retouches par conversation ?

Omni a été entraîné pour l'édition multi-tours : il maintient la cohérence de la scène d'une retouche à l'autre. Après une génération, vous écrivez par exemple "réchauffe la lumière" ou "change le fond" et le modèle relance le rendu en conservant personnages, mouvement et trajectoire caméra. Chaque retouche devient un nouveau nœud dans votre arbre, pour brancher et comparer librement.

04Qu'est-ce que SynthID, et pourquoi c'est important ?

SynthID, c'est le watermark invisible de Google, intégré à chaque sortie Omni. Imperceptible à l'œil, il est vérifiable depuis l'app Gemini, Chrome et Google Search. Il résiste au ré-encodage, au recadrage et à l'enregistrement d'écran. La provenance n'est pas optionnelle : chaque clip généré ici est signé.

05Comment gérez-vous la voix et les visages ?

La modification vocale est bridée au lancement (décision de Google) en attendant une implémentation plus sûre. Vous pouvez soumettre une référence vocale, mais pour utiliser votre propre voix en avatar, vous devrez d'abord enregistrer une courte suite de chiffres (le garde-fou anti-deepfake officiel). Toutes les sorties portent le watermark SynthID, et la plateforme est réservée aux 18 ans et plus.

06Quand sort l'API, et comment sera-t-elle tarifée ?

Google said 'in the coming weeks' on May 19. Tarifs isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mois) on top. Join the API waitlist above to get keys the day it goes live.

07Puis-je annuler à tout moment ? Les remboursements ?

Oui. Annulation depuis les paramètres, sans email, sans friction. Les minutes non utilisées sont reportées 30 jours. Si vous annulez dans les 14 jours suivant un paiement, nous remboursons le mois en entier, sans questions, sans formulaire.

08Où sont stockées mes données ? Servent-elles à entraîner le modèle ?

Prompts et sorties sont stockés sur Vercel Blob Storage (région UE par défaut, US en option). Nous n'utilisons pas vos générations pour entraîner les modèles. Le traitement Google sous-jacent suit les conditions d'utilisation de l'API Gemini. La rétention zéro des données (Zero Data Retention) est disponible sur les plans Pro et Ultra.

Créez des vidéos
à partir de tout,
avec Gemini Omni.

Écrivez votre première prompt.
Voyez ce qu'Omni en fait.

Un seul studio. Quatre façons de créer.

Créateurs de contenu court

Brand & marketing

Explainers & education

Agencies & studios

Un mur de générations.

Apportez ce que vous avez. Mélangez librement.

Langage naturel

Images de référence

Référence vocale

Clip vidéo

Six retours. Un même constat.

Gemini Omni Flash, en chiffres.

Trois étapes. Un seul studio.

Composez selon six axes

Regardez le rendu se faire

Affinez en discutant

Ce que Gemini Omni sait vraiment faire.

Texte rendu à l'écran

Édition par conversation

Toute référence, tout format

Direction caméra

Voix et SFX natifs

Style transfer

Physique respectée

Cohérence des personnages

Watermarking SynthID

Gemini Omni face à la concurrence.

Les mêmes plans que Gemini.
Sans majoration cachée.

Les questions que vous allez sans doute poser.

Créez quelque chose aujourd'hui. Trois générations offertes.

Créez des vidéosà partir de tout,avec Gemini Omni.

Écrivez votre première prompt.Voyez ce qu'Omni en fait.

Un seul studio. Quatre façons de créer.

Créateurs de contenu court

Brand & marketing

Explainers & education

Agencies & studios

Un mur de générations.

Apportez ce que vous avez. Mélangez librement.

Langage naturel

Images de référence

Référence vocale

Clip vidéo

Six retours. Un même constat.

Gemini Omni Flash, en chiffres.

Trois étapes. Un seul studio.

Composez selon six axes

Regardez le rendu se faire

Affinez en discutant

Ce que Gemini Omni sait vraiment faire.

Texte rendu à l'écran

Édition par conversation

Toute référence, tout format

Direction caméra

Voix et SFX natifs

Style transfer

Physique respectée

Cohérence des personnages

Watermarking SynthID

Gemini Omni face à la concurrence.

Les mêmes plans que Gemini.Sans majoration cachée.

Les questions que vous allez sans doute poser.

Créez quelque chose aujourd'hui. Trois générations offertes.

Créez des vidéos
à partir de tout,
avec Gemini Omni.

Écrivez votre première prompt.
Voyez ce qu'Omni en fait.

Les mêmes plans que Gemini.
Sans majoration cachée.