Omni Studio met entre vos mains Gemini Omni, le modèle multimodal de Google DeepMind. Apportez du texte, jusqu'à cinq images, une référence vocale ou un clip. Vous récupérez une vidéo avec son natif, watermarkée. Et vous l'affinez en discutant.
Aucune inscription pour découvrir votre première vidéo.
Omni s'adapte à votre workflow, pas l'inverse.
Une image en entrée, une accroche de 10 s en sortie. Aucune timeline à monter.
Mises en scène produit, textes incrustés dans l'image, le tout piloté à la voix.
Explications en claymation, visualisations scientifiques, capsules historiques.
Concept boards, reels de pitch, variations de style transfer en série.
Cliquez sur une vignette pour la remixer.
Tous ces formats peuvent cohabiter dans une seule prompt.
Décrivez votre plan. Appuyez-vous sur tout ce que le modèle sait déjà.
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
Jusqu'à cinq images pour guider le rendu.
Un clip vocal. Enregistrez une suite de chiffres pour authentifier la vôtre.
Remixez un clip existant. Changez le style, remplacez un élément, transférez le mouvement.
La prompt en six axes change la donne. On déclare le cadrage, la lumière, l'action, et on itère sur ce qui s'affiche vraiment. Le temps passé sur les concept boards a fondu de 80 %.
Le rendu de texte incrusté, c'est l'élément qui m'a convaincu. Un hero produit avec le SKU directement dans l'image, sans passer par After Effects. Trois semaines d'agence en une après-midi.
J'enseigne la physique au lycée. Les explainers en stop-motion prenaient une semaine. Avec Omni, je prompte le schéma une fois, j'affine en chat, je publie pendant l'heure de cours.
Affiner par conversation, c'est mille fois mieux que de tripoter des paramètres. "Réchauffe la lumière" : ça marche, et le personnage reste le même d'un plan à l'autre.
L'audio natif a été décisif pour moi. Voix synchronisée aux lèvres, ambiance de la pièce, foley, tout en un seul rendu. Mon budget post-prod a survécu deux fois ce mois-ci.
Toute référence, jusqu'à cinq combinées. Le style d'une affiche, le mouvement d'un clip, la voix d'un wav. Omni n'oppose aucune résistance, il exécute.
Le premier modèle de la famille Omni de DeepMind.
De la prompt au clip, jusqu'à la retouche, tout se passe sur le même écran.
Le guide de prompt repensé en champs structurés.
Median 23 seconds. Live status & cost.
Les retouches par conversation préservent la cohérence de la scène.
Neuf capacités testées, livrées de façon constante. Pas un effet de démo.
Du texte qui se lit pour de vrai. Lower thirds, affiches, séquences alphabétiques, branding incrusté.
Générez, puis itérez à la voix. La scène reste cohérente d'une retouche à l'autre.
Image, vidéo, audio, sketch : combinez jusqu'à cinq entrées dans une seule prompt.
Dolly, push-in, plan séquence, over-the-shoulder. Vous le décrivez en langage naturel, le modèle l'exécute.
Son diégétique, couches d'ambiance, voix synchronisée aux lèvres. Aucun pass audio à ajouter.
De la claymation au voxel art, en passant par l'hologramme. Le mouvement tient, seule la matière change.
Les billes roulent, le tissu retombe, l'eau réfléchit. Les réactions en chaîne s'enchaînent vraiment.
Le même visage d'un plan à l'autre, peu importe l'environnement ou le style. Tenues et traits conservés.
Une provenance vérifiable. Le watermark survit à la compression, au recadrage et au ré-encodage.
Une lecture franche : ce qu'Omni fait mieux, ce qu'il fait pareil, et ce qu'il ne cherche pas à faire.
| C'est nousOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| Texte à l'écran | Le meilleur de sa catégorie. Lower thirds, affiches, séquences alphabétiques tiennent. | Bon. Les légendes courtes fonctionnent. | Limité. Dérive sur les textes longs. | Bon. Texte de marque correct. |
| Édition par conversation | Chat natif. La scène et le personnage restent cohérents. | Re-prompt manuel. | Re-prompt manuel. | Re-prompt manuel. |
| Audio natif | Voix + SFX + ambiance, en un seul rendu. | Limité. SFX uniquement. | Sortie muette. | Sortie muette. |
| Entrées de référence | Image, vidéo, audio, sketch. Jusqu'à 5 combinées. | Image uniquement. | Image, court clip. | Image, motion brush. |
| Durée de sortie | 10 s de base, enchaînables en chat. | 8 s. | 8 à 20 s selon le plan. | 10 s. |
| Provenance | Watermark SynthID, vérifiable. | Watermark SynthID. | Métadonnées C2PA. | Métadonnées C2PA. |
| Idéal pour | Créateurs, enseignants et équipes brand qui livrent de la vidéo prête à publier. | Réalisateurs en quête d'un rendu purement cinématique. | Court-format narratif. | Motion design et VFX. |
Les prix Google, répercutés tels quels. Un abonnement fixe par siège, et c'est tout.
Jusqu'à 200 minutes par mois.
File prioritaire et retouches illimitées.
Un espace de travail partagé pour les équipes.
Si la vôtre n'y est pas, écrivez-nous.
Gemini Omni est le premier modèle tout-vers-tout de Google DeepMind, annoncé le 19 mai 2026 lors de la conférence I/O. Un seul modèle, un seul passage : il comprend texte, images, audio et vidéo, et restitue une vidéo avec son natif. Il prend la suite de la famille Veo et absorbe les capacités de Nano Banana (édition d'images) et de Genie (mondes interactifs). Omni Studio est notre interface au-dessus du modèle, sans aucune affiliation avec Google. Nous nous appuyons sur les APIs officielles Gemini et Vertex, sans majoration.
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
Omni a été entraîné pour l'édition multi-tours : il maintient la cohérence de la scène d'une retouche à l'autre. Après une génération, vous écrivez par exemple "réchauffe la lumière" ou "change le fond" et le modèle relance le rendu en conservant personnages, mouvement et trajectoire caméra. Chaque retouche devient un nouveau nœud dans votre arbre, pour brancher et comparer librement.
SynthID, c'est le watermark invisible de Google, intégré à chaque sortie Omni. Imperceptible à l'œil, il est vérifiable depuis l'app Gemini, Chrome et Google Search. Il résiste au ré-encodage, au recadrage et à l'enregistrement d'écran. La provenance n'est pas optionnelle : chaque clip généré ici est signé.
La modification vocale est bridée au lancement (décision de Google) en attendant une implémentation plus sûre. Vous pouvez soumettre une référence vocale, mais pour utiliser votre propre voix en avatar, vous devrez d'abord enregistrer une courte suite de chiffres (le garde-fou anti-deepfake officiel). Toutes les sorties portent le watermark SynthID, et la plateforme est réservée aux 18 ans et plus.
Google said 'in the coming weeks' on May 19. Tarifs isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/mois) on top. Join the API waitlist above to get keys the day it goes live.
Oui. Annulation depuis les paramètres, sans email, sans friction. Les minutes non utilisées sont reportées 30 jours. Si vous annulez dans les 14 jours suivant un paiement, nous remboursons le mois en entier, sans questions, sans formulaire.
Prompts et sorties sont stockés sur Vercel Blob Storage (région UE par défaut, US en option). Nous n'utilisons pas vos générations pour entraîner les modèles. Le traitement Google sous-jacent suit les conditions d'utilisation de l'API Gemini. La rétention zéro des données (Zero Data Retention) est disponible sur les plans Pro et Ultra.
Trois générations sans carte bancaire.