Omni Studio bringt euch Gemini Omni in die Hand, das multimodale Modell von Google DeepMind. Bringt Text, bis zu fünf Bilder, eine Sprachreferenz oder einen Clip ein. Ihr bekommt ein Video mit nativem Ton zurück, watermarkiert. Und ihr verfeinert es im Gespräch.
Keine Anmeldung nötig, um euer erstes Video zu sehen.
Omni fügt sich in euren Workflow ein, nicht andersrum.
Ein Bild rein, ein 10-Sekunden-Hook raus. Keine Timeline.
Produktinszenierungen mit Text im Bild, gesteuert über die Stimme.
Claymation-Erklärfilme, wissenschaftliche Visualisierungen, Geschichts-Vignetten.
Concept Boards, Pitch-Reels, Style-Transfer-Varianten in Serie.
Klickt auf eine Kachel, um sie zu remixen.
Alle das könnt ihr in einem einzigen Prompt kombinieren.
Beschreibt den Shot. Verlasst euch auf das, was das Modell schon weiß.
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
Bis zu fünf Bilder als Vorlage.
Ein Stimme-Clip. Sprecht eine Zahlenfolge ein, um eure eigene Stimme zu autorisieren.
Remixt bestehendes Material. Style ändern, Element austauschen, Bewegung übertragen.
Der Sechs-Achsen-Prompt ist der Game-Changer. Wir definieren Framing, Licht und Action und iterieren auf dem, was wirklich auf dem Schirm ist. Concept-Board-Zeit minus 80 %.
Text im Bild ist für mich der entscheidende Hebel. Produkt-Hero mit der SKU direkt im Frame, ohne After-Effects-Pass. Drei Agenturwochen an einem Nachmittag.
Ich unterrichte Physik am Gymnasium. Stop-Motion-Erklärfilme haben früher eine Woche gedauert. Mit Omni prompte ich das Diagramm einmal, verfeinere im Chat, veröffentliche noch in der Stunde.
Im Gespräch zu editieren schlägt jedes Parameter-Tuning. "Mach das Licht wärmer" funktioniert einfach, und die Figur bleibt von Schnitt zu Schnitt dieselbe Person.
Nativer Sound hat mich überzeugt. Stimme synchron zur Lippenbewegung, Raumton, Foley, alles in einem Pass. Hat mein Post-Production-Budget diesen Monat zweimal gerettet.
Jede Referenz, bis zu fünf gleichzeitig. Style aus einem Plakat, Bewegung aus einem Clip, Stimme aus einer WAV. Omni sträubt sich nicht, Omni liefert.
Das erste Modell der Omni-Familie von DeepMind.
Vom Prompt zum Clip zur Bearbeitung, alles auf einem Screen.
Der Prompt-Guide als strukturierte Felder.
Median 23 seconds. Live status & cost.
Konversations-Edits halten die Szene konsistent.
Neun Fähigkeiten, die das Modell zuverlässig liefert. Keine Cherry-Picked-Demo.
Schrift, die man wirklich lesen kann. Lower Thirds, Plakate, Alphabet-Sequenzen, eingebettetes Branding.
Generieren, dann im Gespräch iterieren. Die Szene bleibt von Edit zu Edit konsistent.
Bild, Video, Audio, Sketch. Bis zu fünf Eingaben in einem Prompt kombinieren.
Dolly, Push-in, Oner, Over-the-Shoulder. Ihr beschreibt es in Worten, das Modell setzt es um.
Diegetischer Sound, Atmo-Layer, Stimme synchron zur Lippenbewegung. Kein separater Audio-Pass.
Von Claymation über Voxel-Art bis zum Hologramm. Bewegung hält, nur die Oberfläche ändert sich.
Murmeln rollen, Stoff fällt, Wasser spiegelt. Kettenreaktionen reagieren tatsächlich in Kette.
Dieselbe Person von Schnitt zu Schnitt, durch Umgebungen und Style-Wechsel hindurch. Gesichter und Outfits halten.
Verifizierbare Provenienz. Das Watermark überlebt Komprimierung, Crop und Re-Encoding.
Ehrlich gelesen: wo Omni vorne liegt, wo gleichauf, und worum es nicht geht.
| Das sind wirOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| Text im Bild | Spitzenklasse. Lower Thirds, Plakate, Alphabet-Sequenzen halten. | Gut. Kurze Captions klappen. | Begrenzt. Driftet bei längerem Text. | Gut. Markentext ist solide. |
| Mehrstufiges Editieren | Nativer Chat. Szene und Figur bleiben konsistent. | Manueller Re-Prompt. | Manueller Re-Prompt. | Manueller Re-Prompt. |
| Native Audio | Stimme + SFX + Atmo in einem Pass. | Begrenzt. Nur SFX. | Stummer Output. | Stummer Output. |
| Referenz-Eingaben | Bild, Video, Audio, Sketch. Bis zu 5 kombiniert. | Nur Bild. | Bild, kurzer Clip. | Bild, Motion Brush. |
| Output-Länge | 10 s Basis, im Chat verkettbar. | 8 s. | 8 bis 20 s je nach Stufe. | 10 s. |
| Provenienz | SynthID-Watermark, verifizierbar. | SynthID-Watermark. | C2PA-Metadaten. | C2PA-Metadaten. |
| Ideal für | Creator, Lehrkräfte und Brand-Teams, die produktionsreife Videos ausspielen. | Filmemacher mit Fokus auf rein kinematischen Look. | Story-getriebenes Short-Form. | Motion Design und VFX-Workflows. |
Google-Preise eins zu eins weitergegeben. Ein fester Seat darüber.
Bis zu 200 Minuten pro Monat.
Priority Queue, unbegrenzte Edits.
Geteilter Workspace für Teams.
Wenn eure nicht dabei ist, schreibt uns einfach.
Gemini Omni ist das erste Any-to-any-Modell von Google DeepMind, vorgestellt am 19. Mai 2026 auf der I/O. Ein Modell, ein Pass: es liest Text, Bilder, Audio und Video und liefert Video mit nativem Sound. Es übernimmt die Veo-Linie und absorbiert Fähigkeiten von Nano Banana (Bildbearbeitung) und Genie (interaktive Welten). Omni Studio ist unser Frontend dazu, ohne Affiliation mit Google. Wir reichen die offiziellen Gemini- und Vertex-APIs (sobald verfügbar) ohne Aufschlag durch.
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
Omni wurde fürs mehrstufige Editieren trainiert und hält die Szene zwischen Edits zusammen. Nach einer Generierung schreibt ihr Sachen wie "mach das Licht wärmer" oder "tausch den Hintergrund", und das Modell rendert neu, mit konsistenten Figuren, Bewegungen und Kamerafahrten. Jeder Edit wird ein neuer Knoten in eurem Library-Tree, ihr könnt verzweigen und vergleichen.
SynthID ist Googles unsichtbares Watermark, eingebacken in jeden Omni-Output. Für Menschen unsichtbar, aber verifizierbar über die Gemini-App, Chrome und die Google-Suche. Es übersteht Re-Encoding, Crop und Screen Recording. Provenienz ist kein Add-on: jeder Clip, den ihr hier generiert, geht signiert raus.
Stimme-Modifikation ist zum Launch gedrosselt (Googles Entscheidung), bis eine sicherere Implementierung steht. Ihr könnt eine Sprachreferenz einreichen, aber um eure eigene Stimme als Avatar zu nutzen, müsst ihr zuerst eine kurze Zahlenfolge aufnehmen (der offizielle Deepfake-Schutz). Alle Outputs sind SynthID-watermarkiert, und die Plattform ist 18+.
Google said 'in the coming weeks' on May 19. Preise isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/Monat) on top. Join the API waitlist above to get keys the day it goes live.
Ja. Kündigung direkt in den Einstellungen, ohne E-Mail, ohne Reibung. Ungenutzte Minuten werden 30 Tage übertragen. Wer innerhalb von 14 Tagen nach Zahlung kündigt, bekommt den ganzen Monat zurück, ohne Nachfragen, ohne Formular.
Prompts und Outputs liegen im Vercel Blob Storage (Standardregion EU, US optional). Wir nutzen eure Generierungen nicht fürs Training. Die zugrundeliegende Verarbeitung bei Google folgt den Gemini-API-Datenschutzbedingungen. Zero Data Retention ist in Pro und Ultra inklusive.
Drei Generierungen geschenkt. Ohne Kreditkarte.