Erstellt Videos
aus jeder Eingabe,
mit Gemini Omni.

Q: Was kann ich reingeben, was kommt raus?

Zum Launch, rein: Text, bis zu 5 Referenzbilder, eine Sprachreferenz, ein Videoclip oder Sketches. Raus: 10-Sekunden-Clips, Seitenverhältnis 16:9, 1080p, mit nativem Audio. Bild- und Audio-Output stehen auf Googles Roadmap, wir reichen sie nach, sobald sie da sind.

Q: Wie geht ihr mit Stimme und Gesichtern um?

Voice-Modifikation ist zum Launch gedrosselt (Googles Entscheidung), bis eine sicherere Implementierung steht. Ihr könnt eine Sprachreferenz einreichen, aber um eure eigene Stimme als Avatar zu nutzen, müsst ihr zuerst eine kurze Zahlenfolge aufnehmen (der offizielle Deepfake-Schutz). Alle Outputs sind SynthID-watermarkiert, und die Plattform ist 18+.

Q: Wann kommt die API und wie wird sie bepreist?

Google sagte am 19. Mai "in den kommenden Wochen". Pricing ist noch nicht öffentlich. Presse-Projektionen liegen bei rund $0,10 bis $0,30 pro Sekunde Video-Output. Wir geben Googles Preise unaufgeschlagen weiter und stellen den Seat ($20 bis $100 pro Monat) zusätzlich in Rechnung. Tragt euch oben in die API-Warteliste ein, um eure Keys am Launch-Tag zu bekommen.

Omni Studio bringt euch Gemini Omni in die Hand, das multimodale Modell von Google DeepMind. Bringt Text, bis zu fünf Bilder, eine Sprachreferenz oder einen Clip ein. Ihr bekommt ein Video mit nativem Ton zurück, watermarkiert. Und ihr verfeinert es im Gespräch.

Studio öffnen Galerie ansehen

~23s mittlere Renderzeit

10s Clips · 16:9 · 1080p

5 Bild-Referenzen · 1 Stimme

SynthID auf jedem Output

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

Mit Omni erstellt · letzte 24h

Eine Wand voller Generierungen.

Klickt auf eine Kachel, um sie zu remixen.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

Die ganze Galerie entdecken →

Multimodal als Eingabe

Bringt mit, was ihr habt. Mixt frei.

Alle das könnt ihr in einem einzigen Prompt kombinieren.

01 · TEXT

Natürliche Sprache

Beschreibt den Shot. Verlasst euch auf das, was das Modell schon weiß.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · BILD × 5

Referenzbilder

Bis zu fünf Bilder als Vorlage.

03 · STIMME

Sprachreferenz

Ein Stimme-Clip. Sprecht eine Zahlenfolge ein, um eure eigene Stimme zu autorisieren.

04 · VIDEO

Video-Clip

Remixt bestehendes Material. Style ändern, Element austauschen, Bewegung übertragen.

Was die Beta-Tester sagen

Sechs Stimmen. Ein roter Faden.

Der Sechs-Achsen-Prompt ist der Game-Changer. Wir definieren Framing, Licht und Action und iterieren auf dem, was wirklich auf dem Schirm ist. Concept-Board-Zeit minus 80 %.

Mira Tessier

Creative Director · Foxglove Studio

Text im Bild ist für mich der entscheidende Hebel. Produkt-Hero mit der SKU direkt im Frame, ohne After-Effects-Pass. Drei Agenturwochen an einem Nachmittag.

Rachel Kim

Brand Lead · Northwind

Ich unterrichte Physik am Gymnasium. Stop-Motion-Erklärfilme haben früher eine Woche gedauert. Mit Omni prompte ich das Diagramm einmal, verfeinere im Chat, veröffentliche noch in der Stunde.

Liam Patel

Educator · Klein & Co Academy

Im Gespräch zu editieren schlägt jedes Parameter-Tuning. "Mach das Licht wärmer" funktioniert einfach, und die Figur bleibt von Schnitt zu Schnitt dieselbe Person.

Sofia Garcia

YouTube-Creator · 480k Abonnenten

Nativer Sound hat mich überzeugt. Stimme synchron zur Lippenbewegung, Raumton, Foley, alles in einem Pass. Hat mein Post-Production-Budget diesen Monat zweimal gerettet.

Ethan Brooks

Indie-Filmemacher · Lumen Labs

Jede Referenz, bis zu fünf gleichzeitig. Style aus einem Plakat, Bewegung aus einem Clip, Stimme aus einer WAV. Omni sträubt sich nicht, Omni liefert.

Maya Iwasaki

Brand Designer · Helio

So funktioniert es

Drei Schritte. Ein Studio.

Vom Prompt zum Clip zur Bearbeitung, alles auf einem Screen.

SCHRITT 01

Komponiert über sechs Achsen

Der Prompt-Guide als strukturierte Felder.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire

⌘↵ Generieren

SCHRITT 02

Schaut beim Rendern zu

Median 23 seconds. Live status & cost.

⏱ 0:23 bis zum ersten Frame

SCHRITT 03

Verfeinert per Sprache

Konversations-Edits halten die Szene konsistent.

mach das Licht wärmer

✓ neu gerendert

füge leichten Nebel hinzu

✓ keeping fox & camera path

⌘B Chat einblenden

Funktionen

Was Gemini Omni wirklich kann.

Neun Fähigkeiten, die das Modell zuverlässig liefert. Keine Cherry-Picked-Demo.

01 · TEXT

Text im Bild

Schrift, die man wirklich lesen kann. Lower Thirds, Plakate, Alphabet-Sequenzen, eingebettetes Branding.

02 · CHAT

Mehrstufiges Editieren

Generieren, dann im Gespräch iterieren. Die Szene bleibt von Edit zu Edit konsistent.

03 · EINGABEN

Jede Referenz, jedes Format

Bild, Video, Audio, Sketch. Bis zu fünf Eingaben in einem Prompt kombinieren.

04 · KAMERA

Kameraführung

Dolly, Push-in, Oner, Over-the-Shoulder. Ihr beschreibt es in Worten, das Modell setzt es um.

05 · AUDIO

Stimme und SFX nativ

Diegetischer Sound, Atmo-Layer, Stimme synchron zur Lippenbewegung. Kein separater Audio-Pass.

06 · STIL

Style Transfer

Von Claymation über Voxel-Art bis zum Hologramm. Bewegung hält, nur die Oberfläche ändert sich.

07 · BEWEGUNG

Physik, die stimmt

Murmeln rollen, Stoff fällt, Wasser spiegelt. Kettenreaktionen reagieren tatsächlich in Kette.

08 · FIGUREN

Figuren-Konsistenz

Dieselbe Person von Schnitt zu Schnitt, durch Umgebungen und Style-Wechsel hindurch. Gesichter und Outfits halten.

09 · PROVENIENZ

SynthID-Watermarking

Verifizierbare Provenienz. Das Watermark überlebt Komprimierung, Crop und Re-Encoding.

Omni im Vergleich

Gemini Omni gegen den Wettbewerb.

Ehrlich gelesen: wo Omni vorne liegt, wo gleichauf, und worum es nicht geht.

	Das sind wirOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
Text im Bild	Spitzenklasse. Lower Thirds, Plakate, Alphabet-Sequenzen halten.	Gut. Kurze Captions klappen.	Begrenzt. Driftet bei längerem Text.	Gut. Markentext ist solide.
Mehrstufiges Editieren	Nativer Chat. Szene und Figur bleiben konsistent.	Manueller Re-Prompt.	Manueller Re-Prompt.	Manueller Re-Prompt.
Native Audio	Stimme + SFX + Atmo in einem Pass.	Begrenzt. Nur SFX.	Stummer Output.	Stummer Output.
Referenz-Eingaben	Bild, Video, Audio, Sketch. Bis zu 5 kombiniert.	Nur Bild.	Bild, kurzer Clip.	Bild, Motion Brush.
Output-Länge	10 s Basis, im Chat verkettbar.	8 s.	8 bis 20 s je nach Stufe.	10 s.
Provenienz	SynthID-Watermark, verifizierbar.	SynthID-Watermark.	C2PA-Metadaten.	C2PA-Metadaten.
Ideal für	Creator, Lehrkräfte und Brand-Teams, die produktionsreife Videos ausspielen.	Filmemacher mit Fokus auf rein kinematischen Look.	Story-getriebenes Short-Form.	Motion Design und VFX-Workflows.

Momentaufnahme. Der Markt bewegt sich schnell, wir aktualisieren die Tabelle monatlich.

Preise

Dieselben Pläne wie Gemini.
Ohne versteckten Aufschlag.

Google-Preise eins zu eins weitergegeben. Ein fester Seat darüber.

Plus

$20/Monat

Bis zu 200 Minuten pro Monat.

200 Min. / Monat
10-s-Clips · 1080p · Ton an
SynthID-Watermark
Library & templates

Fragen, die ihr euch wahrscheinlich stellt.

Wenn eure nicht dabei ist, schreibt uns einfach.

01Was ist Gemini Omni genau?

Gemini Omni ist das erste Any-to-any-Modell von Google DeepMind, vorgestellt am 19. Mai 2026 auf der I/O. Ein Modell, ein Pass: es liest Text, Bilder, Audio und Video und liefert Video mit nativem Sound. Es übernimmt die Veo-Linie und absorbiert Fähigkeiten von Nano Banana (Bildbearbeitung) und Genie (interaktive Welten). Omni Studio ist unser Frontend dazu, ohne Affiliation mit Google. Wir reichen die offiziellen Gemini- und Vertex-APIs (sobald verfügbar) ohne Aufschlag durch.

02Was kann ich reingeben, was kommt raus?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Wie funktioniert das Editieren per Konversation?

Omni wurde fürs mehrstufige Editieren trainiert und hält die Szene zwischen Edits zusammen. Nach einer Generierung schreibt ihr Sachen wie "mach das Licht wärmer" oder "tausch den Hintergrund", und das Modell rendert neu, mit konsistenten Figuren, Bewegungen und Kamerafahrten. Jeder Edit wird ein neuer Knoten in eurem Library-Tree, ihr könnt verzweigen und vergleichen.

04Was ist SynthID und warum ist es wichtig?

SynthID ist Googles unsichtbares Watermark, eingebacken in jeden Omni-Output. Für Menschen unsichtbar, aber verifizierbar über die Gemini-App, Chrome und die Google-Suche. Es übersteht Re-Encoding, Crop und Screen Recording. Provenienz ist kein Add-on: jeder Clip, den ihr hier generiert, geht signiert raus.

05Wie geht ihr mit Stimme und Gesichtern um?

Stimme-Modifikation ist zum Launch gedrosselt (Googles Entscheidung), bis eine sicherere Implementierung steht. Ihr könnt eine Sprachreferenz einreichen, aber um eure eigene Stimme als Avatar zu nutzen, müsst ihr zuerst eine kurze Zahlenfolge aufnehmen (der offizielle Deepfake-Schutz). Alle Outputs sind SynthID-watermarkiert, und die Plattform ist 18+.

06Wann kommt die API und wie wird sie bepreist?

Google said 'in the coming weeks' on May 19. Preise isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/Monat) on top. Join the API waitlist above to get keys the day it goes live.

07Kann ich jederzeit kündigen? Rückerstattung?

Ja. Kündigung direkt in den Einstellungen, ohne E-Mail, ohne Reibung. Ungenutzte Minuten werden 30 Tage übertragen. Wer innerhalb von 14 Tagen nach Zahlung kündigt, bekommt den ganzen Monat zurück, ohne Nachfragen, ohne Formular.

08Wo werden meine Daten gespeichert? Werden sie zum Training genutzt?

Prompts und Outputs liegen im Vercel Blob Storage (Standardregion EU, US optional). Wir nutzen eure Generierungen nicht fürs Training. Die zugrundeliegende Verarbeitung bei Google folgt den Gemini-API-Datenschutzbedingungen. Zero Data Retention ist in Pro und Ultra inklusive.

Erstellt Videos
aus jeder Eingabe,
mit Gemini Omni.

Schreibt euren ersten Prompt.
Seht, was Omni daraus macht.

Ein Studio. Vier Wege zu produzieren.

Short-Form Creator

Brand & marketing

Explainers & education

Agencies & studios

Eine Wand voller Generierungen.

Bringt mit, was ihr habt. Mixt frei.

Natürliche Sprache

Referenzbilder

Sprachreferenz

Video-Clip

Sechs Stimmen. Ein roter Faden.

Gemini Omni Flash, in Zahlen.

Drei Schritte. Ein Studio.

Komponiert über sechs Achsen

Schaut beim Rendern zu

Verfeinert per Sprache

Was Gemini Omni wirklich kann.

Text im Bild

Mehrstufiges Editieren

Jede Referenz, jedes Format

Kameraführung

Stimme und SFX nativ

Style Transfer

Physik, die stimmt

Figuren-Konsistenz

SynthID-Watermarking

Gemini Omni gegen den Wettbewerb.

Dieselben Pläne wie Gemini.
Ohne versteckten Aufschlag.

Fragen, die ihr euch wahrscheinlich stellt.

Macht heute noch etwas. Drei Generierungen aufs Haus.

Erstellt Videosaus jeder Eingabe,mit Gemini Omni.

Schreibt euren ersten Prompt.Seht, was Omni daraus macht.

Ein Studio. Vier Wege zu produzieren.

Short-Form Creator

Brand & marketing

Explainers & education

Agencies & studios

Eine Wand voller Generierungen.

Bringt mit, was ihr habt. Mixt frei.

Natürliche Sprache

Referenzbilder

Sprachreferenz

Video-Clip

Sechs Stimmen. Ein roter Faden.

Gemini Omni Flash, in Zahlen.

Drei Schritte. Ein Studio.

Komponiert über sechs Achsen

Schaut beim Rendern zu

Verfeinert per Sprache

Was Gemini Omni wirklich kann.

Text im Bild

Mehrstufiges Editieren

Jede Referenz, jedes Format

Kameraführung

Stimme und SFX nativ

Style Transfer

Physik, die stimmt

Figuren-Konsistenz

SynthID-Watermarking

Gemini Omni gegen den Wettbewerb.

Dieselben Pläne wie Gemini.Ohne versteckten Aufschlag.

Fragen, die ihr euch wahrscheinlich stellt.

Macht heute noch etwas. Drei Generierungen aufs Haus.

Erstellt Videos
aus jeder Eingabe,
mit Gemini Omni.

Schreibt euren ersten Prompt.
Seht, was Omni daraus macht.

Dieselben Pläne wie Gemini.
Ohne versteckten Aufschlag.