Gemini Omni Flash ist verfügbar. Probiert die Demo unten, ganz ohne Anmeldung · Jetzt ausprobieren →
Ω Omni Studio v0.1 · Beta
Anmelden Loslegen
Powered by Gemini Omni Flash · 19. Mai 2026

Erstellt Videos
aus jeder Eingabe,
mit Gemini Omni.

Omni Studio bringt euch Gemini Omni in die Hand, das multimodale Modell von Google DeepMind. Bringt Text, bis zu fünf Bilder, eine Sprachreferenz oder einen Clip ein. Ihr bekommt ein Video mit nativem Ton zurück, watermarkiert. Und ihr verfeinert es im Gespräch.

~23s mittlere Renderzeit
10s Clips · 16:9 · 1080p
5 Bild-Referenzen · 1 Stimme
SynthID auf jedem Output
LIVE · TRY NOW

Schreibt euren ersten Prompt.
Seht, was Omni daraus macht.

Keine Anmeldung nötig, um euer erstes Video zu sehen.

Prompt
158 chars to generate
Beispiele zum Ausprobieren:
tokenizing prompt
Format
16:9
Dauer
8 s
Auflösung
1080p
Stimme
Auto

23s bis zum ersten Frame · 1080p · SynthID
Teams produzieren mit Omni
Northwind Foxglove Aetheric Lumen Labs Klein & Co Helio
Gemacht für

Ein Studio. Vier Wege zu produzieren.

Omni fügt sich in euren Workflow ein, nicht andersrum.

01 · CREATOR

Short-Form Creator

Ein Bild rein, ein 10-Sekunden-Hook raus. Keine Timeline.

02 · MARKETING

Brand & marketing

Produktinszenierungen mit Text im Bild, gesteuert über die Stimme.

03 · BILDUNG

Explainers & education

Claymation-Erklärfilme, wissenschaftliche Visualisierungen, Geschichts-Vignetten.

04 · AGENTUREN

Agencies & studios

Concept Boards, Pitch-Reels, Style-Transfer-Varianten in Serie.

Mit Omni erstellt · letzte 24h

Eine Wand voller Generierungen.

Klickt auf eine Kachel, um sie zu remixen.

ONER
"When the person touches the mirror, transforms into a detailed monochrome line art drawing"
transform · 0:08via DeepMind
ZOOM
"Make the hand-shaped hole super zoom and magnify the ground it's looking at"
reimagine · 0:10via DeepMind
SOUND
"When the finger touches the animal toy, play the sound the animal makes"
sound · 0:08via DeepMind
CLAY
"Skeuomorphism stop-motion explainer of how the brain hippocampus works"
explainer · 0:18via DeepMind
VOXEL
"When the person touches the mirror, the entire environment turns into 3D voxel art"
transform · 0:08via DeepMind
MUSIC
"The lights of the apartments start turning on in sync with the music"
reimagine · 0:08via DeepMind
TEXT
"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."
text · 0:11via DeepMind
FIELD
"Transport the violinist to the image environment, sun-drenched grassy field"
multi-turn · 0:08via DeepMind
PUPPET
"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"
transform · 0:08via DeepMind
ANGLE
"Change the camera angle to be over the violinist's shoulder"
multi-turn · 0:08via DeepMind
HOLO
"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"
transform · 0:08via DeepMind
TEXT
"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."
text · 0:09via DeepMind
Die ganze Galerie entdecken →
Multimodal als Eingabe

Bringt mit, was ihr habt. Mixt frei.

Alle das könnt ihr in einem einzigen Prompt kombinieren.

01 · TEXT

Natürliche Sprache

Beschreibt den Shot. Verlasst euch auf das, was das Modell schon weiß.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious
02 · BILD × 5

Referenzbilder

Bis zu fünf Bilder als Vorlage.

03 · STIMME

Sprachreferenz

Ein Stimme-Clip. Sprecht eine Zahlenfolge ein, um eure eigene Stimme zu autorisieren.

04 · VIDEO

Video-Clip

Remixt bestehendes Material. Style ändern, Element austauschen, Bewegung übertragen.

Was die Beta-Tester sagen

Sechs Stimmen. Ein roter Faden.

Der Sechs-Achsen-Prompt ist der Game-Changer. Wir definieren Framing, Licht und Action und iterieren auf dem, was wirklich auf dem Schirm ist. Concept-Board-Zeit minus 80 %.

MT
Mira Tessier
Creative Director · Foxglove Studio

Text im Bild ist für mich der entscheidende Hebel. Produkt-Hero mit der SKU direkt im Frame, ohne After-Effects-Pass. Drei Agenturwochen an einem Nachmittag.

RK
Rachel Kim
Brand Lead · Northwind

Ich unterrichte Physik am Gymnasium. Stop-Motion-Erklärfilme haben früher eine Woche gedauert. Mit Omni prompte ich das Diagramm einmal, verfeinere im Chat, veröffentliche noch in der Stunde.

LP
Liam Patel
Educator · Klein & Co Academy

Im Gespräch zu editieren schlägt jedes Parameter-Tuning. "Mach das Licht wärmer" funktioniert einfach, und die Figur bleibt von Schnitt zu Schnitt dieselbe Person.

SG
Sofia Garcia
YouTube-Creator · 480k Abonnenten

Nativer Sound hat mich überzeugt. Stimme synchron zur Lippenbewegung, Raumton, Foley, alles in einem Pass. Hat mein Post-Production-Budget diesen Monat zweimal gerettet.

EB
Ethan Brooks
Indie-Filmemacher · Lumen Labs

Jede Referenz, bis zu fünf gleichzeitig. Style aus einem Plakat, Bewegung aus einem Clip, Stimme aus einer WAV. Omni sträubt sich nicht, Omni liefert.

MI
Maya Iwasaki
Brand Designer · Helio
Das Modell

Gemini Omni Flash, in Zahlen.

Das erste Modell der Omni-Familie von DeepMind.

Model Card lesen →
Familie
Omni
Nachfolger von Veo, Genie und Nano Banana
Output
Video + Audio
Native sound · image & audio out soon
Eingaben
Any-to-any
Text · Bild × 5 · Stimme · Video · Sketch
Provenienz
SynthID
Watermarkiert und verifizierbar
So funktioniert es

Drei Schritte. Ein Studio.

Vom Prompt zum Clip zur Bearbeitung, alles auf einem Screen.

SCHRITT 01

Komponiert über sechs Achsen

Der Prompt-Guide als strukturierte Felder.

/cadrage wide-angle, oner
/style cinematic, grounded
/light warm, golden hour
/place forest clearing
/action fox approaches fire
⌘↵ Generieren
SCHRITT 02

Schaut beim Rendern zu

Median 23 seconds. Live status & cost.

0:23 bis zum ersten Frame
SCHRITT 03

Verfeinert per Sprache

Konversations-Edits halten die Szene konsistent.

mach das Licht wärmer
✓ neu gerendert
füge leichten Nebel hinzu
✓ keeping fox & camera path
⌘B Chat einblenden
Funktionen

Was Gemini Omni wirklich kann.

Neun Fähigkeiten, die das Modell zuverlässig liefert. Keine Cherry-Picked-Demo.

01 · TEXT

Text im Bild

Schrift, die man wirklich lesen kann. Lower Thirds, Plakate, Alphabet-Sequenzen, eingebettetes Branding.

02 · CHAT

Mehrstufiges Editieren

Generieren, dann im Gespräch iterieren. Die Szene bleibt von Edit zu Edit konsistent.

03 · EINGABEN

Jede Referenz, jedes Format

Bild, Video, Audio, Sketch. Bis zu fünf Eingaben in einem Prompt kombinieren.

04 · KAMERA

Kameraführung

Dolly, Push-in, Oner, Over-the-Shoulder. Ihr beschreibt es in Worten, das Modell setzt es um.

05 · AUDIO

Stimme und SFX nativ

Diegetischer Sound, Atmo-Layer, Stimme synchron zur Lippenbewegung. Kein separater Audio-Pass.

06 · STIL

Style Transfer

Von Claymation über Voxel-Art bis zum Hologramm. Bewegung hält, nur die Oberfläche ändert sich.

07 · BEWEGUNG

Physik, die stimmt

Murmeln rollen, Stoff fällt, Wasser spiegelt. Kettenreaktionen reagieren tatsächlich in Kette.

08 · FIGUREN

Figuren-Konsistenz

Dieselbe Person von Schnitt zu Schnitt, durch Umgebungen und Style-Wechsel hindurch. Gesichter und Outfits halten.

09 · PROVENIENZ

SynthID-Watermarking

Verifizierbare Provenienz. Das Watermark überlebt Komprimierung, Crop und Re-Encoding.

Omni im Vergleich

Gemini Omni gegen den Wettbewerb.

Ehrlich gelesen: wo Omni vorne liegt, wo gleichauf, und worum es nicht geht.

Das sind wirOmni Studio Google · VeoVeo 3.1 OpenAISora 2 RunwayGen-4
Text im Bild Spitzenklasse. Lower Thirds, Plakate, Alphabet-Sequenzen halten. Gut. Kurze Captions klappen. Begrenzt. Driftet bei längerem Text. Gut. Markentext ist solide.
Mehrstufiges Editieren Nativer Chat. Szene und Figur bleiben konsistent. Manueller Re-Prompt. Manueller Re-Prompt. Manueller Re-Prompt.
Native Audio Stimme + SFX + Atmo in einem Pass. Begrenzt. Nur SFX. Stummer Output. Stummer Output.
Referenz-Eingaben Bild, Video, Audio, Sketch. Bis zu 5 kombiniert. Nur Bild. Bild, kurzer Clip. Bild, Motion Brush.
Output-Länge 10 s Basis, im Chat verkettbar. 8 s. 8 bis 20 s je nach Stufe. 10 s.
Provenienz SynthID-Watermark, verifizierbar. SynthID-Watermark. C2PA-Metadaten. C2PA-Metadaten.
Ideal für Creator, Lehrkräfte und Brand-Teams, die produktionsreife Videos ausspielen. Filmemacher mit Fokus auf rein kinematischen Look. Story-getriebenes Short-Form. Motion Design und VFX-Workflows.
Momentaufnahme. Der Markt bewegt sich schnell, wir aktualisieren die Tabelle monatlich.
Preise

Dieselben Pläne wie Gemini.
Ohne versteckten Aufschlag.

Google-Preise eins zu eins weitergegeben. Ein fester Seat darüber.

Plus
$20/Monat

Bis zu 200 Minuten pro Monat.

  • 200 Min. / Monat
  • 10-s-Clips · 1080p · Ton an
  • SynthID-Watermark
  • Library & templates
EMPFOHLEN
Pro
$30/Monat

Priority Queue, unbegrenzte Edits.

  • 1.000 Min. / Monat
  • Priority Queue · schnelleres Rendering
  • Unbegrenzte Konversations-Edits
  • Persönliches API-Passthrough
  • Höhere Auflösungs-Presets
Ultra
$100/Monat

Geteilter Workspace für Teams.

  • Unbegrenzte Generierungen
  • Team-Workspace (5 Seats)
  • Brand kit & asset library
  • Priority-Support
  • Audit log & SSO
FAQ

Fragen, die ihr euch wahrscheinlich stellt.

Wenn eure nicht dabei ist, schreibt uns einfach.

01Was ist Gemini Omni genau?

Gemini Omni ist das erste Any-to-any-Modell von Google DeepMind, vorgestellt am 19. Mai 2026 auf der I/O. Ein Modell, ein Pass: es liest Text, Bilder, Audio und Video und liefert Video mit nativem Sound. Es übernimmt die Veo-Linie und absorbiert Fähigkeiten von Nano Banana (Bildbearbeitung) und Genie (interaktive Welten). Omni Studio ist unser Frontend dazu, ohne Affiliation mit Google. Wir reichen die offiziellen Gemini- und Vertex-APIs (sobald verfügbar) ohne Aufschlag durch.

02Was kann ich reingeben, was kommt raus?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03Wie funktioniert das Editieren per Konversation?

Omni wurde fürs mehrstufige Editieren trainiert und hält die Szene zwischen Edits zusammen. Nach einer Generierung schreibt ihr Sachen wie "mach das Licht wärmer" oder "tausch den Hintergrund", und das Modell rendert neu, mit konsistenten Figuren, Bewegungen und Kamerafahrten. Jeder Edit wird ein neuer Knoten in eurem Library-Tree, ihr könnt verzweigen und vergleichen.

04Was ist SynthID und warum ist es wichtig?

SynthID ist Googles unsichtbares Watermark, eingebacken in jeden Omni-Output. Für Menschen unsichtbar, aber verifizierbar über die Gemini-App, Chrome und die Google-Suche. Es übersteht Re-Encoding, Crop und Screen Recording. Provenienz ist kein Add-on: jeder Clip, den ihr hier generiert, geht signiert raus.

05Wie geht ihr mit Stimme und Gesichtern um?

Stimme-Modifikation ist zum Launch gedrosselt (Googles Entscheidung), bis eine sicherere Implementierung steht. Ihr könnt eine Sprachreferenz einreichen, aber um eure eigene Stimme als Avatar zu nutzen, müsst ihr zuerst eine kurze Zahlenfolge aufnehmen (der offizielle Deepfake-Schutz). Alle Outputs sind SynthID-watermarkiert, und die Plattform ist 18+.

06Wann kommt die API und wie wird sie bepreist?

Google said 'in the coming weeks' on May 19. Preise isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/Monat) on top. Join the API waitlist above to get keys the day it goes live.

07Kann ich jederzeit kündigen? Rückerstattung?

Ja. Kündigung direkt in den Einstellungen, ohne E-Mail, ohne Reibung. Ungenutzte Minuten werden 30 Tage übertragen. Wer innerhalb von 14 Tagen nach Zahlung kündigt, bekommt den ganzen Monat zurück, ohne Nachfragen, ohne Formular.

08Wo werden meine Daten gespeichert? Werden sie zum Training genutzt?

Prompts und Outputs liegen im Vercel Blob Storage (Standardregion EU, US optional). Wir nutzen eure Generierungen nicht fürs Training. Die zugrundeliegende Verarbeitung bei Google folgt den Gemini-API-Datenschutzbedingungen. Zero Data Retention ist in Pro und Ultra inklusive.

Macht heute noch etwas. Drei Generierungen aufs Haus.

Drei Generierungen geschenkt. Ohne Kreditkarte.