Gemini Omni से प्रॉम्प्ट से वीडियो बनाएं

Q: इनपुट में क्या डाल सकते हैं, और आउटपुट में क्या मिलता है?

लॉन्च पर इनपुट: टेक्स्ट, पाँच तक रेफरेंस इमेज, एक वॉइस रेफरेंस, एक वीडियो क्लिप या स्केच। आउटपुट: 10 सेकंड के क्लिप, 16:9, 1080p, नेटिव ऑडियो के साथ। इमेज और ऑडियो आउटपुट Google के रोडमैप में हैं, जैसे ही आते हैं, हम जोड़ देंगे।

Q: API कब आएगी और कीमत क्या होगी?

Google ने 19 मई को कहा था "अगले कुछ हफ़्तों में"। दाम अभी सार्वजनिक नहीं हैं। प्रेस अनुमान $0.10 से $0.30 प्रति सेकंड वीडियो के आसपास हैं। हम Google के दाम बिना मार्कअप पास-थ्रू करेंगे और ऊपर सीट चार्ज ($20 से $100/महीना) लगेगा। लॉन्च के दिन कीज़ पाने के लिए ऊपर API वेटलिस्ट में नाम लिखवाइए।

Omni से बने · पिछले 24 घंटे

जेनरेशन की दीवार।

किसी भी टाइल पर क्लिक करके रीमिक्स करें।

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

पूरी गैलरी देखें →

इनपुट में मल्टीमॉडल

जो आपके पास है, ले आइए। खुलकर मिलाइए।

ये सब चीज़ें एक ही प्रॉम्प्ट में साथ रह सकती हैं।

01 · टेक्स्ट

सहज भाषा

शॉट का वर्णन कीजिए। मॉडल जो जानता है, उस पर भरोसा कीजिए।

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · इमेज × 5

रेफरेंस इमेज

पाँच तक की इमेज, गाइड के तौर पर।

03 · वॉइस

वॉइस रेफरेंस

एक वॉइस क्लिप। अपनी वॉइस इस्तेमाल करनी हो तो नंबरों की एक सीक्वेंस रिकॉर्ड कीजिए।

04 · वीडियो

वीडियो क्लिप

किसी पुराने क्लिप को रीमिक्स कीजिए। स्टाइल बदलिए, एलिमेंट हटाइए, मोशन ट्रांसफ़र कीजिए।

बीटा टेस्टर्स की राय

छह शुरुआती अनुभव। एक साझा बात।

सिक्स-एक्सिस प्रॉम्प्ट ही सबसे बड़ी बात है। फ़्रेमिंग, लाइट, ऐक्शन डिक्लेयर करते हैं और जो स्क्रीन पर सच में दिख रहा है, उस पर इटरेट करते हैं। कॉन्सेप्ट बोर्ड का समय 80% घट गया।

Mira Tessier

क्रिएटिव डायरेक्टर · Foxglove Studio

फ़्रेम में टेक्स्ट रेंडर होना मेरे लिए गेम-चेंजर है। SKU के साथ प्रोडक्ट हीरो, बिना After Effects के। एजेंसी का तीन हफ़्तों का काम एक दोपहर में।

Rachel Kim

ब्रांड लीड · Northwind

मैं हाई स्कूल में फ़िज़िक्स पढ़ाता हूँ। स्टॉप-मोशन एक्सप्लेनर बनाने में हफ़्ता लग जाता था। Omni से डायग्राम एक बार प्रॉम्प्ट करता हूँ, चैट में रिफाइन करता हूँ, क्लास के अंदर पब्लिश कर देता हूँ।

Liam Patel

Educator · Klein & Co Academy

बातचीत से एडिट करना पैरामीटर ट्वीक करने से बहुत बेहतर है। "लाइट गर्म करो" काम कर जाता है, और कैरेक्टर हर कट में वही व्यक्ति रहता है।

Sofia Garcia

YouTube क्रिएटर · 4.8 लाख सब्सक्राइबर

नेटिव ऑडियो ने मुझे जीत लिया। होंठों के साथ सिंक हुई वॉइस, रूम टोन, फ़ोली, सब एक ही पास में। इस महीने पोस्ट-प्रोडक्शन का बजट दो बार बचा।

Ethan Brooks

इंडी फ़िल्ममेकर · Lumen Labs

कोई भी रेफरेंस, पाँच तक एक साथ। पोस्टर से स्टाइल, क्लिप से मोशन, wav से वॉइस। Omni विरोध नहीं करता, बस काम कर देता है।

Maya Iwasaki

ब्रांड डिज़ाइनर · Helio

फ़ीचर्स

Gemini Omni असल में क्या करता है।

ये नौ चीज़ें मॉडल भरोसे से बार-बार डिलीवर करता है। डेमो वाली एक-बार की चीज़ नहीं।

01 · टेक्स्ट

ऑन-स्क्रीन टेक्स्ट रेंडरिंग

ऐसा टेक्स्ट जो सच में पढ़ा जा सके। लोवर थर्ड्स, पोस्टर, अल्फ़ाबेट सीक्वेंस, इन-फ़्रेम ब्रांडिंग।

02 · चैट

मल्टी-टर्न एडिटिंग

पहले जेनरेट करिए, फिर बातचीत से इटरेट। हर एडिट पर सीन एक जैसा रहता है।

03 · इनपुट

कोई भी रेफरेंस, कोई भी फ़ॉर्मैट

इमेज, वीडियो, ऑडियो, स्केच। पाँच तक इनपुट एक प्रॉम्प्ट में मिला सकते हैं।

04 · कैमरा

कैमरा डायरेक्शन

डॉली, पुश-इन, वन-कट, ओवर-द-शोल्डर। आप शब्दों में बताइए, मॉडल वैसा करता है।

05 · ऑडियो

नेटिव वॉइस और SFX

डायजेटिक साउंड, ऐम्बिएंट लेयर्स, होंठों के साथ सिंक होती वॉइस। अलग ऑडियो पास की ज़रूरत नहीं।

06 · स्टाइल

स्टाइल ट्रांसफ़र

क्लेमेशन से वॉक्सेल आर्ट और होलोग्राम तक। मूवमेंट टिकता है, सिर्फ़ सतह बदलती है।

07 · मोशन

फ़िज़िक्स के नियम

कंचे लुढ़कते हैं, कपड़ा गिरता है, पानी रिफ़्लेक्ट करता है। चेन रिएक्शन सच में चेन में होते हैं।

08 · कैरेक्टर

कैरेक्टर कंसिस्टेंसी

वही व्यक्ति हर कट में, हर एनवायरनमेंट में, स्टाइल बदलने पर भी। चेहरे और आउटफ़िट बरकरार।

09 · प्रोवेनेंस

SynthID वॉटरमार्किंग

वेरिफ़ाई किया जा सकने वाला प्रोवेनेंस। वॉटरमार्क कम्प्रेशन, क्रॉप और री-एनकोडिंग के बाद भी बना रहता है।

Omni vs बाकी

Gemini Omni बनाम बाकी मॉडल।

साफ़ बात: Omni कहाँ आगे है, कहाँ बराबर है, और किस चीज़ की कोशिश नहीं कर रहा।

	ये हम हैंOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
ऑन-स्क्रीन टेक्स्ट	क्लास में सबसे आगे। लोवर थर्ड्स, पोस्टर, अल्फ़ाबेट सीक्वेंस सब सही।	ठीक। छोटे कैप्शन काम करते हैं।	सीमित। लंबे टेक्स्ट पर बहक जाता है।	ठीक। ब्रांड टेक्स्ट चलेगा।
मल्टी-टर्न एडिटिंग	नेटिव चैट। सीन और कैरेक्टर एक जैसे रहते हैं।	मैन्युअल री-प्रॉम्प्ट।	मैन्युअल री-प्रॉम्प्ट।	मैन्युअल री-प्रॉम्प्ट।
नेटिव ऑडियो	वॉइस + SFX + ऐम्बिएंट एक पास में।	सीमित। सिर्फ़ SFX।	आउटपुट बिना आवाज़।	आउटपुट बिना आवाज़।
रेफरेंस इनपुट	इमेज, वीडियो, ऑडियो, स्केच। पाँच तक मिलाकर।	सिर्फ़ इमेज।	इमेज, छोटा क्लिप।	इमेज, मोशन ब्रश।
आउटपुट की लंबाई	10 सेकंड बेस, चैट एडिट से जोड़ा जा सकता है।	8 सेकंड।	प्लान के हिसाब से 8 से 20 सेकंड।	10 सेकंड।
प्रोवेनेंस	SynthID वॉटरमार्क, वेरिफ़ाई किया जा सकने वाला।	SynthID वॉटरमार्क।	C2PA मेटाडेटा।	C2PA मेटाडेटा।
इनके लिए सबसे अच्छा	क्रिएटर, शिक्षक, और ब्रांड टीम जो पब्लिश के लायक वीडियो डिलीवर करती हैं।	बिल्कुल सिनेमैटिक लुक चाहने वाले फ़िल्ममेकर।	स्टोरी-ड्रिवन शॉर्ट-फ़ॉर्म।	मोशन डिज़ाइन और VFX वर्कफ़्लो।

एक स्नैपशॉट। बाज़ार तेज़ी से बदलता है, हम हर महीने यह टेबल अपडेट करते हैं।

कीमत

वही प्लान, जो Gemini के हैं।
बिना किसी छुपी क़ीमत के।

Google के दाम, वैसे ही पास-थ्रू। ऊपर सिर्फ़ एक फ़िक्स्ड सीट चार्ज।

Plus

$20/महीना

महीने में 200 मिनट तक।

200 मिनट / महीना
10 सेकंड क्लिप · 1080p · ऑडियो ऑन
SynthID वॉटरमार्क
Library & templates

अनुशंसित

Pro

$30/महीना

प्रायॉरिटी क्यू, असीमित एडिट।

1,000 मिनट / महीना
प्रायॉरिटी क्यू · तेज़ रेंडर
असीमित कन्वर्सेशनल एडिट
पर्सनल API पास-थ्रू
हाई रिज़ॉल्यूशन प्रीसेट

Ultra

$100/महीना

टीमों के लिए शेयर्ड वर्कस्पेस।

असीमित जेनरेशन
टीम वर्कस्पेस (5 सीट)
Brand kit & asset library
प्रायॉरिटी सपोर्ट
Audit log & SSO

सवाल

वो सवाल जो आप शायद पूछेंगे।

अगर आपका सवाल यहाँ नहीं है, हमें मेसेज भेजिए।

01Gemini Omni आख़िर है क्या?

Gemini Omni, Google DeepMind का पहला any-to-any मॉडल है, जिसे 19 मई 2026 को I/O में पेश किया गया था। एक ही मॉडल, एक ही पास में टेक्स्ट, इमेज, ऑडियो, और वीडियो पढ़कर साउंड के साथ वीडियो बनाता है। यह Veo की सीरीज़ का अगला कदम है और Nano Banana (इमेज एडिटिंग) और Genie (इंटरैक्टिव वर्ल्ड्स) की क्षमताएँ भी समेटे हुए है। Omni Studio इसका ऊपरी फ़्रंटएंड है, Google से इसका कोई संबंध नहीं। हम आधिकारिक Gemini और Vertex APIs को बिना मार्कअप के पास-थ्रू करते हैं।

02इनपुट में क्या डाल सकते हैं, और आउटपुट में क्या मिलता है?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03कन्वर्सेशनल एडिटिंग कैसे काम करती है?

Omni को मल्टी-टर्न एडिटिंग के लिए ट्रेन किया गया है, यह एडिट के बीच सीन को एक जैसा रखता है। एक जेनरेशन के बाद "लाइट गर्म कर दो" या "बैकग्राउंड बदल दो" जैसी बातें टाइप कीजिए और मॉडल कैरेक्टर, मोशन, कैमरा पाथ बरकरार रखते हुए दोबारा रेंडर करता है। हर एडिट आपके लाइब्रेरी ट्री में एक नया नोड बनता है, ब्रांच और कंपेयर आसानी से कर सकते हैं।

04SynthID क्या है, और क्यों ज़रूरी है?

SynthID Google का अदृश्य वॉटरमार्क है, जो हर Omni आउटपुट में जोड़ा जाता है। इंसानी आँख से दिखाई नहीं देता, पर Gemini ऐप, Chrome, और Google Search से वेरिफ़ाई किया जा सकता है। यह री-एनकोडिंग, क्रॉपिंग और स्क्रीन रिकॉर्डिंग के बाद भी टिका रहता है। प्रोवेनेंस ऐच्छिक नहीं है, यहाँ बना हर क्लिप साइन हुआ निकलता है।

05आवाज़ और चेहरों को कैसे संभालते हैं?

वॉइस मॉडिफ़िकेशन लॉन्च पर सीमित है (Google का फ़ैसला), जब तक एक ज़्यादा सुरक्षित इंप्लीमेंटेशन नहीं आ जाता। आप वॉइस रेफरेंस भेज सकते हैं, पर अपनी आवाज़ को अवतार के तौर पर इस्तेमाल करने के लिए पहले एक छोटी नंबर सीक्वेंस रिकॉर्ड करनी होगी (आधिकारिक डीपफ़ेक गार्ड)। सारे आउटपुट SynthID-वॉटरमार्क्ड होते हैं और प्लैटफ़ॉर्म 18+ के लिए है।

06API कब आएगी और कीमत क्या होगी?

Google said 'in the coming weeks' on May 19. कीमत isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/महीना) on top. Join the API waitlist above to get keys the day it goes live.

07क्या मैं कभी भी कैंसल कर सकता हूँ? रिफ़ंड?

हाँ। सेटिंग्स से कैंसल कीजिए, बिना ईमेल, बिना रुकावट। न इस्तेमाल हुए मिनट 30 दिन के लिए कैरी ओवर हो जाते हैं। अगर पेमेंट के 14 दिन के अंदर कैंसल करते हैं, तो पूरा महीना रिफ़ंड, बिना सवाल, बिना फ़ॉर्म।

08मेरा डेटा कहाँ रहता है? क्या ट्रेनिंग में इस्तेमाल होता है?

प्रॉम्प्ट और आउटपुट Vercel Blob Storage पर रहते हैं (डिफ़ॉल्ट EU रीजन, US ऑप्शनल)। हम आपकी जेनरेशन ट्रेनिंग के लिए इस्तेमाल नहीं करते। Google का अंडरलाइंग प्रोसेसिंग Gemini API के डेटा टर्म्स पर चलता है। Zero Data Retention, Pro और Ultra प्लान पर उपलब्ध है।

वीडियो बनाएं
किसी भी इनपुट से,
Gemini Omni के साथ।

अपना पहला प्रॉम्प्ट लिखिए।
देखिए Omni क्या करता है।

एक स्टूडियो। चार तरह के काम।

शॉर्ट-फ़ॉर्म क्रिएटर्स

Brand & marketing

Explainers & education

Agencies & studios

जेनरेशन की दीवार।

जो आपके पास है, ले आइए। खुलकर मिलाइए।

सहज भाषा

रेफरेंस इमेज

वॉइस रेफरेंस

वीडियो क्लिप

छह शुरुआती अनुभव। एक साझा बात।

Gemini Omni Flash, नंबरों में।

तीन स्टेप। एक स्टूडियो।

छह एक्सिस पर तैयार कीजिए

रेंडर होते देखिए

बातचीत से रिफाइन कीजिए

Gemini Omni असल में क्या करता है।

ऑन-स्क्रीन टेक्स्ट रेंडरिंग

मल्टी-टर्न एडिटिंग

कोई भी रेफरेंस, कोई भी फ़ॉर्मैट

कैमरा डायरेक्शन

नेटिव वॉइस और SFX

स्टाइल ट्रांसफ़र

फ़िज़िक्स के नियम

कैरेक्टर कंसिस्टेंसी

SynthID वॉटरमार्किंग

Gemini Omni बनाम बाकी मॉडल।

वही प्लान, जो Gemini के हैं।
बिना किसी छुपी क़ीमत के।

वो सवाल जो आप शायद पूछेंगे।

आज ही कुछ बनाइए। तीन जेनरेशन हमारी तरफ़ से।

वीडियो बनाएंकिसी भी इनपुट से,Gemini Omni के साथ।

अपना पहला प्रॉम्प्ट लिखिए।देखिए Omni क्या करता है।

एक स्टूडियो। चार तरह के काम।

शॉर्ट-फ़ॉर्म क्रिएटर्स

Brand & marketing

Explainers & education

Agencies & studios

जेनरेशन की दीवार।

जो आपके पास है, ले आइए। खुलकर मिलाइए।

सहज भाषा

रेफरेंस इमेज

वॉइस रेफरेंस

वीडियो क्लिप

छह शुरुआती अनुभव। एक साझा बात।

Gemini Omni Flash, नंबरों में।

तीन स्टेप। एक स्टूडियो।

छह एक्सिस पर तैयार कीजिए

रेंडर होते देखिए

बातचीत से रिफाइन कीजिए

Gemini Omni असल में क्या करता है।

ऑन-स्क्रीन टेक्स्ट रेंडरिंग

मल्टी-टर्न एडिटिंग

कोई भी रेफरेंस, कोई भी फ़ॉर्मैट

कैमरा डायरेक्शन

नेटिव वॉइस और SFX

स्टाइल ट्रांसफ़र

फ़िज़िक्स के नियम

कैरेक्टर कंसिस्टेंसी

SynthID वॉटरमार्किंग

Gemini Omni बनाम बाकी मॉडल।

वही प्लान, जो Gemini के हैं।बिना किसी छुपी क़ीमत के।

वो सवाल जो आप शायद पूछेंगे।

आज ही कुछ बनाइए। तीन जेनरेशन हमारी तरफ़ से।

वीडियो बनाएं
किसी भी इनपुट से,
Gemini Omni के साथ।

अपना पहला प्रॉम्प्ट लिखिए।
देखिए Omni क्या करता है।

वही प्लान, जो Gemini के हैं।
बिना किसी छुपी क़ीमत के।