Omni Studio आपके हाथ में Gemini Omni देता है, Google DeepMind का मल्टीमॉडल मॉडल। टेक्स्ट, पाँच तक इमेज, एक वॉइस रेफरेंस, या वीडियो क्लिप डालिए। आपको SynthID वॉटरमार्क और साउंड के साथ वीडियो मिलता है। और आप बातचीत से उसे रिफाइन कर सकते हैं।
पहला वीडियो देखने के लिए साइन-अप की ज़रूरत नहीं।
Omni आपके वर्कफ़्लो में फ़िट हो जाता है, उल्टा नहीं।
एक इमेज से 10 सेकंड का हुक तैयार। टाइमलाइन की ज़रूरत नहीं।
फ़्रेम में टेक्स्ट रेंडर होने वाले प्रोडक्ट शॉट्स, बातचीत से नियंत्रित।
क्लेमेशन एक्सप्लेनर, साइंस विज़ुअलाइज़ेशन, हिस्ट्री विनेट।
कॉन्सेप्ट बोर्ड, पिच रील, स्टाइल ट्रांसफ़र वैरिएशन एक ही जगह।
किसी भी टाइल पर क्लिक करके रीमिक्स करें।
ये सब चीज़ें एक ही प्रॉम्प्ट में साथ रह सकती हैं।
शॉट का वर्णन कीजिए। मॉडल जो जानता है, उस पर भरोसा कीजिए।
/place a quiet forest clearing /light golden hour, warm /action a small fox approaches the camera, curious
पाँच तक की इमेज, गाइड के तौर पर।
एक वॉइस क्लिप। अपनी वॉइस इस्तेमाल करनी हो तो नंबरों की एक सीक्वेंस रिकॉर्ड कीजिए।
किसी पुराने क्लिप को रीमिक्स कीजिए। स्टाइल बदलिए, एलिमेंट हटाइए, मोशन ट्रांसफ़र कीजिए।
सिक्स-एक्सिस प्रॉम्प्ट ही सबसे बड़ी बात है। फ़्रेमिंग, लाइट, ऐक्शन डिक्लेयर करते हैं और जो स्क्रीन पर सच में दिख रहा है, उस पर इटरेट करते हैं। कॉन्सेप्ट बोर्ड का समय 80% घट गया।
फ़्रेम में टेक्स्ट रेंडर होना मेरे लिए गेम-चेंजर है। SKU के साथ प्रोडक्ट हीरो, बिना After Effects के। एजेंसी का तीन हफ़्तों का काम एक दोपहर में।
मैं हाई स्कूल में फ़िज़िक्स पढ़ाता हूँ। स्टॉप-मोशन एक्सप्लेनर बनाने में हफ़्ता लग जाता था। Omni से डायग्राम एक बार प्रॉम्प्ट करता हूँ, चैट में रिफाइन करता हूँ, क्लास के अंदर पब्लिश कर देता हूँ।
बातचीत से एडिट करना पैरामीटर ट्वीक करने से बहुत बेहतर है। "लाइट गर्म करो" काम कर जाता है, और कैरेक्टर हर कट में वही व्यक्ति रहता है।
नेटिव ऑडियो ने मुझे जीत लिया। होंठों के साथ सिंक हुई वॉइस, रूम टोन, फ़ोली, सब एक ही पास में। इस महीने पोस्ट-प्रोडक्शन का बजट दो बार बचा।
कोई भी रेफरेंस, पाँच तक एक साथ। पोस्टर से स्टाइल, क्लिप से मोशन, wav से वॉइस। Omni विरोध नहीं करता, बस काम कर देता है।
DeepMind के Omni परिवार का पहला मॉडल।
प्रॉम्प्ट से क्लिप तक, एडिट तक, एक ही स्क्रीन पर।
प्रॉम्प्ट गाइड को सीधे फ़ील्ड्स में बदला गया।
Median 23 seconds. Live status & cost.
बातचीत वाले एडिट दृश्य को एक जैसा रखते हैं।
ये नौ चीज़ें मॉडल भरोसे से बार-बार डिलीवर करता है। डेमो वाली एक-बार की चीज़ नहीं।
ऐसा टेक्स्ट जो सच में पढ़ा जा सके। लोवर थर्ड्स, पोस्टर, अल्फ़ाबेट सीक्वेंस, इन-फ़्रेम ब्रांडिंग।
पहले जेनरेट करिए, फिर बातचीत से इटरेट। हर एडिट पर सीन एक जैसा रहता है।
इमेज, वीडियो, ऑडियो, स्केच। पाँच तक इनपुट एक प्रॉम्प्ट में मिला सकते हैं।
डॉली, पुश-इन, वन-कट, ओवर-द-शोल्डर। आप शब्दों में बताइए, मॉडल वैसा करता है।
डायजेटिक साउंड, ऐम्बिएंट लेयर्स, होंठों के साथ सिंक होती वॉइस। अलग ऑडियो पास की ज़रूरत नहीं।
क्लेमेशन से वॉक्सेल आर्ट और होलोग्राम तक। मूवमेंट टिकता है, सिर्फ़ सतह बदलती है।
कंचे लुढ़कते हैं, कपड़ा गिरता है, पानी रिफ़्लेक्ट करता है। चेन रिएक्शन सच में चेन में होते हैं।
वही व्यक्ति हर कट में, हर एनवायरनमेंट में, स्टाइल बदलने पर भी। चेहरे और आउटफ़िट बरकरार।
वेरिफ़ाई किया जा सकने वाला प्रोवेनेंस। वॉटरमार्क कम्प्रेशन, क्रॉप और री-एनकोडिंग के बाद भी बना रहता है।
साफ़ बात: Omni कहाँ आगे है, कहाँ बराबर है, और किस चीज़ की कोशिश नहीं कर रहा।
| ये हम हैंOmni Studio | Google · VeoVeo 3.1 | OpenAISora 2 | RunwayGen-4 | |
|---|---|---|---|---|
| ऑन-स्क्रीन टेक्स्ट | क्लास में सबसे आगे। लोवर थर्ड्स, पोस्टर, अल्फ़ाबेट सीक्वेंस सब सही। | ठीक। छोटे कैप्शन काम करते हैं। | सीमित। लंबे टेक्स्ट पर बहक जाता है। | ठीक। ब्रांड टेक्स्ट चलेगा। |
| मल्टी-टर्न एडिटिंग | नेटिव चैट। सीन और कैरेक्टर एक जैसे रहते हैं। | मैन्युअल री-प्रॉम्प्ट। | मैन्युअल री-प्रॉम्प्ट। | मैन्युअल री-प्रॉम्प्ट। |
| नेटिव ऑडियो | वॉइस + SFX + ऐम्बिएंट एक पास में। | सीमित। सिर्फ़ SFX। | आउटपुट बिना आवाज़। | आउटपुट बिना आवाज़। |
| रेफरेंस इनपुट | इमेज, वीडियो, ऑडियो, स्केच। पाँच तक मिलाकर। | सिर्फ़ इमेज। | इमेज, छोटा क्लिप। | इमेज, मोशन ब्रश। |
| आउटपुट की लंबाई | 10 सेकंड बेस, चैट एडिट से जोड़ा जा सकता है। | 8 सेकंड। | प्लान के हिसाब से 8 से 20 सेकंड। | 10 सेकंड। |
| प्रोवेनेंस | SynthID वॉटरमार्क, वेरिफ़ाई किया जा सकने वाला। | SynthID वॉटरमार्क। | C2PA मेटाडेटा। | C2PA मेटाडेटा। |
| इनके लिए सबसे अच्छा | क्रिएटर, शिक्षक, और ब्रांड टीम जो पब्लिश के लायक वीडियो डिलीवर करती हैं। | बिल्कुल सिनेमैटिक लुक चाहने वाले फ़िल्ममेकर। | स्टोरी-ड्रिवन शॉर्ट-फ़ॉर्म। | मोशन डिज़ाइन और VFX वर्कफ़्लो। |
Google के दाम, वैसे ही पास-थ्रू। ऊपर सिर्फ़ एक फ़िक्स्ड सीट चार्ज।
महीने में 200 मिनट तक।
प्रायॉरिटी क्यू, असीमित एडिट।
टीमों के लिए शेयर्ड वर्कस्पेस।
अगर आपका सवाल यहाँ नहीं है, हमें मेसेज भेजिए।
Gemini Omni, Google DeepMind का पहला any-to-any मॉडल है, जिसे 19 मई 2026 को I/O में पेश किया गया था। एक ही मॉडल, एक ही पास में टेक्स्ट, इमेज, ऑडियो, और वीडियो पढ़कर साउंड के साथ वीडियो बनाता है। यह Veo की सीरीज़ का अगला कदम है और Nano Banana (इमेज एडिटिंग) और Genie (इंटरैक्टिव वर्ल्ड्स) की क्षमताएँ भी समेटे हुए है। Omni Studio इसका ऊपरी फ़्रंटएंड है, Google से इसका कोई संबंध नहीं। हम आधिकारिक Gemini और Vertex APIs को बिना मार्कअप के पास-थ्रू करते हैं।
At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.
Omni को मल्टी-टर्न एडिटिंग के लिए ट्रेन किया गया है, यह एडिट के बीच सीन को एक जैसा रखता है। एक जेनरेशन के बाद "लाइट गर्म कर दो" या "बैकग्राउंड बदल दो" जैसी बातें टाइप कीजिए और मॉडल कैरेक्टर, मोशन, कैमरा पाथ बरकरार रखते हुए दोबारा रेंडर करता है। हर एडिट आपके लाइब्रेरी ट्री में एक नया नोड बनता है, ब्रांच और कंपेयर आसानी से कर सकते हैं।
SynthID Google का अदृश्य वॉटरमार्क है, जो हर Omni आउटपुट में जोड़ा जाता है। इंसानी आँख से दिखाई नहीं देता, पर Gemini ऐप, Chrome, और Google Search से वेरिफ़ाई किया जा सकता है। यह री-एनकोडिंग, क्रॉपिंग और स्क्रीन रिकॉर्डिंग के बाद भी टिका रहता है। प्रोवेनेंस ऐच्छिक नहीं है, यहाँ बना हर क्लिप साइन हुआ निकलता है।
वॉइस मॉडिफ़िकेशन लॉन्च पर सीमित है (Google का फ़ैसला), जब तक एक ज़्यादा सुरक्षित इंप्लीमेंटेशन नहीं आ जाता। आप वॉइस रेफरेंस भेज सकते हैं, पर अपनी आवाज़ को अवतार के तौर पर इस्तेमाल करने के लिए पहले एक छोटी नंबर सीक्वेंस रिकॉर्ड करनी होगी (आधिकारिक डीपफ़ेक गार्ड)। सारे आउटपुट SynthID-वॉटरमार्क्ड होते हैं और प्लैटफ़ॉर्म 18+ के लिए है।
Google said 'in the coming weeks' on May 19. कीमत isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/महीना) on top. Join the API waitlist above to get keys the day it goes live.
हाँ। सेटिंग्स से कैंसल कीजिए, बिना ईमेल, बिना रुकावट। न इस्तेमाल हुए मिनट 30 दिन के लिए कैरी ओवर हो जाते हैं। अगर पेमेंट के 14 दिन के अंदर कैंसल करते हैं, तो पूरा महीना रिफ़ंड, बिना सवाल, बिना फ़ॉर्म।
प्रॉम्प्ट और आउटपुट Vercel Blob Storage पर रहते हैं (डिफ़ॉल्ट EU रीजन, US ऑप्शनल)। हम आपकी जेनरेशन ट्रेनिंग के लिए इस्तेमाल नहीं करते। Google का अंडरलाइंग प्रोसेसिंग Gemini API के डेटा टर्म्स पर चलता है। Zero Data Retention, Pro और Ultra प्लान पर उपलब्ध है।
तीन जेनरेशन हमारी तरफ़ से। कार्ड की ज़रूरत नहीं।