Gemini Omni Flash 搭載 · 2026 年 5 月 19 日

動画を生成。
あらゆる入力から、
Gemini Omni で。

Q: 入力と出力で何ができますか?

ローンチ時の入力: テキスト、最大 5 枚のリファレンス画像、音声リファレンス、動画クリップ、スケッチ。出力: 10 秒クリップ、16:9、1080p、ネイティブ オーディオ付き。画像と音声の出力は Google のロードマップに含まれており、提供開始次第こちらでも利用可能になります。

Q: API はいつ提供されますか? 料金は?

5 月 19 日に Google は「数週間以内」と表明しました。料金は未公開です。プレス予測では、動画出力 1 秒あたり $0.10〜0.30 程度とされています。当社では Google の料金を上乗せなしで提供し、シート料金 ($20〜100/月) のみを別途請求します。ローンチ初日に API キーを受け取りたい場合は、上記の API ウェイトリストにご登録ください。

Omni Studio は、Google DeepMind のマルチモーダルモデル Gemini Omni を、あなたの手元にお届けします。テキスト、最大 5 枚の画像、音声リファレンス、動画クリップを投入してください。SynthID ウォーターマーク付きの音声入り動画が返ってきます。あとは会話で仕上げるだけです。

Studio を開くギャラリーを見る

~23s レンダリング時間の中央値

10s クリップ · 16:9 · 1080p

5 画像リファレンス · 音声 1 件

SynthID すべての出力に付与

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

ご利用シーン

1 つのスタジオ。 4 通りの使い方。

Omni は、あなたのワークフローに自然に溶け込みます。

01 · クリエイター

ショートフォームクリエイター

1 枚の画像から、10 秒のフック動画へ。タイムライン編集は不要です。

02 · マーケティング

Brand & marketing

テキストを画面内に描画したプロダクトショットを、会話だけで仕上げられます。

03 · 教育

Explainers & education

クレイメーション解説、サイエンス可視化、歴史ビネット。

04 · エージェンシー

Agencies & studios

コンセプトボード、ピッチリール、スタイル転送バリエーションを一気に。

Omni で制作 · 直近 24 時間

生成のウォール。

タイルをクリックしてリミックスできます。

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

ギャラリー全体を見る →

マルチモーダル入力

お手持ちの素材を、どうぞ。自由に組み合わせてください。

これらすべてを、1 つのプロンプトに同居させられます。

01 · テキスト

自然な言葉で

ショットを記述してください。モデルがすでに知っていることを、頼りにできます。

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · 画像 × 5

リファレンス画像

最大 5 枚までガイドにできます。

03 · 音声

音声リファレンス

音声クリップを 1 件。ご自身の声を使う場合は、数字の連続を録音して本人認証を行ってください。

04 · 動画

動画クリップ

既存のクリップをリミックスできます。スタイル変更、要素差し替え、モーション転送が可能です。

ベータテスターの声

6 つの初期レビュー。 1 つの共通点。

6 軸プロンプトが効きます。フレーミング、ライト、アクションを宣言して、画面に実際に出ているものに対して反復できます。コンセプトボードの作業時間は 80% 削減できました。

Mira Tessier

クリエイティブディレクター · Foxglove Studio

画面内テキストの精度が決め手でした。SKU をフレーム内に描いたプロダクトヒーローを、After Effects を介さずに作れます。代理店の 3 週間分の作業が、午後 1 つで終わりました。

Rachel Kim

ブランドリード · Northwind

高校で物理を教えています。ストップモーションの解説は以前 1 週間かかっていました。Omni なら図を 1 回プロンプトし、チャットで詰めて、授業時間内に公開できます。

Liam Patel

Educator · Klein & Co Academy

会話による編集は、パラメータ調整よりはるかに楽です。「光を暖かくして」がそのまま通り、カットをまたいでも人物が同じままです。

Sofia Garcia

YouTube クリエイター · 登録者 48 万人

ネイティブオーディオが決め手でした。リップシンクの音声、室内のアンビエンス、フォーリーが 1 パスで揃います。今月だけで、ポストプロダクション予算が 2 回助かりました。

Ethan Brooks

インディー映像作家 · Lumen Labs

あらゆる素材を、最大 5 つ組み合わせられます。ポスターからスタイル、クリップから動き、wav から声。Omni は逆らわず、こなしてくれます。

Maya Iwasaki

ブランドデザイナー · Helio

機能

Gemini Omni にできること。

どの項目も、モデルが安定して再現できる結果です。チェリーピックの一発芸ではありません。

01 · テキスト

画面内テキストレンダリング

ちゃんと読める文字を描画します。ローワーサード、ポスター、アルファベットシーケンス、画面内ブランディング。

02 · チャット

マルチターン編集

生成後、会話で反復できます。シーンの一貫性は編集を重ねても維持されます。

03 · 入力

あらゆるリファレンス、あらゆる形式

画像、動画、音声、スケッチ。最大 5 つを 1 つのプロンプトで組み合わせられます。

04 · カメラ

カメラディレクション

ドリー、プッシュイン、ワンカット、オーバーザショルダー。言葉で指示すれば、モデルがそのまま実行します。

05 · 音声

ネイティブの声と SFX

ダイジェティックサウンド、アンビエンス、リップシンク音声。音声の別パスは不要です。

06 · スタイル

スタイルトランスファー

クレイメーションから、ボクセルアート、ホログラムまで。動きは保持され、表層だけが変わります。

07 · 動き

物理に従う動き

ビー玉は転がり、布は落ち、水は反射します。連鎖反応も、実際に連鎖します。

08 · キャラクター

キャラクターの一貫性

カットや環境、スタイル変更をまたいでも、同じ人物のまま。顔も衣装も保たれます。

09 · 出所

SynthID ウォーターマーク

検証可能な出所付き。ウォーターマークは、圧縮、トリミング、再エンコードを経ても残ります。

Omni を他と比べる

Gemini Omni と他モデルの比較。

正直なところ、Omni がリードする領域、互角の領域、目指していない領域を示します。

	私たちOmni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
画面内テキスト	クラス最高水準。ローワーサード、ポスター、アルファベットシーケンスも崩れません。	良好。短いキャプションは扱えます。	限定的。長い文字列で乱れます。	良好。ブランドテキストは及第点。
マルチターン編集	ネイティブチャット。シーンとキャラクターの一貫性が保たれます。	手動で再プロンプト。	手動で再プロンプト。	手動で再プロンプト。
ネイティブオーディオ	音声 + SFX + アンビエンスを 1 パスで。	限定的。SFX のみ。	出力は無音。	出力は無音。
参照入力	画像・動画・音声・スケッチ。最大 5 つを組み合わせ。	画像のみ。	画像と短いクリップ。	画像、モーションブラシ。
出力長さ	標準 10 秒。チャット編集でつなげられます。	8 秒。	プランに応じて 8〜20 秒。	10 秒。
出所	SynthID ウォーターマーク、検証可能。	SynthID ウォーターマーク。	C2PA メタデータ。	C2PA メタデータ。
最適な用途	公開クオリティの動画を仕上げる、クリエイター、教員、ブランドチーム向け。	純粋にシネマティックな絵を狙う映像作家向け。	ストーリー志向のショートフォーム向け。	モーションデザイン、VFX ワークフロー向け。

スナップショットです。市場は速く動くので、月次で更新します。

よくあるご質問

おそらくお聞きになるご質問。

ここにない場合は、お気軽にお問い合わせください。

01Gemini Omni とは何ですか?

Gemini Omni は、Google DeepMind が発表した初の any-to-any モデルで、2026 年 5 月 19 日の I/O で公開されました。1 つのモデル、1 回の処理で、テキスト、画像、音声、動画を理解し、ネイティブサウンドの動画を出力します。Veo の系譜を引き継ぎ、Nano Banana (画像編集) と Genie (インタラクティブワールド) の機能を吸収しています。Omni Studio はその上に構築した、Google とは無関係なフロントエンドです。Gemini と Vertex の公式 API をそのまま (利用可能になり次第) 上乗せなしで提供します。

02入力と出力で何ができますか?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03会話による編集はどう動きますか?

Omni はマルチターン編集向けに学習されており、編集を重ねてもシーンの一貫性を保ちます。生成後に「光を暖かく」「背景を変えて」のように入力すると、人物・動き・カメラパスを維持したまま再レンダリングします。各編集はライブラリツリーの新しいノードになり、分岐や比較が容易です。

04SynthID とは何ですか? なぜ重要ですか?

SynthID は Google の不可視ウォーターマークで、Omni のすべての出力に埋め込まれています。人間の目には見えませんが、Gemini アプリ、Chrome、Google 検索で検証できます。再エンコード、トリミング、画面録画にも耐性があります。出所表示は任意ではありません。本サービスで生成したクリップはすべて、署名付きで出力されます。

05音声や顔の取り扱いはどうなっていますか?

音声変更機能はローンチ時には制限がかかっています (Google の判断)。より安全な実装が整うまでの暫定対応です。音声リファレンスは投入できますが、ご自身の声をアバターとして使う場合は、まず数字の短い連続を録音いただきます (公式のディープフェイク対策)。すべての出力に SynthID ウォーターマークが付き、本プラットフォームのご利用は 18 歳以上に限定しています。

06API はいつ提供されますか? 料金は?

Google said 'in the coming weeks' on May 19. 料金 isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/月) on top. Join the API waitlist above to get keys the day it goes live.

07いつでも解約できますか? 返金は?

可能です。設定から解約できます。メール送信や面倒な手続きはありません。未使用の分数は 30 日間繰り越されます。お支払いから 14 日以内に解約された場合は、その月分を全額返金します。質問もフォーム提出も不要です。

08データはどこに保存されますか? 学習に使われますか?

プロンプトと出力は Vercel Blob Storage に保存されます (デフォルトは EU リージョン、US も選択可能)。お客様の生成物を、当社で学習に使うことはありません。Google 側の処理は Gemini API のデータ利用規約に従います。Zero Data Retention は Pro と Ultra プランでご利用いただけます。

動画を生成。
あらゆる入力から、
Gemini Omni で。

プロンプトを書いてみてください。
Omni が何をするか、ご覧ください。