Gemini Omni Flash 기반 · 2026년 5월 19일

영상을 만듭니다.
어떤 입력에서든,
Gemini Omni와 함께.

Q: 입력으로 무엇을 넣을 수 있고, 무엇이 출력되나요?

런칭 시 입력: 텍스트, 최대 5장의 레퍼런스 이미지, 음성 레퍼런스, 비디오 클립, 스케치. 출력: 10초 클립, 16:9, 1080p, 네이티브 오디오 포함. 이미지와 오디오 출력은 Google의 로드맵에 포함되어 있으며, 제공 시작 시 본 서비스에도 반영됩니다.

Q: API는 언제 출시되며, 요금은 얼마인가요?

Google은 5월 19일 "앞으로 몇 주 안에" 출시한다고 발표했습니다. 가격은 아직 공개되지 않았습니다. 언론 추정치는 비디오 출력 1초당 약 $0.10에서 $0.30 사이입니다. Google의 가격을 가산금 없이 그대로 전달하고, 좌석 요금($20~100/월)을 위에 청구합니다. 출시 당일 키를 받으시려면 위의 API 대기자 명단에 등록해 주세요.

Omni Studio는 Google DeepMind의 멀티모달 모델 Gemini Omni를 여러분의 손에 직접 전달합니다. 텍스트, 최대 5장의 이미지, 음성 레퍼런스 또는 클립을 넣어 보세요. SynthID 워터마크가 있는 사운드 포함 동영상이 돌아옵니다. 그리고 대화로 자연스럽게 다듬을 수 있습니다.

Studio 열기 갤러리 보기

~23s 중간값 렌더링 시간

10s 클립 · 16:9 · 1080p

5 이미지 레퍼런스 · 음성 1

SynthID 모든 결과물에 적용

HERO · 1080p

SynthID

Edit any video through natural, step-by-step conversation

0:08

MIRROR

"…the arm turns into reflective mirror material"

0:10

CLAYMATION

"Stop motion, everything is made of clay"

0:09

FERN · HARP

SynthID

"Harp sounds synced to each touched leaf"

0:07

Omni로 제작 · 최근 24시간

생성 결과물의 벽.

타일을 클릭하면 리믹스할 수 있습니다.

ONER

"When the person touches the mirror, transforms into a detailed monochrome line art drawing"

transform · 0:08via DeepMind

ZOOM

"Make the hand-shaped hole super zoom and magnify the ground it's looking at"

reimagine · 0:10via DeepMind

SOUND

"When the finger touches the animal toy, play the sound the animal makes"

sound · 0:08via DeepMind

CLAY

"Skeuomorphism stop-motion explainer of how the brain hippocampus works"

explainer · 0:18via DeepMind

VOXEL

"When the person touches the mirror, the entire environment turns into 3D voxel art"

transform · 0:08via DeepMind

MUSIC

"The lights of the apartments start turning on in sync with the music"

reimagine · 0:08via DeepMind

TEXT

"26 items, one per alphabet letter. Lower-third labels written on paper. 9 frames per item at 24fps."

text · 0:11via DeepMind

FIELD

"Transport the violinist to the image environment, sun-drenched grassy field"

multi-turn · 0:08via DeepMind

PUPPET

"When the person touches the mirror, transforms into a felted stuffed puppet with googley eyes and glasses"

transform · 0:08via DeepMind

ANGLE

"Change the camera angle to be over the violinist's shoulder"

multi-turn · 0:08via DeepMind

HOLO

"When the person touches the mirror, transforms into a vintage monochrome 3D line-art hologram inside a holodeck"

transform · 0:08via DeepMind

TEXT

"Word by word, one at a time. Each word appears with a different animated style, in rhythm with the audio."

text · 0:09via DeepMind

전체 갤러리 보기 →

멀티모달 입력

갖고 계신 것을 그대로, 자유롭게 섞어 보세요.

이 모든 것이 하나의 프롬프트에 어우러집니다.

01 · 텍스트

자연어

장면을 설명해 주세요. 모델이 이미 알고 있는 지식에 기대시면 됩니다.

/place  a quiet forest clearing
/light  golden hour, warm
/action a small fox approaches the camera, curious

02 · 이미지 × 5

레퍼런스 이미지

최대 5장까지 가이드로 사용할 수 있습니다.

03 · 음성

음성 레퍼런스

음성 클립 한 개를 사용하실 수 있습니다. 본인 음성을 인증하시려면 숫자 시퀀스를 녹음해 주세요.

04 · 비디오

비디오 클립

기존 클립을 리믹스해 보세요. 스타일 변경, 요소 교체, 동작 이식이 가능합니다.

베타 테스터의 목소리

여섯 명의 초기 사용자. 하나의 공통점.

여섯 축 프롬프트가 진짜 변화의 핵심이었습니다. 프레이밍, 빛, 액션을 선언하고 화면에 실제로 나타난 결과 위에서 반복하니, 콘셉트 보드 작업 시간이 80% 줄었습니다.

Mira Tessier

크리에이티브 디렉터 · Foxglove Studio

화면 안에 텍스트가 정확히 렌더링되는 것이 결정적이었습니다. SKU를 프레임 안에 새긴 제품 히어로를, After Effects 없이 만들 수 있었습니다. 대행사 3주 분량의 작업이 오후 한나절로 끝났습니다.

Rachel Kim

브랜드 리드 · Northwind

고등학교에서 물리를 가르치고 있습니다. 스톱모션 익스플레이너에 일주일씩 걸리던 작업이, Omni에서는 다이어그램을 한 번 프롬프트하고 채팅으로 다듬어 수업 시간 안에 공개할 수 있습니다.

Liam Patel

Educator · Klein & Co Academy

대화로 편집하는 방식이 파라미터를 만지는 것보다 훨씬 낫습니다. "조명을 더 따뜻하게"가 그대로 작동하고, 컷이 바뀌어도 같은 인물이 유지됩니다.

Sofia Garcia

YouTube 크리에이터 · 구독자 48만명

네이티브 오디오가 결정적이었습니다. 입술 움직임에 동기화된 음성, 룸 톤, 폴리까지 한 번의 패스로 처리됩니다. 이번 달 포스트 프로덕션 예산을 두 번이나 살렸습니다.

Ethan Brooks

독립 영화 제작자 · Lumen Labs

어떤 레퍼런스든 최대 다섯 개까지 조합할 수 있습니다. 포스터에서 스타일을, 클립에서 모션을, wav에서 보이스를. Omni는 거부감 없이, 그저 일을 끝내 줍니다.

Maya Iwasaki

브랜드 디자이너 · Helio

기능

Gemini Omni가 실제로 하는 일.

모두 모델이 일관되게 결과로 보여 주는 능력입니다. 일회성 데모가 아닙니다.

01 · 텍스트

화면 내 텍스트 렌더링

실제로 읽을 수 있는 글자가 그려집니다. 로워 서드, 포스터, 알파벳 시퀀스, 프레임 내 브랜딩.

02 · 채팅

멀티턴 편집

먼저 생성하고, 그 다음 대화로 반복하세요. 편집을 거듭해도 장면의 일관성이 유지됩니다.

03 · 입력

어떤 레퍼런스든, 어떤 형식이든

이미지, 비디오, 오디오, 스케치. 최대 5개의 입력을 하나의 프롬프트에 결합할 수 있습니다.

04 · 카메라

카메라 디렉팅

달리, 푸시인, 원컷, 오버 더 숄더. 말로 설명하시면 모델이 그대로 실행합니다.

05 · 오디오

네이티브 보이스와 SFX

디제틱 사운드, 앰비언트 레이어, 입술 동작에 동기화된 음성을 한 번에. 별도의 오디오 패스가 필요 없습니다.

06 · 스타일

스타일 트랜스퍼

클레이메이션부터 복셀 아트, 홀로그램까지. 모션은 유지하고 표면만 바뀝니다.

07 · 모션

물리에 따른 움직임

구슬이 굴러가고, 천이 떨어지고, 물이 반사합니다. 연쇄 반응도 실제로 연쇄로 일어납니다.

08 · 캐릭터

캐릭터 일관성

컷이 바뀌어도, 환경이 바뀌어도, 심지어 스타일이 바뀌어도 같은 인물이 유지됩니다. 얼굴과 의상도 그대로.

09 · 출처

SynthID 워터마킹

검증 가능한 출처를 함께 제공합니다. 워터마크는 압축, 자르기, 재인코딩 후에도 유지됩니다.

Omni vs 다른 모델

Gemini Omni와 경쟁 모델.

솔직하게 정리한 비교입니다. Omni가 앞서는 영역, 비등한 영역, 의도적으로 추구하지 않는 영역을 정리했습니다.

	이것이 우리Omni Studio	Google · VeoVeo 3.1	OpenAISora 2	RunwayGen-4
화면 내 텍스트	업계 최고 수준. 로워 서드, 포스터, 알파벳 시퀀스 모두 유지됩니다.	양호. 짧은 캡션은 정상 작동.	제한적. 긴 텍스트에서 흐트러집니다.	양호. 브랜드 텍스트는 수용 가능한 수준.
멀티턴 편집	네이티브 채팅. 장면과 캐릭터 일관성 유지.	수동 재프롬프트.	수동 재프롬프트.	수동 재프롬프트.
네이티브 오디오	음성 + SFX + 앰비언트 한 번에.	제한적. SFX만 지원.	출력은 무음.	출력은 무음.
레퍼런스 입력	이미지, 비디오, 오디오, 스케치. 최대 5개 조합.	이미지만.	이미지, 짧은 클립.	이미지, 모션 브러시.
출력 길이	기본 10초, 채팅 편집으로 이어붙이기 가능.	8초.	플랜에 따라 8~20초.	10초.
출처	SynthID 워터마크, 검증 가능.	SynthID 워터마크.	C2PA 메타데이터.	C2PA 메타데이터.
최적 용도	공개 가능한 품질의 비디오를 만드는 크리에이터, 교육자, 브랜드 팀.	순수 시네마틱 룩을 추구하는 영상 작가.	스토리 중심 쇼트폼.	모션 디자인, VFX 워크플로우.

현재 시점의 스냅샷입니다. 시장이 빠르게 변하므로 매월 갱신합니다.

자주 묻는 질문

아마 물어보실 만한 질문들.

이곳에 없는 질문은 언제든 문의해 주세요.

01Gemini Omni란 정확히 무엇인가요?

Gemini Omni는 Google DeepMind의 첫 any-to-any 모델로, 2026년 5월 19일 I/O에서 공개되었습니다. 하나의 모델이 단일 패스로 텍스트, 이미지, 오디오, 비디오를 이해하고, 네이티브 사운드가 포함된 비디오를 출력합니다. Veo의 계보를 잇고, Nano Banana(이미지 편집)와 Genie(인터랙티브 월드)의 기능을 함께 흡수했습니다. Omni Studio는 그 위에 올린 비공식 프론트엔드입니다. Google과는 무관하며, 공식 Gemini와 Vertex API(공개 이후)를 가산금 없이 그대로 전달합니다.

02입력으로 무엇을 넣을 수 있고, 무엇이 출력되나요?

At launch, in: text, up to 5 reference images, a voice reference, a video clip, or sketches. Out: 10s clips, 16:9 aspect ratio, 1080p, with native audio. Image and audio outputs are on Google's roadmap and we'll surface them when they land.

03대화 편집은 어떻게 작동하나요?

Omni는 멀티턴 편집을 위해 학습되었으며, 편집을 거듭해도 장면의 일관성을 유지합니다. 생성 후 "조명을 더 따뜻하게"나 "배경을 바꿔 줘" 같은 메시지를 입력하면 캐릭터, 동작, 카메라 동선을 유지한 채 다시 렌더링합니다. 각 편집은 라이브러리 트리의 새로운 노드가 되며, 자유롭게 분기하고 비교할 수 있습니다.

04SynthID는 무엇이고, 왜 중요한가요?

SynthID는 Google의 보이지 않는 워터마크로, Omni의 모든 출력에 삽입됩니다. 사람의 눈에는 보이지 않지만 Gemini 앱, Chrome, Google 검색을 통해 검증할 수 있으며, 재인코딩, 자르기, 화면 녹화에도 살아남습니다. 출처는 선택 사항이 아닙니다. 이곳에서 생성되는 모든 클립에는 서명이 포함됩니다.

05음성과 얼굴은 어떻게 처리하나요?

음성 변환 기능은 런칭 시 일시적으로 제한됩니다(Google의 결정). 더 안전한 구현이 마련될 때까지의 조치입니다. 음성 레퍼런스를 제출하실 수 있지만, 본인 음성을 아바타로 사용하시려면 먼저 짧은 숫자 시퀀스를 녹음해야 합니다(공식적인 딥페이크 방지 절차). 모든 출력에는 SynthID 워터마크가 적용되며, 본 플랫폼은 만 18세 이상 전용입니다.

06API는 언제 출시되며, 요금은 얼마인가요?

Google said 'in the coming weeks' on May 19. 요금 isn't public yet. Press projections sit around $0.10-0.30 / sec for video output. We'll pass Google's pricing through with no markup and bill the seat ($20-100/월) on top. Join the API waitlist above to get keys the day it goes live.

07언제든 해지할 수 있나요? 환불은 가능한가요?

가능합니다. 설정에서 바로 해지하실 수 있으며, 이메일이나 별도의 절차는 필요 없습니다. 사용하지 않은 분량은 30일간 이월됩니다. 결제 후 14일 이내에 해지하시는 경우 해당 월 금액 전액을 환불해 드리며, 별도의 질문이나 양식은 요구하지 않습니다.

08데이터는 어디에 저장되며, 학습에 사용되나요?

프롬프트와 출력은 Vercel Blob Storage에 저장됩니다(기본 EU 리전, US 선택 가능). 사용자의 생성물을 학습에 사용하지 않습니다. Google 측 처리는 Gemini API의 데이터 이용 약관을 따릅니다. Zero Data Retention은 Pro와 Ultra 플랜에서 이용하실 수 있습니다.

영상을 만듭니다.
어떤 입력에서든,
Gemini Omni와 함께.

첫 프롬프트를 작성해 보세요.
Omni가 무엇을 만들어내는지 확인해 보세요.

하나의 스튜디오. 네 가지 작업 방식.

쇼트폼 크리에이터

Brand & marketing

Explainers & education

Agencies & studios

생성 결과물의 벽.

갖고 계신 것을 그대로, 자유롭게 섞어 보세요.

자연어

레퍼런스 이미지

음성 레퍼런스

비디오 클립

여섯 명의 초기 사용자. 하나의 공통점.

Gemini Omni Flash, 숫자로 보기.

세 단계. 하나의 스튜디오.

여섯 축으로 구성하세요

렌더링을 지켜보세요

대화로 다듬어 보세요

Gemini Omni가 실제로 하는 일.

화면 내 텍스트 렌더링

멀티턴 편집

어떤 레퍼런스든, 어떤 형식이든

카메라 디렉팅

네이티브 보이스와 SFX

스타일 트랜스퍼

물리에 따른 움직임

캐릭터 일관성

SynthID 워터마킹

Gemini Omni와 경쟁 모델.

Gemini와 동일한 요금제.
별도 가산금 없이.

아마 물어보실 만한 질문들.

오늘, 무언가 만들어 보세요. 3회 무료 제공.

영상을 만듭니다.어떤 입력에서든,Gemini Omni와 함께.

첫 프롬프트를 작성해 보세요.Omni가 무엇을 만들어내는지 확인해 보세요.

하나의 스튜디오. 네 가지 작업 방식.

쇼트폼 크리에이터

Brand & marketing

Explainers & education

Agencies & studios

생성 결과물의 벽.

갖고 계신 것을 그대로, 자유롭게 섞어 보세요.

자연어

레퍼런스 이미지

음성 레퍼런스

비디오 클립

여섯 명의 초기 사용자. 하나의 공통점.

Gemini Omni Flash, 숫자로 보기.

세 단계. 하나의 스튜디오.

여섯 축으로 구성하세요

렌더링을 지켜보세요

대화로 다듬어 보세요

Gemini Omni가 실제로 하는 일.

화면 내 텍스트 렌더링

멀티턴 편집

어떤 레퍼런스든, 어떤 형식이든

카메라 디렉팅

네이티브 보이스와 SFX

스타일 트랜스퍼

물리에 따른 움직임

캐릭터 일관성

SynthID 워터마킹

Gemini Omni와 경쟁 모델.

Gemini와 동일한 요금제.별도 가산금 없이.

아마 물어보실 만한 질문들.

오늘, 무언가 만들어 보세요. 3회 무료 제공.

영상을 만듭니다.
어떤 입력에서든,
Gemini Omni와 함께.

첫 프롬프트를 작성해 보세요.
Omni가 무엇을 만들어내는지 확인해 보세요.

Gemini와 동일한 요금제.
별도 가산금 없이.