구글, 멀티모달 AI 'Gemini Omni' 공개…모든 입력으로 고품질 영상 생성

구글이 새로운 멀티모달 AI ‘Gemini Omni’를 발표했습니다. 이미지, 음성, 영상, 텍스트 등 모든 입력을 조합해 고품질 영상을 생성하고, 자연어만으로 간편하게 편집할 수 있습니다.

💡 핵심 요약

Gemini Omni는 이미지, 음성, 영상, 텍스트 등 모든 종류의 입력을 받아 고품질 영상을 생성하는 멀티모달 AI입니다.
자연어 프롬프트만으로 영상 편집이 가능하며, 캐릭터 일관성, 물리 법칙 준수, 장면 흐름 기억 등 뛰어난 성능을 자랑합니다.
Gemini의 세계 지식과 결합하여 복잡한 아이디어 시각화, 설명 영상 제작 등 창의적인 활용이 가능합니다.
자신의 목소리를 활용한 디지털 아바타 기능과 전자 워터마킹 기술 SynthID를 통해 책임감 있는 AI 개발을 지향합니다.

구글이 뛰어난 추론 능력과 창의성을 겸비한 새로운 멀티모달 모델 패밀리 ‘Gemini Omni’를 발표했다. 이 모델은 모든 종류의 입력으로부터 모든 콘텐츠를 생성할 수 있다.

이미지, 음성, 영상, 텍스트를 자유롭게 조합하여 입력하면, Gemini가 가진 현실 세계의 지식을 기반으로 고품질 영상을 생성할 수 있다. 또한, 마치 대화하듯 간편하게 영상을 편집하는 것도 가능하다.

Gemini Omni 패밀리의 첫 번째 제품으로 Gemini Omni Flash가 Gemini 앱, Google Flow, 그리고 YouTube Shorts에 순차적으로 제공될 예정이다. 향후 이미지나 음성과 같은 출력 형식도 지원할 계획이다.

더불어, 몇 주 안에 API를 통해 개발자 및 기업에게도 제공을 시작할 예정이다.

말만 하면 간편하게 영상 편집

Gemini Omni는 자연어만으로 더욱 직관적인 영상 편집을 지원한다. 모든 프롬프트는 이전 문맥을 이어받기 때문에 등장 캐릭터의 외형이나 특징은 일관되게 유지되며, 물리 법칙을 위배하지 않고 장면 전체의 흐름을 기억한다.

처음부터 세상을 창조하다

특정 부분을 수정하거나 모든 것을 새롭게 만드는 것이 가능하다. 직접 촬영하기 어려웠던 영상도 촬영된 영상을 기반으로 처음부터 완전히 새로운 작품으로 탈바꿈시킬 수 있다.

260520_GeminiOmni_01JJJGqash — 프롬프트: 거품으로 예술 작품을 만들어줘.

이어지는 내용을 재구성하다

Gemini Omni를 사용하면 직접 촬영한 영상을 기반으로 ‘그곳에서 무슨 일이 일어나고 있는지’를 자유롭게 변경하거나 추가할 수 있다. 캐릭터의 움직임을 편집하거나 새로운 캐릭터 또는 객체를 추가하고, 특정 순간을 예상치 못한 전개로 변화시킬 수 있다.

260520_GeminiOmni_02wdVBQ6m2 — 프롬프트: 사람이 거울을 만지면, 거울 표면이 액체처럼 아름답게 물결치며, 그 사람의 팔은 빛을 반사하는 거울 소재로 변해간다.

상호작용하며 더 나은 작품으로

원본 장면의 맥락을 잃지 않으면서 배경 환경, 카메라 앵글, 스타일, 심지어 세부적인 디테일까지 조정할 수 있다.

Gemini의 세계 지식을 기반으로 아이디어를 현실로

Gemini Omni는 단순히 사실적인 장면을 만드는 것을 넘어 ‘다음에 무슨 일이 일어날지’를 논리적으로 추론한다. 물리 법칙에 대한 직관적인 이해와 Gemini가 가진 역사, 과학, 문화적 배경 지식을 결합하여 단순한 사진 같은 아름다움을 넘어 의미 있는 이야기를 가능하게 한다.

더욱 정확한 물리 법칙을 적용한 비주얼 생성

Gemini Omni는 중력, 운동 에너지, 유체 역학 등 물리 법칙에 대한 이해도가 향상되었다. 이를 통해 물이나 사물의 움직임이 더욱 자연스럽고 현실감 넘치는 장면을 연출할 수 있다.

지식과 창의성

Gemini Omni는 Gemini의 지식을 활용하여 단순한 패턴 매칭을 넘어 단어, 영상, 혹은 그 의미를 연결한다.

복잡한 아이디어의 시각화

짧은 프롬프트만으로도 Gemini Omni가 설득력 있는 설명 영상을 제작할 수 있다. 난해하고 복잡한 아이디어를 이해하기 쉽게 풀어낸 비주얼을 생성해 준다.

260520_GeminiOmni_03scjIlN3H — 프롬프트: 단백질 접힘을 설명하는 클레이 애니메이션. 정확한 묘사.

모든 입력을 조합하여 영상 생성

참고 자료에 대한 대응

Gemini Omni는 이미지, 텍스트, 영상, 음성 등 어떤 형식의 자료든 조합하여 하나의 영상 작품으로 만들어낸다.

260520_GeminiOmni_04xO0dkoxV — 프롬프트: image_0.png를 기반으로 한 SF 영화 스타일의 영상. audio_0.wav의 리듬에 맞춰, video_0.mp4와 같이 요소들이 빛나기 시작한다.

보유한 소재로 시작하기

입력 참고 자료 기능을 활용하면 좋아하는 캐릭터 이미지, 배경 장면, 손으로 그린 스케치 등을 활용하여 자신이 구상한 비전에 완벽하게 일치하는 작품을 만들 수 있다.

스타일, 모션, 효과 적용

입력 참고 자료를 사용하여 시각적 표현을 정의하거나, 자연스러운 언어로 설명하는 것만으로도 충분하다. Gemini Omni가 이러한 요소들을 조합하여 일관성 있는 하나의 클립을 생성한다.

디지털 아바타를 활용한 영상 제작

책임감 있는 AI 개발의 일환으로, 자신의 목소리를 사용하여 영상을 제작할 수 있는 아바타 기능을 제공한다. 이를 통해 자신의 디지털 버전을 만들고, 외모와 목소리까지 자신과 똑같은 영상을 생성할 수 있다. 단, 영상 내 음성이나 대화를 편집·변경하는 기능에 대해서는 신중한 테스트와 평가를 거치고 있다.

Gemini Omni로 생성된 모든 영상에는 전자 워터마킹 기술인 SynthID가 내장된다. 생성된 영상인지 여부는 Gemini 앱 등을 통해 쉽게 확인할 수 있다.

원문: Google、新マルチモーダルAI「Gemini Omni」発表。あらゆる入力から高品質な動画を自在に生成

구글, 멀티모달 AI ‘Gemini Omni’ 공개…모든 입력으로 고품질 영상 생성