구글이 '어떤 입력이든 받아들여 무엇이든 만들어낼 수 있는(create anything from any input)' 진정한 네이티브 멀티모달 모델을 공개했다.
구글은 19일(현지시간) 열린 ‘I/O 2026’에서 차세대 멀티모달 AI 모델 ‘제미나이 옴니(Gemini Omni)’를 선보였다.
지난해에는 ‘나노 바나나’를 통해 제미나이 이미지 생성과 편집 기능을 선보인 바 있다. 이후 오래된 사진 복원, 스케치 기반 디자인, 아이디어 시각화 등 다양한 활용 사례가 등장했으며, 이번에는 이를 영상 영역으로 확장한 것이다.
새롭게 공개된 제미나이 옴니는 텍스트와 이미지, 영상, 오디오를 동시에 입력으로 활용해 고품질 영상을 생성할 수 있는 것이 특징이다. “제미나이의 실제 세계 지식과 추론 능력이 창작 기능과 결합했다”라고 설명했다.
이날에는 옴니 계열 첫 모델인 ‘제미나이 옴니 플래시(Flash)’를 제미나이 앱과 구글 플로우(Flow), 유튜브 쇼츠에 적용한다고 발표했다. 앞으로 이미지와 오디오 출력까지 지원 범위를 확대할 예정이다.
제미나이 옴니의 핵심은 자연어 기반 영상 편집 기능이다. 사용자는 대화하듯 명령을 입력해 영상을 수정할 수 있으며, 이전 작업 내용을 유지한 채 편집이 가능하다. 이 과정에서 캐릭터의 외형 일관성과 장면 맥락, 물리 법칙까지 지속적으로 유지된다는 설명이다.
예를 들어, 사용자는 촬영한 영상 속 특정 사물만 변경하거나 전체 배경을 완전히 다른 세계로 변환할 수 있다. 영상 속 동작 자체를 바꾸거나 새로운 인물과 객체를 추가하는 것도 가능하다. 단순 필터 적용 수준을 넘어, 기존 촬영 영상 자체를 새로운 스토리로 재구성할 수 있는 셈이다.
여러 차례에 걸친 수정 작업에서도 원본 장면의 맥락을 유지할 수 있다. 사용자는 환경과 카메라 각도, 스타일, 세부 요소 등을 반복적으로 수정하면서도 기존 장면의 흐름을 잃지 않고 편집을 이어갈 수 있다.
구글은 제미나이 옴니가 단순히 사실적인 장면을 만드는 수준을 넘어 “무엇이 다음에 일어나야 하는지까지 추론한다”라고 강조했다. 물리학과 역사, 과학, 문화적 맥락에 대한 제미나이의 지식을 활용, 자연스럽고 의미 있는 스토리텔링을 구현한다는 설명이다.

물리 엔진 이해 능력도 강화됐다. 중력과 운동 에너지, 유체 역학 등 실제 세계 물리 법칙에 대한 직관적 이해를 기반으로 더욱 현실감 있는 장면을 생성할 수 있다.
복잡한 개념을 시각적으로 설명하는 기능도 제공한다. 짧은 프롬프트만으로도 설명형 영상을 생성해 어려운 아이디어를 시각적으로 풀어낼 수 있다. 단순 패턴 매칭이 아니라, 언어와 이미지, 의미를 연결해 창의적으로 표현한다고 설명했다.
입력 방식도 대폭 확대됐다. 사용자는 이미지와 텍스트, 영상, 음성을 참조 자료로 활용할 수 있으며, 옴니는 이를 하나의 일관된 결과물로 통합한다. 음성 입력은 초기에 사용자 목소리 참조 기능만 지원되지만, 앞으로 다른 오디오 입력 방식도 추가될 예정이다.
또 사용자가 가진 캐릭터 이미지나 장면 사진, 스케치 등을 활용해 원하는 스타일과 움직임, 효과를 영상에 반영할 수 있다. 자연어 설명만으로도 특정 비주얼 스타일을 지정할 수 있으며, 옴니는 여러 입력 자료를 조합해 통일감 있는 영상 클립을 생성한다.
사용자는 ‘아바타(Avatars)’ 기능을 활용해 자신의 목소리와 외형을 기반으로 한 디지털 아바타 영상을 생성할 수 있다. 다만 음성 변경 및 대사 편집 기능은 오용 가능성을 고려해 현재 추가 테스트를 진행 중이라고 밝혔다.
제미나이 옴니 플래시는 이날부터 전 세계 구글 AI 플러스, 프로, 울트라 구독자를 대상으로 제미나이 앱과 구글 플로우를 통해 제공된다. 또 이번 주부터 유튜브 쇼츠와 유튜브 크리에이트 앱 사용자에게 무료로 배포된다.
구글은 앞으로 몇주 내 개발자와 기업 고객을 위한 API 형태의 제공도 시작할 계획이라고 밝혔다.
박찬 기자 cpark@aitimes.com



