구글은 최신 AI 영상 생성 모델인 Veo 3.1을 출시하여 텍스트 및 이미지를 기반으로 현실적인 고품질 영상을 제작하는 기술을 한층 발전시켰습니다. 이 모델은 구글의 Flow 플랫폼, Gemini API, Vertex AI를 통해 개발자와 크리에이터에게 유료 미리보기 형태로 제공됩니다.

Veo 3.1은 이전 버전인 Veo 3에 비해 다음과 같은 핵심적인 개선 사항을 제공합니다.

향상된 사실성과 오디오 통합: 영상의 시각적 품질이 더욱 현실적으로 개선되었으며, 대화, 음향 효과, 주변 소음 등 영상 맥락에 완벽하게 동기화되는 풍부한 네이티브 오디오를 생성할 수 있습니다. 이는 오디오가 없었던 이전 버전의 한계를 해결한 것입니다.
정교한 제어 기능: 사용자의 프롬프트 이해도가 대폭 향상되어 의도에 맞는 결과물을 더욱 정확하게 도출합니다. 또한, 다음과 같은 새로운 창의적 제어 기능을 도입했습니다.
- Ingredients to Video: 최대 3개의 참조 이미지를 사용하여 영상 속 인물, 사물, 스타일의 일관성을 유지하며 영상을 생성할 수 있습니다. 이는 AI 영상의 오랜 숙제였던 인물 일관성 문제를 해결하는 데 중요한 역할을 합니다.
- Frame to Video: 시작 프레임과 마지막 프레임을 제공하여 그 사이의 움직임을 자연스럽게 연결하는 전환 영상을 만들 수 있습니다.
- Scene Extension (Extend): 기존 영상 클립을 확장하여 더 긴 장면을 만들 수 있으며, 이때 원본 영상의 맥락, 스타일, 오디오를 보존합니다.
- 멀티샷 및 멀티 프롬프트 기능을 통해 단일 영상 내에서 여러 장면을 처리할 수 있습니다.
- 객체 삽입 및 제거 기능(제거는 출시 예정)도 지원합니다.
확장된 길이 및 고품질 출력: 최대 60초 길이의 1080p 고화질 영상 생성을 지원하며, 16:9 또는 9:16 종횡비 옵션을 제공합니다. 또한, 빠른 생성을 위한 ‘Veo 3.1 Fast’와 고품질을 위한 ‘Veo 3.1 Quality’ 두 가지 버전으로 제공됩니다.

Veo 3.1의 이러한 발전은 영상 제작 시장에 상당한 변화를 가져올 것으로 예상됩니다. 특히, 할리우드 수준의 광고 영상을 낮은 비용으로 제작할 수 있게 하여 영상 콘텐츠 제작의 민주화를 가속화할 것입니다. 또한, ‘Ingredients to Video’ 기능을 통한 제품 PPL(Product Placement) 등 새로운 형태의 마케팅 및 스토리텔링이 가능해집니다. 구글은 Veo 3.1을 OpenAI의 Sora 2와 경쟁하는 강력한 모델로 포지셔닝하고 있으며, 물리학, 사실성 및 프롬프트 준수 측면에서 탁월한 성능을 보입니다.

을 출시하여 텍스트 및 이미지를 기반으로 현실적인 고품질 영상을 제작하는 기술을 한층 발전시켰습니다. 이 모델은 구글의 Flow 플랫폼, Gemini API, Vertex AI를 통해 개발자와 크리에이터에게 유료 미리보기 형태로 제공됩니다.

Veo 3.1은 이전 버전인 Veo 3에 비해 다음과 같은 핵심적인 개선 사항을 제공합니다.

향상된 사실성과 오디오 통합: 영상의 시각적 품질이 더욱 현실적으로 개선되었으며, 대화, 음향 효과, 주변 소음 등 영상 맥락에 완벽하게 동기화되는 풍부한 네이티브 오디오를 생성할 수 있습니다. 이는 오디오가 없었던 이전 버전의 한계를 해결한 것입니다.
정교한 제어 기능: 사용자의 프롬프트 이해도가 대폭 향상되어 의도에 맞는 결과물을 더욱 정확하게 도출합니다. 또한, 다음과 같은 새로운 창의적 제어 기능을 도입했습니다.
- Ingredients to Video: 최대 3개의 참조 이미지를 사용하여 영상 속 인물, 사물, 스타일의 일관성을 유지하며 영상을 생성할 수 있습니다. 이는 AI 영상의 오랜 숙제였던 인물 일관성 문제를 해결하는 데 중요한 역할을 합니다.
- Frame to Video: 시작 프레임과 마지막 프레임을 제공하여 그 사이의 움직임을 자연스럽게 연결하는 전환 영상을 만들 수 있습니다.
- Scene Extension (Extend): 기존 영상 클립을 확장하여 더 긴 장면을 만들 수 있으며, 이때 원본 영상의 맥락, 스타일, 오디오를 보존합니다.
- 멀티샷 및 멀티 프롬프트 기능을 통해 단일 영상 내에서 여러 장면을 처리할 수 있습니다.
- 객체 삽입 및 제거 기능(제거는 출시 예정)도 지원합니다.
확장된 길이 및 고품질 출력: 최대 60초 길이의 1080p 고화질 영상 생성을 지원하며, 16:9 또는 9:16 종횡비 옵션을 제공합니다. 또한, 빠른 생성을 위한 ‘Veo 3.1 Fast’와 고품질을 위한 ‘Veo 3.1 Quality’ 두 가지 버전으로 제공됩니다.