2024년 10월 2일
메타 무비 제너레이션은 메타가 개발한 획기적인 AI 모델로, 생성 AI 기술에서 중요한 진전을 나타냅니다. 이는 일반 사용자와 전문 제작자 모두가 간단한 텍스트 프롬프트를 기반으로 고품질 비디오와 오디오를 생성할 수 있도록 하여 디지털 스토리텔링과 창의적 표현을 강화하는 것을 목표로 합니다.
무비 제너레이션은 비디오 및 오디오 생성 기능을 포함하는 모델의 모음입니다. 이는 메타의 이전 연구를 바탕으로 하며, 모든 이전 모달리티를 하나의 일관된 시스템으로 통합하여 생성 프로세스에 대한 세부적인 제어를 제공합니다. 메타의 생성 AI 작업의 세 번째 물결은 미디어 생성의 경계를 확장하려는 회사의 의지를 나타냅니다.
무비 제너레이션의 비디오 생성 모듈은 텍스트 프롬프트를 기반으로 최대 16초 길이의 현실적인 비디오 클립을 생성할 수 있습니다. 또한, 하나의 사진을 사용하여 개인화된 AI 비디오를 생성할 수 있어 비디오 제작에서 새로운 수준의 사용자 맞춤화와 창의성을 제공합니다.
무비 제너레이션의 오디오 생성 모델은 환경음, 효과음 및 배경 음악을 포함하여 최대 45초 길이의 고품질 오디오를 생성할 수 있으며, 모든 내용이 비디오와 동기화됩니다. 이 기능은 시각적 내러티브에 청각적 차원을 추가하여 모델의 스토리텔링 능력을 풍부하게 합니다.
무비 제너레이션은 Transformer 아키텍처, Flow Matching 훈련 목표 및 텍스트-이미지 작업에 대한 초기 훈련 이후 텍스트-이미지 및 텍스트-비디오 작업에 대한 공동 훈련을 포함하는 다단계 훈련 프로세스를 활용합니다. 이 접근 방식은 생성된 콘텐츠가 시각적으로 매력적일 뿐만 아니라 맥락적으로도 관련성이 높고 다양성을 보장합니다.
현재 무비 제너레이션은 연구 단계에 있으며 아직 공개 사용이 가능하지 않지만, 메타는 Instagram과 같은 플랫폼에서 매력적인 콘텐츠를 만들고 공유하는 새로운 방법의 중요한 부분이 될 미래를 구상하고 있습니다. 회사는 기술을 개선하고 기존의 제한 사항을 해결하여 보다 접근 가능하고 사용자 친화적으로 만드는 데 집중하고 있습니다.
메타는 제작자 및 영화 제작자와 협력하여 무비 제너레이션의 기능을 개선하고, 다양한 사용자 기반의 요구를 충족할 수 있도록 할 계획입니다. 무비 제너레이션에 대한 회사의 장기적인 비전은 전문 아티스트와 애니메이터의 작업을 향상시키고 대체하기보다 정교한 비디오 편집 도구에 대한 접근을 민주화하는 보다 광범위한 목표를 반영하고 있습니다.