Make-A-Video: Text-to-Video Generation without Text-Video Data

2024. 6. 4. 11:09text-to-3D

Make-A-Video: Text-to-Video Generation without Text-Video Data

 

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

 

Abstract

저희는 최근 Text-to-Image (T2I) 생성의 엄청난 발전을 Text-to-Video (T2V)로 직접 변환하기 위한 접근 방식인 Make-A-Video를 제안합니다.

저희의 직관은 간단합니다: 짝을 이룬 text-image 데이터로부터 세상이 어떻게 보이고 어떻게 설명되는지를 배우고, unsupervised 비디오로부터 세상이 어떻게 움직이는지를 배웁니다.

Make-A-Video에는 세 가지 장점이 있습니다: (1) T2V 모델의 학습을 가속화합니다 (시각 및 멀티모달 표현을 처음부터 학습할 필요가 없음), (2) 쌍을 이루는 text-video 데이터가 필요하지 않으며, (3) 생성된 비디오는 오늘날의 이미지 생성 모델의 방대함(미학적, 환상적인 묘사 등의 다양성)을 계승합니다.

저희는 새롭고 효과적인 공간-시간 모듈을 사용하여 T2I 모델을 기반으로 구축하는 간단하면서도 효과적인 방법을 설계합니다.

첫째, 전체 시간 U-Net 및 어텐션 텐서를 분해하여 공간과 시간에서 근사화합니다.

둘째, T2V 외에도 다양한 애플리케이션을 가능하게 하는 비디오 디코더, 보간 모델 및 두 개의 초해상도 모델을 사용하여 고해상도 및 프레임률 비디오를 생성하는 공간 시간 파이프라인을 설계합니다.

모든 측면에서 공간 및 시간 해상도, 텍스트에 대한 충실성 및 품질, Make-A-Video는 정성적 및 정량적 측정을 통해 결정된 대로 text-video 생성의 새로운 SOTA 기술을 설정합니다.

 

 

1  Introduction

인터넷은 HTML 페이지 (Schuhmann et al., 2022)에서 수십억 개의 (alt-text, image) 쌍을 수집하는 데 도움이 되었으며, 이는 Text-to-Image (T2I) 모델링의 최근 혁신을 가능하게 했습니다.

그러나 비슷한 크기의 (text, video) 데이터 세트를 쉽게 수집할 수 없기 때문에 비디오에 대해 이 성공을 복제하는 것은 제한적입니다.

이미 이미지를 생성할 수 있는 모델이 존재할 때 처음부터 Text-to-Video (T2V) 모델을 학습하는 것은 낭비적입니다.

또한 비지도 학습을 통해 네트워크는 훨씬 더 많은 데이터를 학습할 수 있습니다.

이렇게 많은 양의 데이터는 세상에서 더 미묘하고 덜 일반적인 개념의 표현을 학습하는 데 중요합니다.

비지도 학습은 자연어 처리(NLP) (Liu et al., 2019a; Brown et al., 2020) 분야를 발전시키는 데 오랫동안 큰 성공을 거두었습니다.

이러한 방식으로 사전 학습된 모델은 지도학습 방식으로 단독으로 학습했을 때보다 훨씬 더 높은 성능을 제공합니다.

 

이러한 동기에서 영감을 받아 Make-A-Video를 제안합니다.

Make-A-Video는 T2I 모델을 활용하여 텍스트와 시각 세계 사이의 대응 관계를 학습하고 레이블이 지정되지 않은(짝을 이루지 않은) 비디오 데이터에 대한 비지도 학습을 사용하여 현실적인 동작을 학습합니다.

함께 Make-A-Video는 짝을 이룬 text-video 데이터를 활용하지 않고 텍스트에서 비디오를 생성합니다.

 

분명히 이미지를 설명하는 텍스트는 비디오에서 관찰되는 모든 현상을 포착하지는 못합니다.

즉, 이미지 기반 동작 인식 시스템에서와 같이 정적 이미지(예: a woman drinking coffee, an elephant kicking a football)에서 종종 동작과 이벤트를 추론할 수 있습니다.

또한 텍스트 설명이 없더라도 비지도된 비디오는 세계의 여러 개체가 어떻게 움직이고 상호 작용하는지(예: 해변에서 파도의 움직임 또는 코끼리의 코)를 학습하기에 충분합니다.

결과적으로 이미지를 설명하는 텍스트만 본 모델은 시간 디퓨전 기반 방법에서 입증된 바와 같이 짧은 비디오를 생성하는 데 놀라울 정도로 효과적입니다.

Make-A-Video는 T2V 생성에서 새로운 SOTA 기술을 설정합니다.

 

함수 보존 변환을 사용하여 모델 초기화 단계에서 공간 레이어를 확장하여 시간 정보를 포함합니다.

확장된 공간-시간 네트워크에는 비디오 모음에서 시간 세계 역학을 학습하는 새로운 어텐션 모듈이 포함됩니다.

이 절차는 이전에 학습된 T2I 네트워크에서 새로운 T2V 네트워크로 지식을 즉시 전달하여 T2V 학습 프로세스를 크게 가속화합니다.

시각적 품질을 향상시키기 위해 공간 초해상도 모델과 프레임 보간 모델을 학습합니다.

이를 통해 생성된 비디오의 해상도를 높일 수 있을 뿐만 아니라 더 높은 (제어 가능한) 프레임 속도를 구현할 수 있습니다.

 

우리의 주요 기여 내용은 다음과 같습니다:
 • 우리는 디퓨전 기반 T2I 모델을 시공간적 요인화 디퓨전 모델을 통해 T2V로 확장하는 효과적인 방법인 Make-A-Video를 소개합니다.
 • 우리는 공동 text-image priors를 활용하여 페어링된 text-video 데이터의 필요성을 우회하고, 이를 통해 잠재적으로 더 많은 양의 비디오 데이터로 확장할 수 있습니다.
 • 우리는 사용자가 제공한 텍스트 입력이 주어지면 처음으로 고화질의 프레임 속도 비디오를 생성하는 초해상도 전략을 시공간에서 제시합니다.
 • 기존 T2V 시스템에 대해 Make-A-Video를 평가하고 다음을 제시합니다: (a) SOTA 기술로 정량적, 정성적 측정, (b) T2V의 기존 문헌보다 더 철저한 평가를 받을 수 있습니다.

또한 제로샷 T2V 인체 평가를 위한 300개의 프롬프트 테스트 세트를 수집하여 발표할 예정입니다.

 

 

2  Previous work

Text-to-Image Generation.

(Reed et al., 2016)은 무조건적 Generative Adversairal Network (GAN) (Goodfellow et al., 2014)을 T2I 생성으로 확장한 첫 번째 방법 중 하나입니다.

이후 GAN 변형은 점진적 생성 (Zhang et al., 2017; Hong et al., 2018) 또는 더 나은 text-image 정렬 (Xu et al., 2018; Zhang et al., 2021)에 중점을 두었습니다.

DALL-E (Ramesh et al., 2021)의 선구적인 작업은 이산 variational auto-encoder (VQVAE)와 트랜스포머 (Vaswani et al., 2017)를 사용하여 T2I 생성을 sequence-to-sequence 변환 문제로 간주합니다.

그 이후로 추가 변형 (Ding et al., 2022)이 제안되었습니다.

예를 들어, Make-A-Scene (Gafni et al., 2022)은 시맨틱 맵을 사용하여 제어 가능한 T2I 생성을 탐색합니다.

Parti (Yu et al., 2022a)는 인코더-디코더 아키텍처와 개선된 이미지 토큰화기 (Yu et al., 2021)를 통해 보다 다양한 콘텐츠 생성을 목표로 합니다.

반면, Denoising Diffusion Probabilistic Models (DDPMs) (Ho et al., 2020)은 T2I 생성에 성공적으로 활용됩니다.

GLIDE (Nichol et al., 2021)는 캐스케이드 생성을 위해 T2I와 업샘플링 디퓨전 모델을 학습했습니다.

GLIDE가 제안한 classifier-free 가이던스는 이미지 품질과 텍스트 충실도를 향상시키기 위해 T2I 생성에 널리 채택되었습니다.

DALLE-2 (Ramesh et al., 2022)는 CLIP (Radford et al., 2021) 잠재 공간과 prior 모델을 활용합니다.

VQ-diffusion (Gu et al., 2022)과 stable diffusion (Rombach et al., 2022)은 픽셀 공간 대신 잠재 공간에서 T2I 생성을 수행하여 효율성을 향상시킵니다.

 

Text-to-Video Generation.

T2I 생성에 현저한 진전이 있지만 T2V 생성의 진전은 크게 두 가지 이유로 인해 뒤떨어지고 있습니다: 고품질 text-video 쌍이 있는 대규모 데이터 세트의 부족과 고차원 비디오 데이터 모델링의 복잡성.

초기 연구 (Mittal et al., 2017; Pan et al., 2017; Marwah et al., 2017; Li et al., 2018; Gupta et al., 2018; Liu et al., 2019b)는 주로 움직이는 숫자나 특정 인간 행동과 같은 간단한 영역의 비디오 생성에 중점을 둡니다.

우리가 아는 한, Sync-DRAW (Mittal et al., 2017)는 recurrent 어텐션으로 VAE를 활용하는 최초의 T2V 생성 접근 방식입니다.

(Pan et al., 2017) 및 (Li et al., 2018)은 GAN을 이미지 생성에서 T2V 생성으로 확장합니다.

 

보다 최근에는 GODIVA (Wu et al., 2021a)가 2D VQVAE와 희소 어텐션을 최초로 사용하고 T2V 생성에 보다 현실적인 장면을 지원합니다.

NU¨WA (Wu et al., 2021b)는 GODIVA를 확장하고 멀티태스크 학습 체계에서 다양한 생성 작업에 대한 통합 표현을 제시합니다.

T2V 생성의 성능을 더욱 향상시키기 위해 CogVideo (Hong et al., 2022)는 추가 시간 어텐션 모듈을 추가하여 동결된 CogView-2 (Ding et al., 2022) T2I 모델 위에 구축됩니다.

Video Diffusion Models (VDM) (Ho et al., 2022)은 이미지 및 비디오 데이터 공동 학습과 함께 시공간 분해 U-Net을 사용합니다.

CogVideo와 VDM이 모두 학습을 위해 10M 개의 개인 text-video 쌍을 수집했지만, 우리의 작업은 오픈 소스 데이터 세트만을 사용하여 재현이 더 쉽습니다.

 

Leveraging Image Priors for Video Generation.

모델링 비디오의 복잡성과 고품질 비디오 데이터 수집의 어려움 때문에 학습 프로세스를 단순화하기 위해 비디오에 이미지 priors를 활용하는 것을 고려하는 것은 당연합니다.

결국 이미지는 단일 프레임을 가진 비디오입니다 (Bain et al., 2021).

무조건적인 비디오 생성에서 MoCoGAN-HD (Tian et al., 2021)는 사전 학습되고 고정된 이미지 생성 모델의 잠재 공간에서 궤적을 찾는 작업으로 비디오 생성을 공식화합니다.

T2V 생성에서 NU¨WA (Wu et al., 2021b)는 파인튜닝을 위한 모델 일반화를 개선하기 위해 멀티태스크 사전 학습 단계에서 이미지와 비디오 데이터 세트를 결합합니다.

CogVideo (Hong et al., 2022)는 학습 중 메모리 사용을 줄이기 위해 소수의 학습 가능한 매개 변수만 있는 T2V 생성을 위해 사전 학습되고 고정된 T2I 모델을 사용합니다.

그러나 고정된 오토인코더 및 T2I 모델은 T2V 생성에 제한적일 수 있습니다.

VDM (Ho et al., 2022)의 아키텍처는 공동 이미지 및 비디오 생성을 가능하게 할 수 있습니다.

그러나 이들은 랜덤 비디오에서 랜덤으로 독립적인 이미지를 이미지의 소스로 샘플링하고 대규모 text-image 데이터 세트를 활용하지 않습니다.

 

Make-A-Video는 이전 작업과 몇 가지 측면에서 다릅니다.

첫째, 우리의 아키텍처는 T2V 생성을 위한 text-video 쌍에 대한 의존성을 깨뜨립니다.

이는 좁은 도메인 (Mittal et al., 2017; Gupta et al., 2018; Ge et al., 2022; Hayes et al., 2022)으로 제한되거나 대규모 쌍으로 구성된 text-video 데이터 (Hong et al., 2022; Ho et al., 2022)가 필요한 이전 작업에 비해 상당한 이점입니다.

둘째, 비디오 생성을 위해 T2I 모델을 파인튜닝하여 CogVideo (Hong et al., 2022)에서와 같이 가중치를 동결하는 것에 비해 모델 가중치를 효과적으로 조정할 수 있는 이점을 얻습니다.

셋째, 비디오 및 3D 비전 작업 (Ye et al., 2019; Qiu et al., 2017; Xie et al., 2018)을 위한 효율적인 아키텍처에 대한 이전 작업에서 영감을 받아 pseudo-3D convolution (Qiu et al., 2017) 및 시간 어텐션 레이어를 사용하면 T2I 아키텍처를 더 잘 활용할 수 있을 뿐만 아니라 VDM에 비해 더 나은 시간 정보 융합이 가능합니다.

 

 

3  Method

Make-A-Video는 세 가지 주요 구성 요소로 구성됩니다: (i) text-image 쌍에 대해 학습된 기본 T2I 모델 (섹션 3.1), (ii) 네트워크의 구성 블록을 시간적 차원으로 확장하는 시공간 컨볼루션 및 어텐션 레이어 (섹션 3.2), 및 (iii) 두 개의 시공간 레이어로 구성된 시공간 네트워크 및 T2V 생성에 필요한 또 다른 중요한 요소 - 높은 프레임 레이트 생성을 위한 프레임 보간 네트워크(섹션 3.3).

 

그림 2: Make-A-Video 고수준 아키텍처. prior P에 의해 이미지 임베딩으로 변환된 입력 텍스트 x와 원하는 프레임 레이트 fps가 주어지면 디코더 D^t는 16개의 64x64 프레임을 생성하고, 이 프레임 레이트는 ↑_F만큼 더 높은 프레임 레이트로 보간되고, 해상도는 SR_l^t만큼 256x256, SR_h만큼 768x768로 증가하여 높은 시공간 해상도의 비디오 ^y를 생성합니다.

Make-A-Video의 최종 T2V 추론 방식 (그림 2에 설명됨)은

로 공식화할 수 있으며, 여기서 ^y_t는 생성된 비디오, SR_h, SR_l은 공간 및 시공간 초해상도 네트워크(섹션 3.2), ↑_F는 프레임 보간 네트워크 (섹션 3.3), D^t는 시공간 디코더 (섹션 3.2), P는 prior (섹션 3.1), ^x는 BPE 인코딩 텍스트, C_x는 CLIP 텍스트 인코더 (Radford et al., 2021), x는 입력 텍스트입니다.

세 가지 주요 구성 요소는 다음 섹션에서 자세히 설명합니다.

 

3.1 Text-to-image model

시간적 구성 요소를 추가하기 전에 방법의 백본을 학습합니다: text-image 쌍에 대해 학습된 T2I 모델은 (Ramesh et al., 2022)의 작업과 핵심 구성 요소를 공유합니다.

 

텍스트에서 고해상도 이미지를 생성하기 위해 다음 네트워크를 사용합니다: (i) 추론 중에 주어진 텍스트 임베딩 x_e 및 BPE 인코딩된 텍스트 토큰 ^x를 생성하는 prior 네트워크 P, (ii) 이미지 임베딩 y_e를 기반으로 저해상도 64x64 RGB 이미지 ^y_l을 생성하는 디코더 네트워크 D, (iii) 생성된 이미지 ^y_l 해상도를 각각 256x256 및 768x768 픽셀로 증가시키는 두 개의 초해상도 네트워크 SR_l,SR_h를 생성하여 최종 생성된 이미지 ^y를 생성합니다.

 

3.2 Spatiotemporal layers

2차원 (2D) 조건부 네트워크를 시간적 차원으로 확장하기 위해 비디오를 생성하기 위해 공간적 차원뿐만 아니라 시간적 차원을 필요로 하는 두 가지 주요 구성 요소를 수정합니다: (i) 컨볼루션 계층(섹션 3.2.1) 및 (ii) 어텐션 레이어 (섹션 3.2.2)은 다음 두 개의 하위 섹션에서 논의됩니다.

fully connected 레이어와 같은 다른 레이어는 구조화된 공간 및 시간 정보에 구애받지 않기 때문에 추가 차원을 추가할 때 특정 처리가 필요하지 않습니다.

대부분의 U-Net 기반 디퓨전 네트워크에서 시간적인 수정이 이루어집니다: 시공간 디코더 D^t는 이제 크기 64x64, 새로 추가된 프레임 보간 네트워크 ↑_F, 16개의 RGB 프레임을 생성하고, 생성된 16개의 프레임(그림 2에 도시된 바와 같이)과 초해상도 네트워크(SR_l^t) 사이를 보간하여 유효 프레임률을 높입니다.

 

초고해상도에는 환각 정보가 포함됩니다.

깜박임 아티팩트가 없으면 환각이 프레임 간에 일관성이 있어야 합니다.

결과적으로 SR_l^t 모듈은 공간 및 시간 차원에서 작동합니다.

정성적 검사에서 프레임별 초고해상도가 훨씬 우수한 것으로 나타났습니다.

고해상도 비디오 데이터가 부족할 뿐만 아니라 메모리 및 컴퓨팅 제약으로 인해 SR_h를 시간 차원으로 확장하는 것이 어렵습니다.

따라서 SR_h는 공간 차원을 따라만 작동합니다.

그러나 프레임 간에 일관된 세부 환각을 장려하기 위해 각 프레임에 대해 동일한 노이즈 초기화를 사용합니다.

그림 3: Pseudo-3D 컨벌루션 및 어텐션 레이어의 아키텍처 및 초기화 방식은 사전 학습된 Text-to-Image 모델을 시간적 차원으로 원활하게 전환할 수 있도록 합니다. (왼쪽) 각 공간 2D 컨벌루션 레이어 다음에는 시간적 1D 컨벌루션 레이어가 뒤따릅니다. 시간적 컨볼루션 레이어는 아이덴티티 함수로 초기화됩니다. (오른쪽) 시간적 투영을 0으로 초기화함으로써 공간적 어텐션 레이어를 따라 적용되고, 결과적으로 시간적 어텐션 블록의 아이덴티티 함수가 발생합니다.

3.2.1 Pseudo--3D convolutional layers

분리 가능한 컨볼루션(Chollet, 2017)에 동기를 부여받아 그림 3과 같이 각 2D 컨볼루션(conv) 레이어를 따라 1D 컨볼루션을 스택합니다.

이를 통해 3D 컨볼루션 레이어의 무거운 계산 부하에 굴복하지 않고 공간 축과 시간 축 간의 정보 공유가 용이해집니다.

또한 사전 학습된 2D 컨볼루션 레이어와 새로 초기화된 1D 컨볼루션 레이어 사이에 구체적인 파티션을 생성하여 시간 컨볼루션을 처음부터 학습하는 동시에 이전에 학습한 공간 지식을 공간 컨볼루션의 가중치에 유지할 수 있습니다.

 

B, C, F, H, W가 각각 배치, 채널, 프레임, 높이 및 폭 차원인 입력 텐서 h ∈ R^(BxCxFxHxW)가 주어지면 Pseudo-3D 컨볼루션 레이어는

로 정의되며, 여기서 전치 연산자 ○T는 공간 차원과 시간 차원 사이를 스왑합니다.

원활한 초기화를 위해 Conv_2D 레이어는 사전 학습된 T2I 모델에서 초기화되는 반면 Conv_1D 레이어는 아이덴티티 함수로 초기화되어 학습 공간 전용 레이어에서 시공간 레이어로의 원활한 전환이 가능합니다.

초기화 시 네트워크는 각각 입력 텍스트에 충실하지만 시간 일관성이 부족한 K개의 다른 이미지(랜덤 노이즈로 인해)를 생성합니다.

 

3.2.2 Pseudo-3D attetion layers

T2I 네트워크의 중요한 구성 요소는 어텐션 레이어로, 추출된 피쳐에 대한 셀프-어텐딩 외에도 텍스트 정보가 디퓨전 시간 단계와 같은 다른 관련 정보와 함께 여러 네트워크 레이어에 주입됩니다.

3D 컨볼루션 레이어를 사용하는 것은 계산적으로 무겁지만 어텐션 레이어에 시간 차원을 추가하는 것은 메모리 소비 측면에서 완전히 실현 불가능합니다.

(Ho et al., 2022)의 작업에서 영감을 받아 차원 분해 전략을 어텐션 레이어로도 확장합니다.

각 (사전 학습된) 공간 어텐션 레이어를 따라 시간 어텐션 레이어를 쌓는데, 이는 컨볼루션 레이어와 마찬가지로 전체 시공간 어텐션 레이어에 근사합니다.

특히 입력 텐서 h가 주어지면 공간 차원을 h' ∈ R^(BxCxFxHW)로 평평하게 만드는 행렬 연산자로 flatten을 정의합니다.

unflatten은 역 행렬 연산자로 정의됩니다.

따라서 Pseudo-3D 어텐션 레이어는

으로 정의됩니다.

Conv_P3D와 유사하게 원활한 시공간 초기화를 허용하기 위해 ATTN_2D 레이어는 사전 학습된 T2I 모델에서 초기화되고 ATTN_1D 레이어는 항등 함수로 초기화됩니다.

 

인수분해 시공간 어텐션 레이어는 VDM (Ho et al., 2022)과 CogVideo (Hong et al., 2022)에도 사용되었습니다.

CogVideo는 우리가 공동으로 학습하는 동안 각 (frozen) 공간 레이어에 시간 레이어를 추가했습니다.

네트워크가 이미지와 비디오를 상호 교환하여 학습하도록 강제하기 위해 VDM은 unflattened 1x3x3 컨볼루션 필터를 통해 2D U-Net을 3D로 확장하여 후속 공간 어텐션을 2D로 유지하고 상대적 위치 임베딩을 통해 1D 시간 어텐션을 추가했습니다.

대조적으로, 시간 정보도 각 컨볼루션 레이어를 통해 전달되도록 추가 3x1x1 컨볼루션 투영(각 1x3x3 이후)을 적용합니다.

 

Frame rate conditioning.

CogVideo (Hong et al., 2022)와 유사한 T2I 조건 외에도 생성된 비디오의 초당 프레임 수를 나타내는 추가 조건화 파라미터 fps를 추가합니다.

초당 프레임 수를 달리하여 조건화하면 학습 시간에 사용 가능한 비디오의 제한된 볼륨을 해결할 수 있는 추가 증강 방법이 가능하며 추론 시간에 생성된 비디오를 추가로 제어할 수 있습니다.

 

3.3 Frame interpolation network

섹션 3.2에서 논의된 시공간 수정 외에도, 저희는 더 부드럽게 생성된 비디오를 위한 프레임 보간 또는 비디오 길이를 확장하기 위한 사전/사후 프레임 보간을 통해 생성된 비디오의 프레임 수를 늘릴 수 있는 새로운 마스크 프레임 보간 및 외삽 네트워크 ↑_F를 학습합니다.

메모리 및 계산 제약 조건 내에서 프레임 속도를 높이기 위해 마스크 입력 프레임을 제로 패딩하여 비디오 업샘플링을 가능하게 함으로써 마스크 프레임 보간 작업에 대한 시공간 디코더 D^t를 파인튜닝합니다.

마스크 프레임 보간을 파인튜닝할 때, 저희는 U-Net의 입력에 4개의 채널을 추가합니다: RGB 마스킹 비디오 입력을 위한 3개의 채널과 마스킹된 프레임을 나타내는 추가 이진 채널을 사용합니다.

저희는 추론 시간에 여러 시간적 업샘플링 속도를 가능하게 하기 위해 가변 프레임 스킵 및 fps 조건화로 파인튜닝합니다.

저희는 마스킹된 프레임 보간을 통해 주어진 비디오 텐서를 확장하는 연산자로 ↑_F를 표시합니다.

모든 실험에서 프레임 스킵 5가 포함된 ↑_F를 적용하여 16 프레임 비디오를 76 프레임(((16-1)x5+1)으로 업샘플링했습니다.

비디오 시작 부분이나 끝 부분에 프레임을 마스킹하여 비디오 외삽이나 이미지 애니메이션에도 동일한 아키텍처를 사용할 수 있습니다.

 

3.4 Training

위에서 설명한 Make-A-Video의 다른 구성 요소는 독립적으로 학습됩니다.

텍스트를 입력으로 받는 유일한 구성 요소는 prior P입니다.

저희는 쌍으로 구성된 text-image 데이터로 학습하고 비디오에서는 파인튜닝하지 않습니다.

디코더, prior 및 두 개의 초해상도 구성 요소는 먼저 이미지 단독으로 학습됩니다(정렬된 텍스트 없음).

디코더는 CLIP 이미지 임베딩을 입력으로 받고 초해상도 구성 요소는 학습 중에 다운샘플링된 이미지를 입력으로 받습니다.

이미지에 대해 학습한 후 새로운 시간 레이어를 추가하고 초기화하고 레이블이 지정되지 않은 비디오 데이터에서 파인튜닝합니다.

1에서 30 범위의 랜덤 FPS로 원본 비디오에서 16개의 프레임을 샘플링합니다.

저희는 샘플링 및 디코더 학습에 베타 함수를 사용하여 더 높은 FPS 범위(덜 움직임)에서 시작하여 더 낮은 FPS 범위(더 많은 움직임)로 전환합니다.

masked-frame-interpolation 구성 요소는 시간 디코더에서 파인튜닝됩니다.

 

 

4  Experiemnts

4.1 Datasets and Settings

Datasets.

이미지 모델을 학습하기 위해 텍스트가 영어인 (Schuhmann et al.)의 데이터 세트 2.3B 하위 집합을 사용합니다.

저희는 NSFW 이미지, 텍스트의 독성 단어 또는 워터마크 확률이 0:5보다 큰 이미지가 있는 샘플 쌍을 필터링합니다.

저희는 비디오 생성 모델을 학습하기 위해 WebVid-10M (Bain et al., 2021)과 HD-VILA-100M (Xue et al., 2022)의 10M 하위 집합을 사용합니다.

비디오(정렬 텍스트 없음)만 사용됩니다.

디코더 D^t와 보간 모델은 WebVid-10M에서 학습됩니다.

SR_l^t는 WebVid-10M과 HD-VILA-10M 모두에서 학습됩니다.

이전 작업 (Hong et al., 2022; Ho et al., 2022)에서는 T2V 생성을 위해 비공개 text-video 쌍을 수집했지만, 저희는 공개 데이터 세트(비디오의 경우 쌍을 이룬 텍스트 없음)만 사용합니다.

저희는 제로샷 설정에서 UCF-101 (Soomro et al., 2012) 및 MSR-VTT (Xu et al., 2016)에 대해 자동 평가를 수행합니다.

 

Automatic Metrics.

UCF-101의 경우 (비디오를 생성하지 않고) 각 클래스에 대해 하나의 템플릿 문장을 작성하여 평가를 위해 수정합니다.

저희는 (Ho et al., 2022) 다음에 있는 10K 샘플에 대해 Frechet Video Distance (FVD) 및 Inception Score (IS)를 보고합니다.

저희는 학습 세트와 동일한 클래스 분포를 따르는 샘플을 생성합니다.

MSR-VTT의 경우(Wu et al., 2021b)에 이어 테스트 세트의 59개; 794개 캡션이 모두 사용되는 Frechet Inception Distance (FID) (Parmar et al., 2022) 및 CLIPSIM (비디오 프레임과 텍스트 간의 평균 CLIP 유사성) (Wu et al., 2021a)을 보고합니다.

 

Human Evaluation Set and Metrics.

저희는 Amazon Mechanical Turk (AMT)에서 300개의 프롬프트로 구성된 평가 세트를 수집합니다.

저희는 주석자들에게 T2V 시스템이 있다면 무엇을 생성하는 데 관심이 있는지 물었습니다.

저희는 불완전하거나(예: "jump into water"), 너무 추상적이거나(예: "climate change") 공격적인 프롬프트를 걸러냈습니다.

그런 다음 5개 범주(animals, fantasy, people, nature and scenes, food and beverage)를 식별하고 이러한 범주에 대한 프롬프트를 선택했습니다.

이러한 프롬프트는 비디오를 생성하지 않고 선택되었으며 고정되어 있었습니다.

또한 인간 평가를 위해 Imagen (Saharia et al., 2022)의 DrawBench 프롬프트를 사용했습니다.

저희는 비디오 품질과 text-video 충실도를 평가합니다.

비디오 품질의 경우 두 개의 비디오를 랜덤 순서로 보여주고 주석자에게 어떤 비디오가 더 고품질인지 묻습니다.

충실도를 위해 텍스트를 추가로 보여주고 주석자에게 텍스트와 더 잘 일치하는 비디오를 묻습니다(품질 문제를 무시하도록 제안합니다).

또한 보간 모델과 FILM (Reda et al., 2022)의 비디오 모션 사실성을 비교하기 위해 인간 평가도 수행했습니다.

각 비교를 위해 최종 결과로 5개의 다른 주석자의 과반수 투표를 사용합니다.

 

4.2 Quantitative Results

Automatic Evaluation on MSR-VTT.

MSRVTT에 대해 보고하는 GODIVA와 NU¨WA 외에도 비교를 위해 중국어와 영어 입력으로 공식 출시된 CogVideo 모델에 대한 추론도 수행합니다.

CogVideo와 Make-A-Video의 경우 제로샷 설정에서 각 프롬프트에 대해 하나의 샘플만 생성합니다.

평가 모델이 더 높은 해상도와 프레임률을 기대하지 않기 때문에 16x256x256의 비디오만 생성합니다.

결과는 표 1에 나와 있습니다.

Make-A-Video의 제로샷 성능은 MSR-VTT로 학습된 GODIVA와 NU¨WA보다 훨씬 우수합니다.

또한 중국어와 영어 설정 모두에서 CogVideo보다 성능이 뛰어납니다.

따라서 Make-A-Video는 이전 작업보다 훨씬 더 나은 일반화 기능을 가지고 있습니다.

표 1: MSR-VTT에 대한 T2V 생성 평가. Zero-Shot은 MSR-VTT에 대한 학습이 수행되지 않음을 의미합니다. Sample/Input은 각 입력에 대해 몇 개의 샘플이 생성(및 순위)되는지를 의미합니다.

Automatic Evaluation on UCF-101.

UCF-101은 비디오 생성을 평가하는 데 널리 사용되는 벤치마크이며 최근에는 T2V 모델에 사용되고 있습니다.

CogVideo는 클래스 조건부 비디오 생성을 위해 사전 학습된 모델을 파인튜닝했습니다.

VDM (Ho et al., 2022)은 무조건적인 비디오 생성을 수행하고 UCF-101을 처음부터 학습했습니다.

저희는 두 설정 모두 이상적이지 않으며 T2V 생성 기능을 직접 평가하는 것도 아니라고 주장합니다.

또한 FVD 평가 모델은 비디오가 0.5초(16프레임)로 예상하여 실제로 비디오 생성에 사용하기에는 너무 짧습니다.

그럼에도 불구하고 이전 작업과 비교하기 위해 제로샷과 파인튜닝 설정 모두에서 UCF-101에 대한 평가를 수행했습니다.

표 2에서 볼 수 있듯이 Make-A-Video의 제로샷 성능은 이미 UCF-101에서 학습된 다른 접근 방식보다 경쟁력이 있으며 CogVideo보다 훨씬 우수하며, 이는 Make-A-Video가 이러한 특정 도메인에서도 더 잘 일반화할 수 있음을 나타냅니다.

저희의 파인튜닝 설정은 FVD를 크게 줄여 SOTA 결과를 달성하며, 이는 Make-A-Video가 이전 작업보다 더 일관된 비디오를 생성할 수 있음을 시사합니다.

표 2: UCF-101에서 제로샷 및 파인튜닝 설정 모두에 대한 비디오 생성 평가.
표 3: DrawBench 및 테스트 세트의 CogVideo (Hong et al., 2022)와 웹사이트의 28개 예제에서 VDM (Ho et al., 2022)과 비교한 인간 평가 결과입니다. 해당 수치는 Make-A-Video 모델의 결과를 선호하는 평가자의 비율을 보여줍니다.

Human Evaluaion.

저희는 DrawBench의 CogVideo (유일한 공개 제로샷 T2V 생성 모델)와 테스트 세트를 비교합니다. 

저희는 또한 VDM (Ho et al., 2022) 웹 페이지에 표시된 28개의 비디오를 평가합니다(모델의 강점을 보여주는 데 편향될 수 있음).

이 테스트 세트는 매우 작기 때문에 각 입력에 대해 8개의 비디오를 랜덤으로 생성하고 8회 평가를 수행하고 평균 결과를 보고합니다.

저희는 인간 평가를 위해 76x256x256 해상도로 비디오를 생성합니다.

결과는 표 3에 나와 있습니다.

Make-A-Video는 모든 벤치마크 및 비교에서 비디오 품질과 text-video 충실도에서 훨씬 더 나은 성능을 달성합니다.

CogVideo의 경우 DrawBench와 평가 세트에서 결과가 유사합니다.

VDM의 경우 체리 피킹 없이 훨씬 더 나은 결과를 달성했다는 점에 주목할 필요가 있습니다.

저희는 또한 FILM (Reda et al., 2022)과 비교하여 프레임 보간 네트워크를 평가합니다.

저희는 먼저 DrawBench와 평가 세트의 텍스트 프롬프트에서 낮은 프레임률 비디오(1FPS)를 생성한 다음 각 방법을 사용하여 4FPS로 업샘플링합니다.

평가자는 평가 세트에서 62%의 시간과 DrawBench에서 54%의 시간 동안 더 현실적인 움직임을 위해 저희의 방법을 선택합니다.

저희는 물체가 어떻게 이동하는지에 대한 실제 지식이 있는 프레임 간에 큰 차이가 있을 때 저희의 방법이 더 뛰어나다는 것을 관찰했습니다.

그림 1: T2V 생성 예. 우리 모델은 다양한 시각적 개념 세트에 대해 일관된 움직임을 가진 고품질 비디오를 생성할 수 있습니다. 예 (a)에서, 개를 위한 크고 사실적인 움직임이 있습니다. 예 (b)에서, 책은 거의 정적이지만 장면은 카메라 움직임에 따라 바뀝니다.
그림 4: 다양한 비교 및 적용을 위한 정성적 결과.

4.3 Qualitative Results

Make-A-Video 생성의 예는 그림 1에 나와 있습니다.

이 섹션에서는 CogVideo (Hong et al., 2022) 및 VDM (Ho et al., 2022)과의 T2V 생성 비교와 FILM (Reda et al., 2022)과의 비디오 보간 비교를 보여줍니다.

또한 모델은 이미지 애니메이션, 비디오 변형 등과 같은 다양한 다른 작업에 사용할 수 있습니다.

공간 제약으로 인해 각각의 단일 예만 보여줍니다.

그림 4(a)는 Make-A-Video를 CogVideo 및 VDM과의 비교를 보여줍니다.

Make-A-Video는 모션 일관성과 텍스트 대응으로 더 풍부한 콘텐츠를 생성할 수 있습니다.

그림 4(b)는 이미지에 마스크 프레임 보간 및 외삽 네트워크 ↑_F를 조건화하고 나머지 비디오를 외삽하기 위해 CLIP 이미지 임베딩을 조건화하는 이미지 애니메이션의 예를 보여줍니다.

를 통해 사용자는 자신의 이미지를 사용하여 비디오를 생성할 수 있습니다 – 생성된 비디오를 개인화하고 직접 제어할 수 있는 기회를 제공합니다.

그림 4(c)는 두 이미지 간의 보간 작업에 대해 FILM (Reda et al., 2022)에 대한 접근 방식을 비교한 것입니다.

저희는 두 이미지를 시작 프레임과 끝 프레임으로 하고 생성을 위해 그 사이에 14개의 프레임을 마스킹하는 보간 모델을 사용하여 이를 달성합니다.

저희 모델은 의미론적으로 더 의미 있는 보간을 생성하는 반면 FILM은 무엇이 움직이고 있는지에 대한 시맨틱 실제 이해 없이 프레임 간에 주로 원활하게 전환하는 것으로 보입니다.

그림 4(d)는 비디오 변형의 예를 보여줍니다.

저희는 시맨틱적으로 유사한 비디오를 생성하기 위한 조건으로 비디오에서 모든 프레임의 평균 CLIP 임베딩을 사용합니다.

 

 

5  Discussion

우리 주변의 세계에서 배우는 것은 인간 지능의 가장 큰 강점 중 하나입니다.

관찰을 통해 사람, 장소, 사물 및 행동을 인식하는 법을 빠르게 배우는 것처럼 생성 시스템도 인간이 학습하는 방식을 모방할 수 있다면 더 창의적이고 유용할 것입니다.

비지도 학습을 사용하여 더 많은 비디오에서 세계 역학을 학습하는 것은 연구자들이 레이블이 지정된 데이터에 대한 의존에서 벗어나는 데 도움이 됩니다.

제시된 연구는 레이블이 지정된 이미지와 레이블이 지정되지 않은 비디오를 효과적으로 결합하여 어떻게 달성할 수 있는지 보여주었습니다.

 

다음 단계로 우리는 몇 가지 기술적 한계를 해결할 계획입니다.

앞서 논의한 바와 같이, 우리의 접근 방식은 비디오에서만 추론할 수 있는 텍스트와 현상 사이의 연관성을 배울 수 없습니다.

더 자세한 이야기를 묘사하는 여러 장면과 이벤트와 함께 더 긴 비디오를 생성하는 방법과 함께 이것들을 통합하는 방법(예: 왼쪽에서 오른쪽으로 또는 오른쪽에서 왼쪽으로 손을 흔드는 사람의 비디오 생성)은 향후 작업으로 남겨집니다.

 

웹의 데이터에 대해 학습된 모든 대규모 모델과 마찬가지로, 우리 모델은 해로운 것을 포함하여 사회적 편견을 학습하고 과장되었을 가능성이 있습니다.

우리의 T2I 생성 모델은 NSFW 내용과 독성 단어를 제거한 데이터에 대해 학습되었습니다.

우리의 모든 데이터(비디오뿐만 아니라 이미지)를 공개적으로 사용할 수 있어 모델에 투명성을 추가하고 커뮤니티가 우리의 작업을 재현할 수 있습니다.