2025. 3. 17. 11:21ㆍDiffusion
Generative Image Dynamics
Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
Abstract
우리는 장면 움직임에 대한 이미지 공간 prior 모델링 접근 방식을 제시합니다.
우리의 prior는 바람에 흔들리는 나무, 꽃, 양초, 옷과 같은 물체의 자연스럽고 진동하는 역학을 묘사한 실제 비디오 시퀀스에서 추출한 일련의 움직임 궤적에서 학습됩니다.
우리는 푸리에 영역에서 밀도가 높고 장기적인 모션을 스펙트럼 부피로 모델링하며, 이는 디퓨전 모델을 사용한 예측에 적합하다는 것을 발견했습니다.
단일 이미지가 주어졌을 때, 우리의 학습된 모델은 주파수 조정 디퓨전 샘플링 과정을 사용하여 스펙트럼 볼륨을 예측하며, 이는 전체 비디오를 아우르는 모션 텍스처로 변환될 수 있습니다.
이미지 기반 렌더링 모듈과 함께 예측된 모션 표현은 정지 이미지를 매끄럽게 반복되는 동영상으로 변환하거나, 사용자가 실제 이미지의 객체와 상호작용하여 현실적인 시뮬레이션 동역학을 생성하는 등 다양한 다운스트림 애플리케이션에 사용할 수 있습니다 (스펙트럼 볼륨을 이미지 공간 모달 베이스로 해석하여).
1. Introduction
자연 세계는 항상 움직이고 있으며, 바람, 해류, 호흡 또는 기타 자연 리듬으로 인해 미세한 진동을 포함하는 겉보기에는 정적인 장면도 있습니다.
이 동작을 모방하는 것은 시각적 콘텐츠 합성에 매우 중요합니다—인간의 움직임에 대한 민감성은 움직임이 없는 이미지(또는 약간 비현실적인 움직임이 있는 이미지)를 이상하게 보이거나 비현실적으로 보이게 할 수 있습니다.
인간이 장면에서 동작을 해석하거나 상상하는 것은 쉽지만, 현실적인 장면 동작을 학습하거나 생성하기 위해 모델을 학습하는 것은 결코 쉬운 일이 아닙니다.
우리가 세상에서 관찰하는 움직임은 장면의 근본적인 물리적 역학, 즉 측정하고 포착하기 어려운 고유한 물리적 특성—질량, 탄성 등—에 따라 반응하는 물체에 가해지는 힘의 결과입니다.
다행히도 특정 응용 분야에서는 측정이 필요하지 않습니다: 예를 들어, 관찰된 2D 움직임을 분석하기만 하면 장면에서 그럴듯한 역학을 시뮬레이션할 수 있습니다 [23].
이 동일한 관찰된 움직임은 장면 간의 역학 학습에서 supervisory 신호로도 사용될 수 있습니다—관측된 모션은 멀티모달이고 복잡한 물리적 효과에 기반하고 있지만, 그럼에도 불구하고 종종 예측할 수 있기 때문입니다: 양초는 특정한 방식으로 깜빡이고, 나무는 흔들리고, 나뭇잎은 바스락거릴 것입니다.
인간에게 이러한 예측 가능성은 우리의 지각 체계에 깊이 뿌리내리고 있습니다: 정지 이미지를 보면 그럴듯한 모션을 상상할 수 있습니다 — 또는 가능한 많은 움직임이 있었을 수 있으므로 해당 이미지를 기반으로 자연스러운 모션의 분포가 필요합니다.
인간이 이러한 분포를 모델링할 수 있는 시설을 고려할 때, 자연스러운 연구 문제는 이를 계산적으로 모델링하는 것입니다.
최근 생성 모델, 특히 조건부 디퓨전 모델 [44, 84, 86]의 발전으로 텍스트를 조건으로 한 실제 이미지의 분포를 포함한 풍부한 분포를 모델링할 수 있게 되었습니다 [72-74].
이 기능은 텍스트 조건부 다양하고 사실적인 이미지 콘텐츠 생성과 같은 여러 새로운 애플리케이션을 가능하게 했습니다.
이러한 이미지 모델의 성공 이후, 최근 연구는 비디오 [7, 43] 및 3D 지오메트리 [76, 99, 100, 102]와 같은 다른 분야로 이러한 모델을 확장했습니다.
이 논문에서는 이미지 공간 장면의 모션, 즉 단일 이미지 내 모든 픽셀의 모션에 대한 생성적 prior를 모델링합니다.
이 모델은 실제 비디오 시퀀스의 대규모 컬렉션에서 자동으로 추출된 모션 궤적에 대해 학습됩니다.
특히, 각 학습 비디오에서 우리는 밀집된 장거리 픽셀 궤적의 주파수 영역 표현인 스펙트럼 볼륨 [22, 23]의 형태로 모션을 계산합니다.
스펙트럼 볼륨은 바람에 움직이는 나무와 꽃과 같이 진동 역학을 나타내는 장면에 적합합니다.
우리는 이 표현이 장면 동작을 모델링하기 위한 디퓨전 모델의 출력으로도 매우 효과적이라는 것을 발견했습니다.
우리는 단일 이미지를 조건으로 학습된 분포에서 스펙트럼 볼륨을 샘플링할 수 있는 생성 모델을 학습시킵니다.
예측된 스펙트럼 볼륨은 이미지를 애니메이션화하는 데 사용할 수 있는 모션 텍스처—픽셀당 장거리 모션 궤적 세트—로 직접 변환할 수 있습니다.
스펙트럼 볼륨은 상호작용 역학 시뮬레이션에 사용하기 위한 이미지 공간 모달 basis로도 해석될 수 있습니다 [22].
우리는 한 번에 하나의 주파수로 계수를 생성하는 디퓨전 모델을 사용하여 입력 이미지에서 스펙트럼 볼륨을 예측하지만, 이러한 예측을 주파수 대역 간에 공유 어텐션 모듈을 통해 조정합니다.
예측된 모션은 미래 프레임을 합성하는 데 사용할 수 있습니다 (이미지 기반 렌더링 모델을 통해)—그림 1에 표시된 것처럼 정지 이미지를 현실적인 애니메이션으로 변환하기.
raw RGB 픽셀에 대한 이전 데이터와 비교했을 때, 모션에 대한 이전 데이터는 픽셀 값의 장거리 변동을 효율적으로 설명하는 더 기본적이고 저차원적인 구조를 포착합니다.
따라서 중간 모션을 생성하면 애니메이션에 대한 보다 일관된 장기 생성과 세밀한 제어가 가능해집니다.
우리는 학습된 모델을 여러 다운스트림 애플리케이션에서 사용하는 것을 시연합니다, 예를 들어, 매끄러운 루프 비디오 생성, 생성된 동작 편집, 이미지 공간 모달 베이스를 통한 인터랙티브 동적 이미지 구현 등이 있습니다, 즉, 사용자가 가하는 힘에 대한 객체 역학의 반응을 시뮬레이션하는 것입니다 [22].
2. Related Work
Generative synthesis.
최근 생성 모델의 발전으로 텍스트 프롬프트를 기반으로 한 이미지의 사진사실적인 합성이 가능해졌습니다 [16, 17, 24, 72–74].
이러한 text-to-image 모델은 생성된 이미지 텐서를 시간 차원 [7, 9, 43, 62, 83, 105, 105, 110]을 따라 확장하여 비디오 시퀀스를 합성하도록 증강할 수 있습니다.
이러한 방법은 실제 영상의 시공간 통계를 캡처하는 비디오 시퀀스를 생성할 수 있지만, 이러한 비디오는 종종 일관성 없는 모션, 비현실적인 텍스처의 시간적 변화, 질량 보존과 같은 물리적 제약 위반과 같은 아티팩트로 인해 어려움을 겪습니다.
Animating images.
텍스트만으로 동영상을 생성하는 대신, 다른 기술들은 정지된 사진을 입력으로 받아 애니메이션화합니다.
최근의 많은 딥러닝 방법들은 비디오 볼륨을 직접 생성하기 위해 3D-Unet 아키텍처를 채택하고 있습니다 [27, 36, 40, 47, 53, 92].
이 모델들은 사실상 동일한 비디오 생성 모델 (텍스트 대신 이미지 정보를 조건으로 함)이며, 위에서 언급한 것들과 유사한 아티팩트를 나타냅니다.
이러한 한계를 극복하는 한 가지 방법은 비디오 콘텐츠 자체를 직접 생성하지 않고 이미지 기반 렌더링을 통해 입력 소스 이미지를 애니메이션화하는 것입니다, 즉, 구동 비디오 [51, 79–81, 98], 모션 또는 3D 지오메트리 prios [8, 29, 46, 63, 64, 66, 89, 96, 100, 101, 103, 108] 또는 사용자 주석 [6, 18, 20, 33, 38, 97, 104, 107]과 같은 외부 소스에서 파생된 모션에 따라 이미지 콘텐츠를 이동시키는 것입니다.
모션 필드에 따라 이미지를 애니메이션화하면 더 큰 시간적 일관성과 사실감을 얻을 수 있지만, 이러한 prior 방법들은 추가적인 가이던스 신호나 사용자 입력이 필요하거나 제한된 모션 표현을 사용합니다.
Motion models and motion priors.
컴퓨터 그래픽스에서 자연스럽고 진동하는 3D 모션 (예: 물살이나 바람에 흔들리는 나무)은 푸리에 영역에서 형성된 노이즈로 모델링한 다음 시간 영역 모션 필드 [78, 87]로 변환할 수 있습니다.
이러한 방법 중 일부는 시뮬레이션 중인 시스템의 기본 역학에 대한 모달 분석에 의존합니다 [22, 25, 88].
이러한 스펙트럼 기법은 Chuang et al. [20]의 사용자 주석을 바탕으로 단일 2D 사진에서 식물, 물, 구름을 애니메이션화하는 데 적용되었습니다.
우리의 연구는 특히 Davis [23]에게서 영감을 받았습니다, 그는 장면의 모달 분석과 그 장면의 비디오에서 관찰된 모션을 연결하고, 이 분석을 사용하여 비디오에서 상호작용 역학을 시뮬레이션했습니다.
우리는 Davis et al.의 주파수 공간 스펙트럼 볼륨 모션 표현을 채택하고, 대규모 학습 비디오 세트에서 이 표현을 추출하여 스펙트럼 볼륨이 디퓨전 모델을 사용하여 단일 이미지에서 모션을 예측하는 데 적합하다는 것을 보여줍니다.
다른 방법들은 예측 작업에서 다양한 모션 표현을 사용해 왔습니다, 여기서 이미지나 비디오는 결정론적인 미래 모션 추정치 [34, 70] 또는 가능한 모션의 더 풍부한 분포 [93, 95, 103]를 알려주는 데 사용됩니다.
그러나 이러한 방법들 중 많은 것들은 전체 모션 궤적이 아닌 광학적 플로우 모션 추정치 (즉, 각 픽셀의 순간 모션)를 예측합니다.
또한, 이 이전 연구의 대부분은 합성 작업이 아닌 활동 인식과 같은 작업에 초점을 맞추고 있습니다.
최근 연구에서는 인간과 동물과 같은 여러 폐쇄 도메인 환경에서 생성 모델을 사용하여 모션을 모델링하고 예측하는 것의 장점을 입증했습니다 [2, 19, 28, 71, 90, 106].
Videos as textures.
특정 움직이는 장면은 비디오를 확률적 과정의 시공간 샘플로 모델링하는 일종의 텍스처—동적 텍스처 [26]라고 함—로 생각할 수 있습니다.
동적 텍스처는 파도, 불꽃, 움직이는 나무와 같은 부드럽고 자연스러운 모션을 나타낼 수 있으며, 비디오 분류, 세그멘테이션 또는 인코딩에 널리 사용되어 왔습니다 [12–15, 75].
관련된 종류의 텍스처를 비디오 텍스처라고 하며, 이는 입력 비디오 프레임의 집합으로 움직이는 장면과 프레임 쌍 간의 전이 확률을 나타냅니다 [65, 77].
다양한 방법들은 장면 모션과 픽셀 통계 분석을 통해 동적 또는 비디오 텍스처를 추정하며, 매끄럽게 반복되거나 무한히 변화하는 출력 비디오를 생성하는 것을 목표로 합니다 [1, 21, 32, 58, 59, 77].
이 연구의 대부분과 달리, 우리의 방법은 priors를 학습해 단일 이미지에 적용할 수 있습니다.
3. Overview
하나의 그림 I_0이 주어졌을 때, 우리의 목표는 나무, 꽃, 또는 바람에 흔들리는 촛불 불꽃과 같은 진동 모션을 특징으로 하는 {^I_1, ^I_2, ..., ^I_T} 비디오를 생성하는 것입니다.
우리 시스템은 두 개의 모듈로 구성되어 있습니다: 모션 예측 모듈과 이미지 기반 렌더링 모듈.
우리의 파이프라인은 latent diffusion model (LDM)을 사용하여 입력 I_0에 대한 스펙트럼 볼륨 S = (S_f_0, S_f_1, ..., S_f_(K-1))을 예측하는 것으로 시작됩니다.
예측된 스펙트럼 볼륨은 인버스 이산 푸리에 변환을 통해 모션 텍스처 F = (F_1, F_2, ..., F_T)로 변환됩니다.
이 모션은 향후 모든 시간 단계에서 각 입력 픽셀의 위치를 결정합니다.
예측된 모션 텍스처가 주어지면, 우리는 신경 이미지 기반 렌더링 기법 (섹션 5)을 사용하여 입력 RGB 이미지를 애니메이션화합니다.
우리는 섹션 6에서 매끄러운 루프 애니메이션 제작과 인터랙티브 다이내믹스 시뮬레이션을 포함한 이 방법의 응용 사례를 탐구합니다.
4. Predicting motion
4.1. Motion representation
형식적으로, 모션 텍스처는 시간 varying 2D 변위 맵 F = {F_t|t = 1, ..., T}의 시퀀스로, 입력 이미지 I_0의 각 픽셀 좌표 p에서 2D 변위 벡터 F_t(p)가 미래 시간 t에서 해당 픽셀의 위치를 정의합니다 [20].
시간 t에서 미래 프레임을 생성하려면 해당 변위 맵 D_t를 사용하여 I_0에서 픽셀을 분리하여 전방으로 왜곡된 이미지 I'_t를 생성할 수 있습니다:
우리의 목표가 모션 텍스처를 통해 비디오를 제작하는 것이라면, 입력 이미지에서 직접 시간 영역 모션 텍스처를 예측하는 것이 한 가지 선택이 될 것입니다.
그러나 모션 텍스처의 크기는 동영상의 길이에 따라 조정해야 합니다: T 출력 프레임을 생성하는 것은 T 변위 필드를 예측하는 것을 의미합니다.
긴 비디오에 대해 이렇게 큰 출력 표현을 예측하지 않기 위해, 많은 이전 애니메이션 방법들은 비디오 프레임을 자동 회귀적으로 생성하거나 [7, 29, 57, 60, 92] 추가 시간 임베딩을 통해 각 미래 출력 프레임을 독립적으로 예측합니다 [4].
그러나 생성된 비디오의 장기적인 시간적 일관성을 보장하는 전략은 없습니다.
다행히도 많은 자연스러운 모션은 서로 다른 주파수, 진폭 및 위상을 가진 소수의 조화 진동자가 중첩된 것으로 설명할 수 있습니다 [20, 23, 25, 50, 68].
이러한 기본 모션은 준주기적이기 때문에 주파수 영역에서 모델링하는 것이 자연스럽습니다.
따라서 우리는 그림 3에 시각화된 스펙트럼 볼륨이라는 비디오에서 모션의 효율적인 주파수 공간 표현을 Davis et al. [23]에서 채택했습니다.
스펙트럼 볼륨은 비디오에서 추출한 픽셀당 궤적의 시간적 푸리에 변환입니다.
이 모션 표현이 주어지면, 우리는 모션 예측 문제를 멀티모달 image-to-image 변환 작업으로 공식화합니다: 입력 이미지에서 출력 모션 스펙트럼 볼륨으로.
latent diffusion models (LDM)을 채택하여 4K 채널 2D 모션 스펙트럼 맵으로 구성된 스펙트럼 볼륨을 생성합니다, 여기서 K << T는 모델링된 주파수의 수입니다, 각 주파수에서 x 및 y 차원의 복소수 푸리에 계수를 나타내기 위해 네 개의 스칼라가 필요합니다.
향후 시간 단계 F(p) = {F_t(p) | t = 1, 2, ..., T}에서의 픽셀의 운동 궤적과 스펙트럼 볼륨 S(p) = {S_f_k(p) | k = 0, 1, ... T/2 - 1}로의 표현은 Fast Fourier transform (FFT)에 의해 관련되어 있습니다:
K 출력 주파수를 어떻게 선택해야 하나요?
실시간 애니메이션의 이전 연구에서는 대부분의 자연 진동 동작이 주로 저주파 성분으로 구성된다는 것을 관찰했습니다 [25, 68].
이 관찰을 검증하기 위해, 우리는 랜덤으로 샘플링된 1,000개의 5초 실제 비디오 클립에서 추출된 모션의 평균 전력 스펙트럼을 계산했습니다.
그림 2의 왼쪽 그래프에서 볼 수 있듯이, 모션의 파워 스펙트럼은 주파수가 증가함에 따라 기하급수적으로 감소합니다.
이는 대부분의 자연 진동 운동이 실제로 저주파 항으로 잘 표현될 수 있음을 시사합니다.
실제로, 우리는 첫 번째 K = 16 푸리에 계수가 실제 비디오와 장면에서 원래의 자연스러운 모션을 현실적으로 재현하기에 충분하다는 것을 발견했습니다.
4.2. Predicting motion with a diffusion model
우리는 latent diffusion model (LDM) [73]을 모션 예측 모듈의 백본으로 선택했습니다, 이는 LDM이 픽셀 공간 디퓨전 모델보다 계산 효율이 뛰어나면서도 합성 품질을 유지하기 때문입니다.
표준 LDM은 두 가지 주요 모듈로 구성됩니다: (1) 입력 이미지를 인코더 z = E(I)를 통해 잠재 공간으로 압축한 다음 디코더 I = D(z)를 통해 잠재 피쳐로부터 입력을 재구성하는 variational autoencoder (VAE)와 (2) 가우시안 노이즈에서 시작하여 피쳐를 반복적으로 디노이즈하는 방법을 학습하는 U-Net 기반 디퓨전 모델.
우리의 학습은 RGB 이미지가 아닌 실제 비디오 시퀀스의 스펙트럼 볼륨에 이 과정을 적용합니다, 이는 인코딩된 후 미리 정의된 분산 스케줄로 n단계 동안 확산되어 노이즈가 있는 잠재 z^n을 생성합니다.
2D U-Net은 각 단계 n ∈ (1, 2, ..., N)에서 잠재 피쳐를 업데이트하는 데 사용되는 노이즈 ε_θ(z^n; n, c)을 반복적으로 추정하여 노이즈가 있는 잠재 피쳐를 제거하도록 학습됩니다.
LDM의 학습 loss는
으로 작성되며, 여기서 c는 텍스트와 같은 조건부 신호의 임베딩 또는 우리의 경우 학습 비디오 시퀀스의 첫 번째 프레임인 I_0입니다.
그런 다음 깨끗한 잠재 파쳐 z^0이 디코더를 통과하여 스펙트럼 볼륨을 복구합니다.
Frequency adaptive normalization.
우리가 관찰한 한 가지 문제는 모션 텍스처가 주파수 전반에 걸쳐 특정한 분포 특성을 가지고 있다는 것입니다.
그림 2의 왼쪽 그래프에서 시각화된 바와 같이, 스펙트럼 부피의 진폭은 0에서 100 범위에 걸쳐 있으며 주파수가 증가함에 따라 대략 지수적으로 감소합니다.
디퓨전 모델은 안정적인 학습과 디노이징 [44]을 위해 출력의 절대값이 -1에서 1 사이여야 하므로 실제 비디오에서 추출한 S의 계수를 학습에 사용하기 전에 정규화해야 합니다.
이전 연구 [29, 76]에서와 같이 이미지 차원을 기준으로 이 계수들의 크기를 [0, 1]로 조정하면, 그림 2의 오른쪽 그래프와 같이 더 높은 주파수에서 거의 모든 계수가 거의 0에 가까워집니다.
이러한 데이터로 학습된 모델은 추론 중에 작은 예측 오류도 비정상화 후 큰 상대적 오류를 초래할 수 있기 때문에 부정확한 동작을 생성할 수 있습니다.
이 문제를 해결하기 위해 간단하지만 효과적인 주파수 적응 정규화 방법을 사용합니다: 먼저, 학습 세트에서 계산된 통계를 기반으로 각 주파수에서 푸리에 계수를 독립적으로 정규화합니다.
즉, 각 개별 주파수 f_j에 대해 모든 입력 샘플에 대한 푸리에 계수 크기의 95번째 백분위수를 계산하고 그 값을 주파수별 스케일링 계수 s_f_j로 사용합니다.
그런 다음 각 스케일링된 푸리에 계수에 파워 변환을 적용하여 극단값에서 멀어지게 합니다.
실제로, 우리는 제곱근이 로그나 역수와 같은 다른 비선형 변환보다 더 나은 성능을 보인다는 것을 관찰합니다.
요약하자면, 주파수 f_j (LDM 학습에 사용됨)에서 스펙트럼 부피 S(p)의 최종 계수 값은
로 계산됩니다.
그림 2의 오른쪽 그래프에서 볼 수 있듯이 주파수 적응 정규화를 적용한 후 스펙트럼 부피 계수가 더 고르게 분포합니다.
Frequency-coordinated denoising.
K개의 주파수 대역을 가진 스펙트럼 볼륨 S를 예측하는 간단한 방법은 단일 디퓨전 U-Net에서 4K개의 채널 텐서를 출력하는 것입니다.
그러나 이전 연구 [7]에서와 같이, 우리는 모델을 학습시켜 많은 채널을 생성하는 것이 지나치게 매끄럽고 부정확한 결과를 초래할 수 있음을 관찰했습니다.
대안은 LDM에 추가 주파수 임베딩을 주입하여 각 개별 주파수 슬라이스를 독립적으로 예측하는 것이지만 [4], 이러한 설계 선택은 주파수 영역에서 상관관계 없는 예측을 초래하여 비현실적인 움직임을 초래할 수 있습니다.
따라서 최근 비디오 디퓨전 작업 [7]에서 영감을 받아 그림 3에 설명된 주파수 조정 디노이징 전략을 제안합니다.
특히, 입력 이미지 I_0가 주어졌을 때, 먼저 LDM ε_θ를 학습시켜 스펙트럼 볼륨 S_f_j의 단일 4채널 주파수 슬라이스를 예측합니다, 여기서 우리는 LDM에 시간 단계 임베딩과 함께 추가 주파수 임베딩을 주입합니다.
그런 다음 이 LDM ε_θ의 매개변수를 고정하고, K개의 주파수 대역에 걸쳐 ε_θ의 2D 공간 레이어와 교차하는 어텐션 레이어를 도입한 다음 파인튜닝합니다.
구체적으로, 배치 크기 B에 대해 ε_θ의 2D 공간 레이어는 채널 크기 C의 해당 B·K 노이즈 잠재 피쳐를 R^((B·K) x C x H x W 형태의 독립적인 샘플로 취급합니다.
그런 다음 어텐션 레이어는 이를 주파수 축에 걸쳐 연속적인 피쳐로 해석하고, 잠재적 피쳐를 이전 2D 공간 레이어에서 R^(B x K x C x H x W)로 재구성한 후 어텐션 레이어에 공급합니다.
즉, 주파수 어텐션 레이어는 모든 주파수 슬라이스를 조정하여 일관된 스펙트럼 볼륨을 생성하도록 파인튜닝됩니다.
실험 결과, 단일 2D U-Net에서 주파수 조정 디노이징 모듈로 전환할 때 평균 VAE 재구성 오류가 0.024에서 0.018로 개선되는 것을 확인했으며, 이는 LDM 예측 정확도에 대한 개선된 상한선을 시사합니다; 섹션 7.3에서는 이러한 설계 선택이 비디오 생성 품질을 향상시킨다는 것도 보여줍니다.
5. Image-based rendering
이제 주어진 입력 이미지 I_0에 대해 예측된 스펙트럼 볼륨 S를 가져와서 시간 t에서 미래 프레임 ^I_t를 렌더링하는 방법을 설명합니다.
먼저 각 픽셀 F(p) = FFT^-1(S(p))에 적용된 역시간 FFT를 사용하여 시간 영역에서 모션 텍스처를 도출합니다.
미래 프레임 ^I_t를 생성하기 위해, 우리는 심층 이미지 기반 렌더링 기법을 채택하고, 그림 4와 같이 인코딩된 I_0을 전진시키기 위해 예측된 모션 필드 F_t와 스플랫팅을 수행합니다.
전방 왜곡은 구멍으로 이어질 수 있고, 여러 소스 픽셀이 동일한 출력 2D 위치에 매핑될 수 있기 때문에, 우리는 프레임 보간에 관한 이전 연구에서 제안된 피쳐 피라미드 소프트맥스 스플랫팅 전략을 채택합니다 [67].
구체적으로, 우리는 피쳐 추출기 네트워크를 통해 I_0를 인코딩하여 멀티 스케일 피쳐 맵을 생성합니다.
스케일 j의 각 개별 피쳐 맵에 대해 해상도에 따라 예측된 2D 모션 필드 F_t를 크기 조정하고 확장합니다.
Davis et al. [22]에서와 같이, 우리는 depth를 나타내는 프록시로 예측된 flow 크기를 사용하여 각 소스 픽셀이 목적지 위치에 매핑될 때 기여하는 가중치를 결정합니다.
특히, 예측된 움직임 텍스처의 평균 크기로 픽셀당 가중치 W(p) = 1/T ∑_t |F_t(p)|를 계산합니다.
다시 말해, 큰 움직임은 움직이는 전경 객체에 해당하고, 작은 움직임이나 제로 움직임은 배경에 해당한다고 가정합니다.
단일 뷰의 경우 학습 가능한 가중치가 분리 모호성을 해결하는 데 효과적이지 않다는 것을 관찰하기 때문에 학습 가능한 가중치 대신 모션 파생 가중치를 [46]으로 사용합니다.
모션 필드 F_t와 가중치 W를 사용하여 소프트맥스 스플랫팅을 적용하여 각 스케일에서 피쳐 맵을 왜곡하여 왜곡된 피쳐를 생성합니다.
왜곡된 피쳐들은 이미지 합성 디코더의 해당 블록에 주입되어 최종 렌더링된 이미지 ^I_t를 생성합니다.
우리는 실제 비디오에서 랜덤으로 샘플링된 시작 프레임과 타겟 프레임 (I_0, I_t)을 사용하여 피쳐 추출기와 합성 네트워크를 공동으로 학습시키고, I_0에서 I_t까지의 추정된 flow 필드를 사용하여 I_0에서 인코딩된 피쳐를 왜곡하며, VGG perceptual loss [49]가 있는 I_t에 대한 예측 ^I_t를 supervise합니다.
6. Applications
Image-to-video.
저희 시스템은 입력 이미지에서 모션 스펙트럼 볼륨을 먼저 예측하고, 스펙트럼 볼륨에서 변환된 모션 텍스처에 이미지 기반 렌더링 모듈을 적용하여 애니메이션을 생성함으로써 단일 정지 화면의 애니메이션을 구현합니다.
장면 동작을 명시적으로 모델링하기 때문에 모션 텍스처를 선형 보간하여 슬로우 모션 비디오를 제작하거나 예측된 스펙트럼 볼륨 계수의 진폭을 조정하여 애니메이션 모션을 확대 (또는 축소)할 수 있습니다.
Seamless looping.
많은 애플리케이션에서는 비디오의 시작과 끝 사이에 불연속성이 없는 매끄럽게 반복되는 비디오가 필요합니다.
안타깝게도 학습용으로 매끄럽게 반복되는 동영상 모음을 찾기가 어렵습니다.
대신, 우리는 일반 비루프 비디오 클립으로 학습된 모션 디퓨전 모델을 사용하여 매끄러운 루프 비디오를 제작하는 방법을 고안했습니다.
이미지 편집에 대한 최근 연구 [3, 30]에서 영감을 받은 우리의 방법은 명시적인 루프 제약 조건을 사용하여 모션 디노이징 샘플링 처리를 안내하는 모션 셀프-가이던스 기법입니다.
특히 추론 중 반복적인 디노이징 단계마다 표준 classifier-free guidance [45]와 함께 추가적인 모션 가이던스 신호를 통합하여 각 픽셀의 시작 프레임과 끝 프레임의 위치와 속도가 최대한 유사하도록 강제합니다: (5), 여기서 F_t^n은 시간 t와 디노이징 단계 n에서 예측된 2D 변위 필드입니다.
w는 classifier-free 가이던스 가중치이고, u는 모션 셀프-가이던스 가중치입니다.
보충 영상에서는 기본 외형 기반 루프 알고리즘 [58]을 적용하여 비루프 출력으로부터 루프 영상을 생성하고, 우리의 모션 셀프-가이던스 기법이 왜곡과 아티팩트가 적은 매끄러운 루프 영상을 생성함을 보여줍니다.
Interactive dynamics from a single image.
Davis et al. [22]은 특정 공진 주파수에서 평가된 스펙트럼 볼륨이 기저 장면의 진동 모드를 투영한 이미지-공간 모달 basis를 근사할 수 있음을 보여줍니다 (또는 더 일반적으로 진동 역학에서 공간적 및 시간적 상관관계를 포착함), 또한 사용자 정의 힘에 대한 객체의 반응을 시뮬레이션하는 데 사용할 수 있음을 보여줍니다.
우리는 이 모달 분석 방법 [22, 69]을 채택하여 각 시뮬레이션 시간 단계 t에서 복소 모달 좌표 q_f_j(t)의 상태에 의해 변조된 운동 스펙트럼 계수 S_f_j의 가중 합으로 객체의 물리적 응답에 대한 이미지 공간 2D 운동 변위 필드를 작성할 수 있습니다:
우리는 모달 공간에 표현된 분리된 질량-스프링-댐퍼 시스템의 운동 방정식에 적용된 명시적 오일러 방법을 통해 모달 좌표 q_f_j (t)의 상태를 시뮬레이션합니다 [22, 23, 69].
독자들에게 완전한 도출을 위해 보충 자료와 원본 작품을 참고하시기 바랍니다.
우리의 방법은 단일 사진에서 인터랙티브 장면을 생성하는 반면, 이전 방법들은 비디오를 입력으로 필요로 했습니다.
7. Experiments
Implementation details.
스펙트럼 볼륨을 예측하기 위한 백본으로 LDM [73]을 사용하며, 이를 위해 차원 4의 연속 잠재 공간을 가진 VAE를 사용합니다.
우리는 각각의 가중치가 1, 0.2, 10^-6인 L1 재구성 loss, 멀티 스케일 그래디언트 일관성 loss [54–56], KL-divergence loss로 VAE를 학습시킵니다.
원래 LDM 작업에서 사용된 것과 동일한 2D U-Net을 간단한 MSE loss로 반복적인 디노이징을 수행하도록 학습시키고, 주파수 조정 디노이징을 위해 [41]의 어텐션 레이어를 채택합니다.
정량적 평가를 위해, 우리는 공정한 비교를 위해 256 x 160 크기의 이미지를 처음부터 VAE와 LDM으로 학습시키며, 16개의 Nvidia A100 GPU를 사용하여 수렴하는 데 약 6일이 걸립니다.
주요 정량적 및 정성적 결과를 위해, 우리는 250단계 동안 DDM [85]을 사용하여 모션 디퓨전모델을 실행합니다.
또한 데이터셋에서 사전 학습된 이미지 인페인팅 LDM 모델 [73]을 파인튜닝하여 생성된 최대 해상도 512 x 288의 동영상을 보여줍니다.
우리는 IBR 모듈의 피쳐 추출기를 위해 ResNet-34 [39]를 채택합니다.
우리의 이미지 합성 네트워크는 조건부 이미지 인페인팅을 위한 아키텍처를 기반으로 합니다 [57, 109].
저희 렌더링 모듈은 추론 중에 Nvidia V100 GPU에서 실시간으로 25FPS로 실행됩니다.
우리는 universe guidance [3]를 채택하여 매끄러운 루프 비디오를 제작합니다, 여기서 가중치 w = 1.75, u = 200을 설정하고, 두 번의 self-recurrence 반복을 통해 500개의 DDIM 단계를 사용합니다.
Data.
우리는 온라인 소스에서 진동 운동을 보여주는 자연 장면의 3,015개의 비디오 세트를 수집하고 처리합니다.
우리는 비디오의 10%를 테스트용으로 보류하고 나머지는 학습용으로 사용합니다.
ground truth 운동 궤적을 추출하기 위해, 우리는 선택된 각 시작 이미지와 비디오의 모든 미래 프레임 사이에 coarse-to-fine flow 방식 [10, 61]을 적용합니다.
학습 데이터로, 우리는 매 10번째 비디오 프레임을 입력 이미지로 받아 다음 149개의 프레임에 걸쳐 계산된 운동 궤적을 사용하여 해당하는 ground truth 스펙트럼 볼륨을 도출합니다.
우리의 데이터는 총 15만 개 이상의 이미지-모션 쌍으로 구성되어 있습니다.
Baselines.
우리는 최근의 단일 이미지 애니메이션 및 비디오 예측 방법과 우리의 접근 방식을 비교합니다.
Endo et al. [29]와 DMVFN [48]은 순간적인 2D 모션 필드를 예측하고 미래의 프레임을 자동 회귀적으로 렌더링합니다.
대신 Holynski et al. [46]은 단일 정적 오일러 운동 설명을 통해 운동을 시뮬레이션합니다.
Stochastic Image-to-Video (Stochastic-I2V) [27], TATS [35], MCVD [92]와 같은 최근 연구들은 raw 비디오 프레임을 직접 예측하기 위해 VAE, 트랜스포머 또는 디퓨전 모델을 채택하고 있습니다; LFDM [66]은 디퓨전 모델에서 flow 볼륨과 왜곡 잠재력을 예측하여 미래 프레임을 생성합니다.
우리는 각각의 오픈 소스 구현을 사용하여 데이터에 대해 위의 모든 방법을 학습시킵니다.
우리는 우리의 접근 방식과 이전 베이스라인에 의해 생성된 비디오의 품질을 두 가지 방식으로 평가합니다.
먼저, 이미지 합성 작업을 위해 설계된 지표를 사용하여 개별 합성 프레임의 품질을 평가합니다.
우리는 생성된 프레임의 분포와 실제 프레임 간의 평균 거리를 측정하기 위해 Fréchet Inception Distance (FID) [42]와 Kernel Inception Distance (KID) [5]를 채택합니다.
둘째, 합성된 비디오의 품질과 시간적 일관성을 평가하기 위해, 우리는 Human Kinetics 데이터셋 [52]에서 학습된 I3D 모델 [11]을 기반으로 창 크기 16 (FVD)과 32 (FVD_32)의 Fréchet Video Distance [91]을 채택합니다.
우리가 생성하고자 하는 자연 진동 모션의 합성 품질을 보다 충실히 반영하기 위해, 주로 자연스러운 동작 텍스처로 구성된 데이터셋인 동적 텍스처 데이터베이스 [37]에서 학습된 I3D 모델을 사용하여 창 크기 16 (DTFVD)과 크기 32 (DTFVD_32)의 비디오로부터의 거리를 측정하는 Dynamic Texture Frechet Video Distance [27]도 채택했습니다.
또한 [57, 60]에서와 같이 창 크기 30프레임의 슬라이딩 윈도우 FID와 창 크기 16프레임의 슬라이딩 윈도우 DTFVD를 사용하여 생성된 비디오 품질이 시간이 지남에 따라 어떻게 저하되는지 측정합니다.
모든 방법에 대해, 우리는 256 x 128 해상도의 중앙 크롭을 통해 메트릭을 평가합니다.
7.1. Quantitative results
표 1은 우리의 접근 방식과 테스트 세트의 베이스라인 간의 정량적 비교를 보여줍니다.
우리의 접근 방식은 이미지 및 비디오 합성 품질 측면에서 이전 단일 이미지 애니메이션 베이스라인을 크게 능가합니다.
특히, 우리의 훨씬 낮은 FVD 및 DT-FVD 거리는 우리의 접근 방식으로 생성된 비디오가 더 현실적이고 시간적으로 일관성이 있음을 시사합니다.
또한, 그림 6은 다양한 방법으로 생성된 비디오의 슬라이딩 윈도우 FID와 슬라이딩 윈도우 DT-FVD 거리를 보여줍니다.
전역 스펙트럼 볼륨 표현 덕분에, 우리의 접근 방식으로 생성된 비디오는 시간이 지나도 성능 저하를 겪지 않습니다.
7.2. Qualitative results
우리는 생성된 비디오의 시공간 X-t 슬라이스로서 비디오 간의 질적 비교를 시각화합니다, 이는 비디오에서 작은 움직임을 시각화하는 표준 방법입니다 [94].
그림 5에서 볼 수 있듯이, 우리가 생성한 비디오 역학은 다른 방법들에 비해 실제 참조 비디오(두 번째 열)에서 관찰된 동작 패턴과 더 강하게 유사합니다.
Stochastic I2V [27] 및 MCVD [92]와 같은 베이스라인은 시간이 지남에 따라 외관과 움직임을 현실적으로 모델링하지 못합니다.
Endo et al. [29]과 Holynski et al. [46]은 아티팩트는 적지만 시간이 지남에 따라 지나치게 매끄럽거나 비진동적인 움직임을 보이는 비디오 프레임을 생성합니다.
생성된 비디오 프레임의 품질과 다양한 방법에 따른 예상 동작을 평가하기 위해 독자들에게 보충 자료를 제공합니다.
7.3. Ablation study
우리는 모션 예측 및 렌더링 모듈의 주요 설계 선택 사항을 검증하기 위해 ablation 연구를 수행하며, 다양한 변형과 전체 구성을 비교합니다.
구체적으로, 우리는 K = 4, 8, 16, 24의 다양한 주파수 대역을 사용하여 결과를 평가합니다.
주파수 대역의 수를 늘리면 비디오 예측 품질이 향상되지만, 16개 이상의 주파수에서는 개선이 미미한 것으로 나타났습니다.
다음으로, ground truth 스펙트럼 볼륨에서 적응 주파수 정규화를 제거하고 대신 입력 이미지 너비와 높이 (w/o
adaptive norm.)에 따라 조정합니다.
또한, 주파수 조정 디노이징 모듈 (Independent pred.)을 제거하거나, 단일 2D U-net 디퓨전 모델 (Volume pred.)을 통해 4K 채널 스펙트럼 볼륨의 텐서 볼륨을 공동으로 예측하는 더 간단한 DM으로 대체합니다.
마지막으로, 학습 가능한 가중치가 적용된 단일 스케일 특징에 소프트맥스 스플랫팅을 적용한 베이스라인 렌더링 방법을 사용하여 [46] (Baseline splat)에서 사용한 결과를 비교합니다.
또한 입력 이미지 N번 (반복 I_0)을 반복하여 생성된 비디오가 볼륨인 베이스라인을 추가합니다.
표 2에서 우리는 모든 단순하거나 대체적인 구성이 전체 모델에 비해 성능 저하를 초래한다는 것을 관찰했습니다.
7.4. Comparing to large video models
또한 사용자 연구를 수행하여 생성된 애니메이션을 최근 대규모 비디오 디퓨전 모델의 애니메이션과 비교합니다: AnimateDiff [36], ModelScope [97] 및 Gen-2 [31]는 비디오 볼륨을 직접 예측합니다.
테스트 세트에서 랜덤으로 선택한 30개의 동영상 중에서 사용자에게 "which video is more realistic?"라고 묻습니다.
사용자들은 우리의 접근 방식에 대해 다른 접근 방식보다 80.9%의 선호도를 보고합니다.
게다가, 그림 7에 나타난 바와 같이, 이러한 베이스라인에서 생성된 비디오가 입력된 이미지 내용을 따르지 못하거나 시간이 지남에 따라 점진적인 색상 드리프트와 왜곡을 보이는 것을 관찰할 수 있습니다.
독자들에게 완전한 비교를 위해 보충 자료를 참고하시기 바랍니다.
8. Discussion and conclusion
Limitations.
우리의 접근 방식은 스펙트럼 볼륨의 낮은 주파수만을 예측하기 때문에, 비진동 운동이나 고주파 진동을 모델링하는 데 실패할 수 있습니다—학습된 모션 베이스를 사용하여 이 문제를 해결할 수 있습니다.
또한 생성된 비디오의 품질은 움직이는 물체가 얇은 장면이나 변위가 큰 물체에서는 성능이 저하될 수 있는 기본 동작 궤적의 품질에 따라 달라집니다.
설령 맞더라도, 새로운 보이지 않는 콘텐츠를 대량으로 생성해야 하는 동작은 성능 저하를 초래할 수 있습니다 (그림 8).
Conclusion.
우리는 단일 정지 화면에서 자연 진동 역학을 모델링하는 새로운 접근 방식을 제시합니다.
우리의 이미지 공간 모션 prior는 픽셀당 모션 궤적의 주파수 표현인 스펙트럼 볼륨으로 표현되며, 이는 디퓨전 모델을 사용한 예측에 효율적이고 효과적이며 실제 비디오 컬렉션에서 학습합니다.
스펙트럼 볼륨은 주파수 조정 잠재 디퓨전 모델을 사용하여 예측되며, 이미지 기반 렌더링 모듈을 통해 미래의 비디오 프레임을 애니메이션화하는 데 사용됩니다.
우리는 우리의 접근 방식이 단일 사진에서 사실적인 애니메이션을 생성하고 이전 베이스라인을 크게 능가하며, 매끄럽게 반복되거나 상호작용하는 이미지 역학을 생성하는 등 여러 가지 다운스트림 애플리케이션을 가능하게 할 수 있음을 보여줍니다.
'Diffusion' 카테고리의 다른 글
Rich Human Feedback for Text-to-Image Generation (0) | 2025.04.25 |
---|---|
Scalable Diffusion Models with Transformers (0) | 2024.09.09 |
Adding Conditional Control to Text-to-Image Diffusion Models (0) | 2024.07.30 |
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (0) | 2024.07.08 |
Improving Diffusion Models for Authentic Virtual Try-on in the Wild (0) | 2024.06.27 |