2023. 5. 24. 11:49ㆍtext-to-3D
DreamBooth3D: Subject-Driven Text-to-3D Generation
Amit Raj, Srinivas Kaza, Ben Poole, Michael Niemeyer, Nataniel Ruiz, Ben Mildenhall, Shiran Zada, Kfir Aberman, Michael Rubinstein, Jonathan Barron, Yuanzhen Li, Varun Jampani
Abstract
우리는 대상의 3-6개의 무심코 캡처한 이미지에서 text-to-3D 생성 모델로 개인화하는 접근법인 DreamBooth 3D를 제시합니다.
우리의 접근 방식은 text-to-image 모델(DreamBooth)을 개인화하는 최근의 발전과 text-to-3D 생성(DreamFusion)을 결합합니다.
우리는 이러한 방법을 나이브하게 결합하는 것이 대상의 입력 관점에 지나치게 적합한 개인화된 text-to-image 모델로 인해 만족스러운 대상별 3D 자산을 산출하지 못한다는 것을 발견했습니다.
우리는 text-to-image 모델의 개인화 기능과 함께 neural radiance fields의 3D 일관성을 공동으로 활용하는 3단계 최적화 전략을 통해 이를 극복합니다.
우리의 방법은 대상의 입력 이미지에서 볼 수 없는 새로운 포즈, 색상 및 속성과 같은 텍스트 중심 수정을 통해 고품질의 대상별 3D 자산을 생성할 수 있습니다.
1. Introduction
Text-to-Image (T2I) 생성 모델[6, 36, 37, 39]은 시각적 콘텐츠를 만들고 편집할 수 있는 방법을 크게 확장했습니다.
최근의 연구[23, 27, 33, 44]는 T2I diffusion 모델을 사용하여 neural radiance fields (NeRFs)를 최적화함으로써 고품질의 Text-to-3D 생성을 보여주었습니다.
입력 텍스트 프롬프트만으로 이러한 자동 3D 자산 생성은 그래픽, VR, 영화 및 게임과 같은 광범위한 영역에서 응용됩니다.
텍스트 프롬프트를 통해 생성된 3D 자산을 어느 정도 제어할 수 있지만 텍스트만으로 식별, 형상 및 외관을 정확하게 제어하기는 어려운 경우가 많습니다.
특히, 이러한 방법은 특정 대상(예: 일반 개 대신 특정 개)의 3D 자산을 생성하는 능력이 부족합니다.
대상별 3D 자산 생성을 가능하게 하면 아티스트 및 3D 획득 워크플로우가 상당히 쉬워질 것입니다.
대상별 2D 이미지 생성을 위해 T2I 모델을 개인화하는 데 놀라운 성공[13, 21, 38]이 있었습니다.
이러한 기술은 다양한 상황에서 특정 대상 이미지를 생성할 수 있지만 3D 자산을 생성하거나 관점 변경과 같은 3D 제어를 제공하지는 않습니다.
본 연구에서는 대상 중심의 Text-to-3D 생성 방법인 'DreamBooth 3D'를 제안합니다.
(카메라 포즈와 같은 추가 정보 없이) 대상의 몇 가지 (3-6) 캐주얼 이미지 캡처가 주어지면 입력 텍스트 프롬프트에서 제공되는 상황화도 준수하는 대상별 3D 자산을 생성합니다.
즉, 우리는 입력 텍스트 프롬프트에 의해 제공되는 변형(예: sleeping or jumping dog)을 존중하면서 주어진 대상의 기하학적 및 외관 정체성을 가진 3D 자산을 생성할 수 있습니다.
DreamBooth 3D의 경우 T2I diffusion 모델에서 파생된 loss를 사용하여 NeRF 모델 최적화를 제안하는 최근 연구[33]에서 영감을 얻습니다.
우리는 주어진 대상에 대해 단순히 T2I 모델을 개인화한 다음 해당 모델을 사용하여 NeRF를 최적화하는 것은 몇 가지 실패 모드가 발생하기 쉽다는 것을 관찰합니다.
중요한 문제는 개인화된 T2I 모델이 희소 대상 이미지에만 있는 카메라 관점에 과적합하는 경향이 있다는 것입니다.
결과적으로, 그러한 개인화된 T2I 모델의 결과적인 loss는 임의의 연속적인 관점에서 일관성 있는 3D NeRF 자산을 최적화하기에 충분하지 않습니다.
DreamBooth 3D를 사용하여 NeRF 자산과 T2I 모델을 함께 최적화하여 대상별로 공동으로 만드는 효과적인 최적화 체계를 제안합니다.
NeRF 최적화를 위해 DreamFusion [33]을 활용하고 T2I 모델 미세 조정을 위해 DreamBooth [38]을 사용합니다.
구체적으로, 우리는 첫 번째 단계에서 DreamBooth 모델을 부분적으로 미세 조정한 다음 DreamFusion을 사용하여 NeRF 자산을 최적화하는 3단계 최적화 프레임워크를 제안합니다.
부분적으로 미세 조정된 DreamBooth 모델은 주어진 대상 뷰에 과적합하지 않을 뿐만 아니라 모든 대상별 세부 정보를 캡처하지도 않습니다.
따라서 결과적으로 생성된 NeRF 자산은 3D 일관성이 있지만 대상별로 다릅니다.
두 번째 단계에서는 DreamBooth 모델을 완전히 미세 조정하여 미세한 대상 세부 정보를 캡처하고 해당 모델을 사용하여 다중 뷰 pseudo 대상 이미지를 생성합니다.
즉, 완전히 학습된 DreamBooth 모델을 사용하여 학습된 NeRF의 다중 뷰 렌더링을 대상 이미지로 변환합니다.
마지막 단계에서, 우리는 pseudo 다중 뷰 이미지와 함께 주어진 대상 이미지를 모두 사용하여 DreamBooth 모델을 추가로 최적화합니다.
그런 다음 최종 NeRF 3D 볼륨을 최적화하는 데 사용됩니다.
또한 최종 NeRF 최적화를 추가로 정규화하기 위해 pseudo 다중 뷰 데이터 세트에 대한 약한 재구성 loss를 사용합니다.
NeRF 및 T2I 모델의 시너지 최적화는 퇴화 솔루션을 방지하고 DreamBooth 모델이 대상의 특정 관점에 과적합되는 것을 방지하는 동시에 결과 NeRF 모델이 대상의 정체성에 충실하도록 보장합니다.
실험 분석을 위해, 우리는 DreamBooth [38]에서 제안된 30개의 대상 데이터 세트를 사용하는데, 이는 희소한 일상적인 대상 캡처의 동일한 입력 설정을 사용합니다.
결과는 우리의 접근 방식이 입력 텍스트 프롬프트에 존재하는 컨텍스트를 존중하면서 주어진 대상과 유사성이 높은 현실적인 3D 자산을 생성할 수 있음을 나타냅니다.
그림 1은 다양한 대상과 맥락화에 대한 DreamBooth 3D의 샘플 결과를 보여줍니다.
여러 베이스라인과 비교할 때, 정량적 및 정성적 결과는 DreamBooth 3D 생성이 보다 3D 일관성이 있고 대상 세부 사항을 더 잘 포착한다는 것을 보여줍니다.
2. Related Works
Text-to-Image Generation.
생성 모델에 대한 초기 작업은 실제 이미지와 구별할 수 없는 이미지를 합성하도록 생성자를 학습시키는 Generative Adversarial Networks (GANs)에 의해 지배됩니다 [15, 40].
다른 생성적 접근법에는 픽셀 단위로 이미지를 생성하거나 패치별로 이미지를 생성하는 autoregressive 모델[12,47]과 이미지에서 마스크된 패치의 한계 분포를 반복적으로 예측하는 마스크된 이미지 모델[6,7]이 포함됩니다.
최근, 디노이징 diffusion 모델[17]이 이미지 합성을 위해 제안되었으며, 이는 깨끗한 이미지[10, 36, 37, 39]를 향해 노이즈 이미지를 반복적으로 디노이징하여 고품질 이미지를 생성할 수 있습니다.
diffusion 모델은 depth 맵 [48], 스케치 [43], 시맨틱 segmentation [1, 37], 텍스트 [30, 36, 37, 39] 및 기타 [18, 22, 48]과 같은 다양한 입력에 따라 조정될 수 있습니다.
텍스트 조건화의 경우, 이러한 모델은 사용자가 제공한 자연어 텍스트 프롬프트에 정렬된 이미지를 생성하기 위해 사전 학습된 large language model (LLM)[34, 35]을 활용합니다.
T2I diffusion 모델의 성공에 힘입어, 많은 작품들이 텍스트 기반 이미지 조작과 같은 다양한 작업에 사전 학습된 T2I 모델을 활용합니다 [3, 20, 29].
3D Generation.
학습 기반 3D 콘텐츠 생성에 대한 첫 번째 작업은 하나 이상의 이미지에서 3D 재구성을 수행했습니다 [8, 11, 14, 26, 45].
좋은 재구성 결과로 이어지는 동시에 학습을 위해 정확한 3D 데이터의 대규모 데이터 세트가 필요하므로 실제 시나리오에서 사용이 제한됩니다.
또 다른 작업[4, 5, 16, 31, 41]은 이미지 컬렉션에서 3D 인식 생성 모델을 학습하여 정확한 3D 데이터의 필요성을 피합니다.
인상적인 결과를 달성하는 동안, 이러한 방법은 가정된 포즈 분포에 민감하며 단일 객체 클래스로 제한됩니다.
매우 최근에는 사전 학습된 대규모 T2I diffusion 모델을 활용하여 텍스트 프롬프트에서 3D 자산을 생성할 수 있는 text-to-3D 방법[19, 23, 27, 33]이 제안되었습니다.
그러나 많은 응용 프로그램에서 조건화는 순수 텍스트 대신 텍스트로 선택적으로 입력된 이미지입니다.
결과적으로, 여러 연구는 입력 이미지와 예측 단안 depth [9, 46] 또는 예측 객체 마스크 [24]에 재구성 loss를 적용하여 입력 이미지가 최적화 파이프라인에 통합될 수 있는 방법을 조사합니다.
그러나 이것은 diffusion 모델의 전체 강도를 이용하지 않기 때문에 사용을 제한합니다, 예를 들어, 추가 텍스트 입력으로 객체를 다시 텍스트화할 수 없습니다.
대신, 우리는 입력 이미지를 직접 재구성하지 않고 제공된 객체의 개념을 제안합니다.
이를 통해 재구성뿐만 아니라 재텍스트화 등을 수행할 수 있으며, 입력 이미지를 동일한 배경, 조명, 카메라 등으로 촬영할 필요가 없습니다.
Subject-driven Generation.
대상 중심 이미지 생성의 최근 발전[13,21,38]을 통해 사용자는 특정 대상과 개념에 대해 이미지 생성을 개인화할 수 있습니다.
이를 통해 T2I 모델은 특정 대상의 시각적 본질을 포착하고 다양한 맥락에서 새로운 버전을 합성할 수 있습니다.
DreamBooth[38]는 희귀 토큰, 모델 미세 조정 및 정규화를 위한 prior preservation loss를 사용하여 모델의 언어 비전 사전을 확장하여 이를 달성합니다.
Textual Inversion [13]은 입력 개념을 나타내는 사전 학습된 text-to-image 모델의 임베딩 공간에서 새로운 "word"를 최적화함으로써 이를 달성합니다.
이러한 방법은 3D 자산이나 3D 일관성 있는 이미지를 생성하지 않습니다.
ground truth 입력으로 이미지 생성 안내 [22], 편집 지침 [3], 가장자리, depth 및 표면 법선과 같은 작업별 조건도 발전했습니다 [48].
그러나 이러한 기술은 특정 대상에 개인화를 제공하지 않으며 3D 자산을 생성하지 않습니다.
3. Approach
Problem setup.
우리의 접근 방식에 대한 입력은 각각 n개의 픽셀, {I_i ∈ R^(nx3)}(i ∈ {1, ..., k}) 및 문맥화 또는 의미 변화(예: sleeping vs. standing dog)를 위한 텍스트 프롬프트 T로 구성된 일련의 k 캐주얼 대상 캡처를 형성합니다.
우리의 목표는 텍스트 프롬프트에 충실하면서 주어진 대상의 정체성(기하학 및 모양)을 포착하는 3D 자산을 생성하는 것입니다.
우리는 3D 볼륨에서 radiance 필드를 인코딩하는 MLP 네트워크 M으로 구성된 Neural Radiance Fields (NeRF)[28] 형태로 3D 자산을 최적화합니다.
이 문제는 다중 뷰 이미지 캡처가 필요한 일반적인 3D 재구성 설정에 비해 상당히 제한적이고 어려운 문제입니다.
우리는 T2I 개인화 및 Text-to-3D 최적화의 최근 발전을 기반으로 기술을 구축합니다.
구체적으로, 우리는 우리의 프레임워크에서 DreamFusion [33] text-to-3D로 최적화와 DreamBooth [38] 개인화를 사용하며, 다음에 간략하게 검토합니다.
3.1. Preliminaries
DreamBooth T2I Personalization.
Imagen [39], StableDiffusion [37] 및 DALL-E2 [36]과 같은 T2I diffusion 모델은 주어진 텍스트 프롬프트에서 이미지를 생성합니다.
특히, T2I diffusion 모델 D_θ(ε, c)는 텍스트 인코더 Θ를 사용하여 주어진 프롬프트 T에 대한 초기 노이즈 ε ~ N(0, 1) 및 텍스트 임베딩 c = Θ(T)를 입력으로 취하고 프롬프트 설명을 따르는 이미지를 생성합니다.
이러한 T2I 모델에서 생성된 이미지는 일반적으로 프롬프트와 일치하지만 생성된 이미지에서 세부적인 제어를 수행하기는 어렵습니다.
이를 위해 DreamBooth[38]는 작은 캐주얼 캡처 세트 {I_i}에서 네트워크를 미세 조정하여 T2I diffusion 모델을 개인화하는 간단하지만 효과적인 접근법을 제안합니다.
간단히 말해서, DreamBooth는 다음 diffusion loss 함수를 사용하여 T2I 모델을 미세 조정합니다:
, 여기서 t ~ U[0, 1]은 diffusion 프로세스의 시간 단계를 나타내며 w_t, α_t 및 σ_t는 해당 스케줄링 매개 변수입니다.
선택적으로, DreamBooth는 다양성을 개선하고 언어 이동을 피하기 위해 클래스 prior-preservation loss를 사용합니다.
자세한 내용은 [38]을 참조하십시오.
DreamFusion
볼륨의 랜덤 뷰가 T2I diffusion 모델을 사용하여 텍스트 프롬프트 T와 일치하도록 NeRF M_ɸ로 표현되는 볼륨을 매개 변수 ɸ로 최적화합니다.
학습된 암시적 네트워크 M_ɸ는 3D 위치에서 알베도 및 밀도로 매핑됩니다.
밀도의 그래디언트에서 계산된 정규식은 램버트 음영으로 기하학적 사실성을 개선하기 위해 모델을 랜덤으로 재조명하는 데 사용됩니다.
랜덤 뷰 v와 랜덤 조명 방향이 주어지면 볼륨 렌더링을 수행하여 음영 처리된 이미지 ^I_v를 출력합니다.
이러한 이미지가 텍스트 프롬프트 T처럼 보이도록 NeRF ɸ의 매개 변수를 최적화하기 위해 DreamFusion은 렌더링된 이미지의 노이즈가 많은 버전을 T2I diffusion 모델의 낮은 에너지 상태로 푸시하는 score distillation sampling (SDS)을 도입했습니다:
더 많은 뷰를 랜덤화하고 NeRF를 통해 역전파함으로써, 렌더링이 주어진 텍스트 프롬프트에 대해 T2I 모델 D_θ에 의해 생성된 이미지처럼 보이도록 장려합니다.
DreamFusion은 여러 뷰를 따라 NeRF를 최적화하기 위해 coarse 뷰 기반 프롬프트를 사용할 것을 제안합니다.
우리는 모든 실험에 대해 [33]에서 사용된 정확한 설정을 따릅니다.
3.2. Failure of Naive Dreambooth+Fusion
대상 중심 text-to-3D 생성을 위한 간단한 접근 방식은 먼저 T2I 모델을 개인화한 다음 결과 모델을 text-to-3D 최적화에 사용하는 것입니다.
예를 들어, DreamBooth 최적화를 수행한 다음 DreamFusion을 수행합니다.
DreamBooth+Fusion이라고 합니다.
유사한 베이스라인은 [23, 27]과 같은 일부 매우 최근의 연구에서 예비 실험을 통해 탐색됩니다.
그러나 우리는 나이브한 DreamBooth+Fusion 기술이 그림 3과 같이 불만족스러운 결과를 초래한다는 것을 발견했습니다.
우리가 발견한 핵심 문제는 DreamBooth가 학습 뷰에 존재하는 대상 뷰에 지나치게 적합하여 이미지 생성에서 관점 다양성이 감소하는 경향이 있다는 것입니다.
DreamBooth 미세 조정 단계가 많을수록 대상 유사성이 증가하고 생성된 관점은 입력 예제 뷰의 관점에 가까워집니다.
결과적으로, 그러한 DreamBooth 모델의 SDS loss는 일관성 있는 3D NeRF 자산을 얻기에 충분하지 않습니다.
일반적으로, 우리는 DreamBooth+Fusion NeRF 모델이 서로 다른 관점에 걸쳐 각인된 동일한 대상 뷰(예: face of a dog)를 가지고 있으며, 실패 모드는 "Janus problem"으로 표시됨을 관찰합니다 [33].
3.3. Dreambooth3D Optimization
위에서 언급한 문제를 완화하기 위해, 우리는 대상 중심 text-to-3D 생성을 위한 DreamBooth 3D라는 효과적인 다단계 최적화 계획을 제안합니다.
그림 2는 다음에 자세히 설명하는 접근 방식의 3단계를 보여줍니다.
Stage-1: 3D with Partial DreamBooth.
먼저 그림 2(왼쪽)와 같은 입력 대상 이미지에서 개인화된 DreamBooth 모델 ^D_θ를 학습합니다.
우리의 핵심 관찰은 DreamBooth (부분적으로 미세 조정된) T2I 모델의 초기 체크포인트가 주어진 대상 뷰에 과하게 맞지 않는다는 것입니다.
이러한 부분적으로 미세하게 조정된 DreamBooth 모델에 대한 DreamFusion은 보다 일관성 있는 3D NeRF를 생성할 수 있습니다.
구체적으로, 우리는 부분적으로 학습된 DreamBooth 모델을 ^D_θ^partial이라고 부르고 SDS loss(식 2)을 사용하여 그림 2(왼쪽)에 표시된 것처럼 주어진 텍스트 프롬프트에 대한 초기 NeRF 자산을 최적화합니다.
그러나 부분 DreamBooth 모델과 NeRF 자산은 입력 대상과 완전히 유사하지 않습니다.
우리는 1단계에서 이 초기 NeRF 출력이 주어진 대상과 부분적으로 유사하면서도 주어진 텍스트 프롬프트에 충실한 대상 클래스의 3D 모델임을 알 수 있습니다.
Stage-2: Multi-view Data Generation.
이 단계는 우리 접근 방식의 중요한 부분을 형성하며, 여기서 우리는 완전히 학습된 DreamBooth와 함께 3D 일관된 초기 NeRF를 사용하여 pseudo 다중 뷰 대상 이미지를 생성합니다.
구체적으로, 우리는 먼저 초기 NeRF 자산에서 랜덤 관점 {v}을 따라 여러 이미지 {^I_v ∈ R^(n x 3)}를 렌더링하여 그림 2(가운데)와 같이 다중 뷰 렌더링을 생성합니다.
그런 다음 각 렌더에서 t_pseudo로 forward diffusion 프로세스를 실행하여 고정된 양의 노이즈를 추가한 다음 [25]에서와 같이 완전히 학습된 DreamBooth 모델 ^D_t를 사용하여 샘플을 생성하기 위해 reverse diffusion 프로세스를 실행합니다.
이 샘플링 프로세스는 각 뷰에 대해 독립적으로 실행되며, 대상을 잘 나타내는 이미지를 생성하고 초기 NeRF 자산의 노이즈가 많은 렌더의 조건화로 인해 광범위한 뷰를 포함합니다.
그러나 이러한 이미지는 reverse diffusion 프로세스가 다른 뷰에 다른 세부 정보를 추가할 수 있기 때문에 다중 뷰 일관성이 없기 때문에 이 이미지 모음을 pseudo 다중 뷰 이미지라고 합니다.
그림 2(가운데)는 이 이미지에서 이미지(Img2Img)로 변환된 샘플 결과 이미지를 보여줍니다.
[25]와 같은 일부 이전 연구에서는 이미지 편집 애플리케이션에 이러한 Img2Img 변환을 사용합니다.
대조적으로, 우리는 pseudo 다중 뷰 대상 이미지를 생성하기 위해 DreamBooth 및 NeRF 3D 자산과 함께 Img2Img 변환을 사용합니다.
이 단계의 핵심 통찰력은 초기 이미지가 보이지 않는 뷰에 가깝다는 점에서 DreamBooth가 대상의 보이지 않는 뷰를 효과적으로 생성할 수 있다는 것입니다.
또한 DreamBooth는 입력 노이즈가 많은 이미지에 비해 주어진 대상과 더 유사한 출력 이미지를 효과적으로 생성할 수 있습니다.
그림 2(가운데)는 입력 NeRF 렌더링의 관점을 보존하면서 DreamBooth가 대상 이미지와 더 유사함을 보여주는 Img2Img 변환의 샘플 출력을 보여줍니다.
Stage-3: Final NeRF with Multi-view DreamBooth.
이전 단계는 거의 정확한 카메라 시점 {v}를 가진 pseudo 다중 뷰 대상 이미지 {I_v^pseudo}를 제공합니다.
DreamBooth와 Img2Img 변환의 확률적 특성으로 인해 관점과 대상 유사성 모두 대략적으로 정확할 뿐입니다.
생성된 다중 뷰 이미지 {I_v^pseudo}를 입력 대상 이미지 {I_i}와 결합하여 결합된 데이터 I^aug = {I_v^pseudo} ∪ {I_i}를 생성합니다.
그런 다음 이 데이터를 사용하여 최종 DreamBooth 모델과 최종 NeRF 3D 자산을 최적화합니다.
보다 구체적으로, 우리는 이 증강 데이터를 사용하여 1단계에서 부분적으로 학습된 DreamBooth ^D_θ*를 추가로 미세 조정하여 Multi-view DreamBooth ^D_θ^multi라고 합니다.
그런 다음 이 ^D_θ^multi 모델을 사용하여 DreamFusion SDS loss(식2)을 사용하여 NeRF 3D 자산을 최적화합니다.
이는 다중 뷰 DreamBooth가 1단계의 부분 DreamBooth에 비해 뷰 일반화 및 대상 보존이 더 낫기 때문에 상당히 더 나은 대상-정체성을 가진 NeRF 모델을 생성합니다.
실제로, 우리는 SDS loss만을 사용하여 최적화된 결과 NeRF 자산이 일반적으로 주어진 대상에 대해 좋은 기하학적 유사성을 가지지만 일부 색상 포화 아티팩트를 가지고 있음을 관찰합니다.
색상 변화를 설명하기 위해 우리는 pseudo 다중 뷰 이미지 {I_v^pseudo}를 사용하여 새로운 약한 재구성 loss를 도입합니다.
특히 이러한 이미지가 생성된 카메라 매개 변수 {P_v}를 알고 있기 때문에 재구성 loss가 있는 γ 매개 변수를 사용하여 두 번째 NeRF MLP F_γ의 학습을 추가로 정규화합니다: (3)
여기서 Γ(F_γ, P_v)는 NeRF_γ에서 카메라 시점 P_v를 따라 이미지를 렌더링하는 렌더링 함수입니다.
이 loss는 생성된 볼륨의 색 분포를 이미지 예제의 색 분포에 더 가깝게 끌어다 놓고 보이지 않는 뷰에서 대상 유사성을 개선하는 이중적인 목적을 제공합니다.
그림 2(오른쪽)는 SDS 및 다중 뷰 재구성 loss를 사용한 최종 NeRF의 최적화를 보여줍니다.
최종 NeRF 최적화 objective는
와 같습니다, 여기서 L_nerf는 Mip-NeRF360에 사용되는 추가적인 NeRF 정규화를 나타냅니다[2].
DreamBooth 3D 최적화에 대한 자세한 내용은 보충 자료를 참조하십시오.
4. Experiments
Implementation Details.
우리는 실험에서 Imagen [39] T2I 모델을 사용합니다.
Imagen 모델은 텍스트 인코딩에 T5-XXL [35] 언어 모델을 사용합니다.
NeRF 측면에서는 DreamFusion을 사용합니다 [33].
우리 모델은 4코어 TPUv4에서 3단계의 최적화를 모두 완료하는 데 프롬프트당 약 3시간이 소요됩니다.
고정 150회 반복을 사용하여 부분 DreamBooth 모델 ^D_θ^partial을 학습합니다.
전체 DreamBooth ^D_θ 학습을 위해 800회 반복을 사용하며, 이는 다양한 대상에 걸쳐 최적임을 알 수 있습니다.
pseudo 다중 뷰 데이터 생성을 위해 원본에서 고정 반경으로 균일하게 샘플링된 20개의 이미지를 렌더링합니다.
우리는 3단계에서 추가적인 150회 반복을 위해 부분적으로 학습된 ^D_θ*를 미세 조정합니다.
하이퍼 파라미터에 대한 자세한 내용은 보충 자료를 참조하십시오.
Datasets.
[38]의 저자들이 공개한 이미지 컬렉션에 대한 3D 모델로 개인화된 텍스트를 학습합니다.
이 데이터 세트는 30개의 서로 다른 이미지 컬렉션으로 구성되며, 4-6개의 다양한 대상(dogs, toys, backpack, sunglasses, cartoon etc.)를 캐주얼하게 캡처합니다.
우리는 또한 희귀 물체의 성능을 분석하기 위해 일부 희귀 물체의 이미지(그림 4의 "owl showpiece"와 같은)를 캡처합니다.
또한 3D 상황화를 시연하기 위해 3-6개의 프롬프트에서 각 3D 모델을 최적화합니다.
Baselines.
우리는 비교를 위해 두 가지 주요 베이스라인을 고려합니다.
Stable Diffusion [37]의 잠재 공간에서 SDS loss를 사용하여 RGB 픽셀 공간이 아닌 잠재 피쳐 공간에서 3D NeRF 모델을 학습하는 Latent-NeRF [27].
기본적으로, 우리는 완전히 DreamBoothed T2I 모델을 사용하여 Latent-NeRF를 실행하고 실험에서 "Latent-NeRF" 또는 "L-NeRF"라고 부릅니다.
우리는 먼저 DreamBooth diffusion 모델을 학습한 후 DreamFusion을 사용하여 3D NeRF 최적화를 수행하는 단일 단계 DreamFusion+DreamBooth 접근 방식과 추가로 비교합니다.
우리는 실험에서 우리의 결과를 "DreamBooth3D" 또는 "DB3D"라고 부릅니다.
Evaluation Metrics.
이미지에서 텍스트 프롬프트를 얼마나 정확하게 검색할 수 있는지 측정하는 CLIP R-Precision 메트릭을 사용하여 접근 방식을 평가합니다 [32].
[33]과 유사하게, 우리는 방위각이 40도의 고정된 고도에서 렌더링하는 160개 이상의 균일한 공간에 대한 평균 CLIP R-Precision을 계산합니다.
평가에 사용되는 CLIP 모델은 CLIP ViT-B/16, ViT-B/32 및 ViT-L-14 모델입니다.
이러한 CLIP 메트릭은 생성된 3D 자산의 품질과 대상 충실도만 대략적으로 캡처할 수 있기 때문에 다른 결과를 비교하는 사용자 연구를 추가로 수행합니다.
4.1. Results
Visual Results.
그림 1은 다양한 의미 변화 및 맥락화와 함께 우리 접근 방식의 샘플 시각적 결과를 보여줍니다.
결과는 우리의 흔치 않은 owl 개체에 대해서도 DreamBooth 3D로 고품질 기하학적 추정을 보여줍니다.
맥락화 예제는 DreamBooth 3D가 입력 텍스트 프롬프트에 존재하는 컨텍스트를 충실히 존중한다는 것을 보여줍니다.
그림 3은 Latent-NeRF 및 DreamBooth+Fusion 베이스라인과 비교하여 우리의 접근 방식의 샘플 결과를 보여줍니다.
Latent-NeRF는 일부 경우(그림 3의 rubber duck 등)에 상당히 잘 작동하지만, 더 자주 합리적인 모양을 가진 일관된 3D 모델로 수렴하지 못합니다.
DreamBooth+Fusion은 일반적으로 Janus 문제가 있는 3D 자산을 생성합니다(다른 시야각에 걸쳐 동일한 모양과 형상이 각인됨).
반면, DreamBooth 3D는 주어진 대상의 기하학적 세부사항과 외관 세부사항을 모두 캡처하면서 360˚ 일관된 3D 자산을 일관되게 생성합니다.
Quantitative Comparisons.
표 1은 나이브한 DreamBooth+Fusion(베이스라인) 및 DreamBooth 3D 생성에 대한 CLIP R-Precision 측정 메트릭을 보여줍니다.
결과는 DreamBooth 3D 결과에 대해 훨씬 더 높은 점수를 보여줌으로써 결과의 3D 일관성과 텍스트 프롬프트 정렬이 향상되었음을 분명히 보여줍니다.
Initial vs. Final NeRF.
그림 4는 파이프라인의 1단계와 3단계 이후 생성된 초기 및 최종 NeRF 결과의 샘플을 보여줍니다.
시각적 결과에서 알 수 있듯이, 초기 NeRF는 주어진 대상과 부분적으로만 유사하지만 3D에서 일관됩니다.
3단계의 최종 NeRF는 일관된 3D 구조를 유지하면서 주어진 대상과 더 유사합니다.
이러한 예는 DreamBooth 3D에서 3단계 최적화의 필요성을 보여줍니다.
User Study.
우리는 세 개의 축에서 우리의 방법을 평가하기 위해 DreamBooth 3D를 베이스라인과 비교하는 쌍으로 사용자 연구를 수행합니다:
(1) 대상 충실도 - 사용자에게 "어떤 3D 항목이 원래 대상과 더 유사합니까?"라는 질문에 대한 답변을 제공합니다;
(2) 사용자가 "어떤 3D 항목이 더 그럴듯하고 일관된 형상을 가지고 있습니까?"라고 대답하는 3D 일관성 및 신뢰성
및 (3) "제공된 프롬프트를 가장 잘 존중하는 비디오는 무엇입니까?"라고 사용자가 대답하는 입력 프롬프트에 대한 프롬프트 충실도입니다.
사용자는 방법이나 베이스라인 또는 세 번째 옵션 "Cannot determining / both equality"를 선택할 수 있습니다.
3D 일관성 및 대상 충실도에 대한 처음 두 사용자 연구의 경우 데이터 세트의 30개 대상 각각에 대해 하나씩 회전 비디오 결과를 비교하고 11명의 사용자에게 각 쌍에 투표하도록 요청합니다.
신속한 충실도 연구를 위해 54개의 고유한 프롬프트 및 대상 쌍에 대한 비디오를 생성하고 21명의 사용자에게 응답을 요청합니다.
다수결 투표를 사용하여 최종 결과를 계산하고 그림 5에 제시합니다.
우리는 DreamBooth 3D가 3D 일관성, 대상 충실도 및 프롬프트 충실도 측면에서 베이스라인보다 훨씬 선호된다는 것을 발견했습니다.
4.2. Sample Applications
DreamBooth 3D는 대상 정체성을 유지하면서 텍스트 프롬프트에 존재하는 컨텍스트를 충실하게 표현할 수 있습니다.
텍스트 프롬프트의 간단한 변경으로 DreamBooth 3D는 많은 흥미로운 3D 응용 프로그램을 가능하게 하며, 그렇지 않으면 기존 3D 모델링 기술을 사용하여 해결하는 데 지루한 수작업이 필요합니다.
Recontextualization.
그림 6은 앉아서 자고 점프하는 간단한 프롬프트로 3D dog 모델을 재구성하는 다양한 dog 대상에 대한 샘플 결과를 보여줍니다.
시각 자료가 보여주듯이, 해당 3D 모델은 모든 대상에 걸쳐 텍스트 프롬프트에서 주어진 컨텍스트를 일관되게 존중합니다.
또한 출력 3D 모델의 3D 관절과 로컬 변형은 입력 대상 이미지에서 이러한 포즈 중 몇 가지가 보이지 않더라도 매우 현실적입니다.
Color/Materical Editing.
그림 7은 분홍색 백팩을 파란색 또는 녹색 백팩으로 변환하여 'a [v] blue backpack'과 같은 간단한 텍스트 프롬프트를 표시할 수 있는 샘플 색상 편집 결과를 보여줍니다.
마찬가지로 3D 자산의 재료 모양을 쉽게 편집할 수도 있습니다(예: metal can to wodden can).
색상 및 재료 편집 결과에 대한 자세한 내용은 보충 자료를 참조하십시오.
Accessorization.
그림 7은 3D 고양이 모델 출력에 넥타이나 정장을 착용한 고양이 대상에 대한 샘플 액세서리화 결과를 보여줍니다.
마찬가지로, 모자나 선글라스 등을 착용하는 것과 같은 다른 액세서리를 생각할 수 있습니다.
Stylization.
그림 7은 색상과 크림색 신발은 색과 함께 스타일화되는 샘플 스타일화 결과를 보여준다.
Cartoon-to-3D.
우리가 실험하는 동안 발견한 다소 놀라운 결과는 DreamBooth 3D가 2D 평면 만화 이미지와 같은 사실적이지 않은 대상 이미지를 그럴듯한 3D 모양으로 변환할 수 있다는 것입니다.
그림 7은 모든 이미지가 전면에서만 만화를 보여주지만 빨간색 만화 캐릭터에 대한 결과 3D 모델이 타당한 샘플 결과를 보여줍니다.
다양한 애플리케이션에 대한 보다 질적인 결과는 보충 자료를 참조하십시오.
4.3. Limitations
우리의 방법은 주어진 대상의 고품질 3D 자산 생성을 허용하고 이전 작업보다 개선되지만 몇 가지 제한 사항을 관찰합니다.
첫째, 최적화된 3D 표현은 때때로 과포화되고 과도하게 평활되며, 이는 부분적으로 높은 지침 가중치를 갖는 SDS 기반 최적화에 의해 발생합니다 [33].
이는 64x64 픽셀의 비교적 낮은 이미지 해상도로 제한된 결과이기도 합니다.
diffusion 모델과 신경 렌더링의 효율성 향상은 잠재적으로 더 높은 해상도로 확장할 수 있습니다.
또한, 최적화된 3D 표현은 입력 이미지에 시점 변화가 없는 경우 여러 일관되지 않은 시점에서 정면을 향하고 있는 것처럼 보이는 Janus 문제로 인해 어려움을 겪을 수 있습니다.
마지막으로, 우리의 모델은 때때로 선글라스와 같은 얇은 물체 구조를 재구성하는 데 어려움을 겪습니다.
그림 8은 몇 가지 실패 결과를 보여줍니다.
5. Conclusion
본 논문에서, 우리는 대상 중심의 text-to-3D 생성 방법인 DreamBooth 3D를 제안했습니다.
(카메라 포즈와 같은 추가 정보 없이) 대상의 몇 가지 (3-6) 캐주얼 이미지 캡처가 주어지면 입력 텍스트 프롬프트(예: sleeping, jumping, red, etc.)에서 제공되는 상황화도 준수하는 대상별 3D 자산을 생성합니다.
DreamBooth 데이터 세트[38]에 대한 광범위한 실험은 우리의 방법이 입력 텍스트 프롬프트에 존재하는 컨텍스트를 존중하면서 주어진 대상과 유사성이 높은 현실적인 3D 자산을 생성할 수 있다는 것을 보여주었습니다.
우리의 방법은 양적 및 질적 평가 모두에서 여러 베이스라인을 능가합니다.
앞으로도 대상 중심 3D 생성의 사실성과 제어성을 지속적으로 개선할 계획입니다.
'text-to-3D' 카테고리의 다른 글
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation (0) | 2023.10.29 |
---|---|
Magic3D: High-Resolution Text-to-3D Content Creation (0) | 2023.10.26 |
Zero-1-to-3: Zero-shot One Image to 3D Object (0) | 2023.07.24 |
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors (0) | 2023.07.17 |
DreamFusion: Text-to-3D using 2D Diffusion (0) | 2022.10.18 |