DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

2023. 10. 29. 14:59text-to-3D

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

 

Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng

 

Abstract

3D 콘텐츠 생성의 최근 발전은 대부분 score distillation sampling (SDS)을 통한 최적화 기반 3D 생성을 활용합니다.

유망한 결과가 나타났지만, 이러한 방법은 종종 샘플당 최적화가 느려 실용적인 사용이 제한됩니다.

본 논문에서는 효율성과 품질을 동시에 달성하는 새로운 3D 콘텐츠 생성 프레임워크인 DreamGaussian을 제안합니다.

우리의 핵심 통찰력은 UV 공간에서 동반 메시 추출 및 텍스처 정교화를 포함한 생성 3D Gaussian Splatting 모델을 설계하는 것입니다.

Neural Radiance Fields에서 사용되는 점유 가지치기와는 대조적으로, 3D Gaussian의 점진적 밀도가 3D 생성 작업에 대해 훨씬 빠르게 수렴한다는 것을 보여줍니다.

텍스처 품질을 더욱 향상시키고 다운스트림 애플리케이션을 용이하게 하기 위해 3D Gaussian을 텍스처 메시로 변환하고 파인튜닝 단계를 적용하여 세부 사항을 정교화하는 효율적인 알고리즘을 도입합니다.

광범위한 실험은 제안된 접근 방식의 우수한 효율성과 경쟁력 있는 생성 품질을 입증합니다.

특히 DreamGaussian은 단일 뷰 이미지에서 고품질 텍스처 메시를 단 2분 만에 생성하여 기존 방법에 비해 약 10배 가속화를 달성합니다.

 

 

1. Introduction

자동 3D 디지털 콘텐츠 생성은 디지털 게임, 광고, 영화 및 메타버스를 포함한 다양한 영역에서 응용 프로그램을 찾습니다.

image-to-3D 및 text-to-3D를 포함한 핵심 기술은 전문 아티스트 간의 수작업의 필요성을 크게 줄이고 비전문가 사용자가 3D 자산 생성에 참여할 수 있도록 함으로써 상당한 이점을 제공합니다.

최근 2D 콘텐츠 생성의 획기적인 발전에서 영감을 얻어(Rombach et al., 2022), 3D 콘텐츠 생성 분야는 급속한 발전을 거듭하고 있습니다.

3D 콘텐츠 생성 분야의 최근 연구는 크게 두 가지로 분류할 수 있습니다: 추론 전용 3D 네이티브 방법과 최적화 기반 2D 리프팅 방법.

이론적으로 3D 네이티브 방법(Jun & Nichol, 2023; Nichol et al., 2022; Gupta et al., 2023)은 대규모 3D 데이터 세트에 대한 광범위한 학습이 필요한 비용이지만 몇 초 안에 3D 일관 자산을 생성할 수 있는 잠재력을 보여줍니다.

이러한 데이터 세트의 생성에는 상당한 인적 노력이 필요하며, 이러한 노력에도 불구하고 제한된 다양성과 현실성과 관련된 문제와 계속 씨름하고 있습니다(Deitke et al., 2023b;a; Wu et al., 2023).

 

반면, Dreamfusion (Pool et al., 2022)은 강력한 2D diffusion 모델(Saharia et al., 2022)에서 3D 기하학적 구조와 외관을 distilling하여 3D 데이터 제한을 해결하기 위한 Score Distillation Sampling (SDS)을 제안하며, 이는 최근 2D 리프팅 방법의 개발에 영감을 준다(Lin et al., 2023; Wang et al., 2023b; Chen et al., 2023b).

SDS supervision에 의해 야기되는 불일치와 모호성에 대처하기 위해, 일반적으로 풍부한 3D 정보를 모델링하는 능력으로 Neural Radiance Fields (NeRF)(Mildenhall et al., 2020)가 채택됩니다.

생성 품질이 점점 향상되고 있지만, 이러한 접근 방식은 비용이 많이 드는 NeRF 렌더링으로 인해 몇 시간 동안의 최적화 시간으로 악명이 높으며, 이는 규모가 큰 실제 애플리케이션에 배포되는 것을 제한합니다.

NeRF(Miller et al., 2022; Sara Fridovich-Keil and Alex Yu et al., 2022)를 가속하는 데 사용되는 점유 가지치기 기법은 재구성 설정과 달리 모호한 SDS loss에 의해 supervised될 때 생성 설정에서 효과적이지 않다고 주장합니다.

 

본 연구에서는 최적화 기반 파이프라인의 설계 선택 사항을 refine하여 3D 콘텐츠 생성 효율성을 크게 향상시키는 DreamGaussian 프레임워크를 소개합니다.

명시적인 메시와 텍스처 맵을 사용하는 사실적 3D 자산은 우리의 방법을 사용하여 단 2분 안에 단일 뷰 이미지에서 생성할 수 있습니다.

우리의 핵심 설계는 동반된 메시 추출 및 텍스처 정제와 함께 3D Gaussian Splatting (Kerbl et al., 2023)을 생성 설정에 적용하는 것입니다.

빈 공간을 효과적으로 가지치기하는 데 어려움을 겪는 NeRF 표현의 이전 방법에 비해 생성 Gaussian Splatting은 최적화 환경을 크게 단순화합니다.

특히 생성 설정의 최적화 진행률에 따라 생성 효율을 크게 향상시키는 Gaussian Splitting의 점진적인 밀도를 입증합니다.

그림 1과 같이 image-to-3D 파이프라인은 몇 초 안에 coarse 모양을 빠르게 생성하고 단일 GPU에서 약 500단계로 효율적으로 수렴합니다.

그림 1: DreamGaussian은 image-to-3D와 text-to-3D 작업 모두의 최적화 프로세스를 가속화하는 것을 목표로 합니다. 우리는 몇 분 안에 고품질 텍스처 메시를 생성할 수 있습니다.

SDS superivision의 모호성과 공간 밀도로 인해 3D Gaussian에서 직접 생성된 결과는 블러한 경향이 있습니다.

이 문제를 해결하기 위해 텍스처를 명시적으로 다듬어야 하며, 이는 생성된 3D Gaussian에서 섬세한 텍스처의 다각형 메시 추출이 필요합니다.

이 작업은 이전에 탐구되지 않았지만, 로컬 밀도 쿼리를 통해 3D Gaussian에서 메시 추출을 위한 효율적인 알고리즘을 설계합니다.

그런 다음 텍스처 세부 사항을 향상시키기 위해 생성 UV 공간 정제 단계가 제안됩니다.

첫번째 단계와 같이 잠재 공간 SDS loss를 직접 적용하면 UV 맵에서 과포화 블록 아티팩트가 발생한다는 관찰을 고려하여 디퓨전 기반 이미지 편집 방법(Meng et al., 2021)에서 영감을 얻어 이미지 공간 supervision을 수행합니다.

이전의 텍스처 정제 접근 방식에 비해 정제 단계는 높은 효율성을 유지하면서 더 나은 충실도를 달성합니다.

 

요약하면 다음과 같습니다:
 1. 최적화 기반 2D 리프팅 방법의 생성 시간을 크게 단축하면서 Gaussian Splatting을 생성 설정에 적용하여 3D 컨텐츠 생성을 위한 새로운 프레임워크를 제안합니다.
 2. 3D Gaussians에서 효율적인 메쉬 추출 알고리즘과 UV-공간 텍스쳐 정제 단계를 설계하여 생성 품질을 더욱 향상시킵니다.
 3. image-to-3D 및 text-to-3D 작업에 대한 광범위한 실험은 우리의 방법이 최적화 시간과 생성 충실도의 균형을 효과적으로 유지하여 3D 콘텐츠 생성의 실제 배포 가능성을 열어준다는 것을 보여줍니다.

 

 

2  Related Work

2.1 3D Representations

다양한 3D 작업에 대해 다양한 3D 표현이 제안되어 왔습니다.

Neural Radiance Fields (NeRF) (Mildenhall et al., 2020)는 체적 렌더링을 사용하며 2D supervision만으로 3D 최적화를 가능하게 하는 데 인기가 있습니다.

NeRF는 3D 재구성(Barron et al., 2022; Li et al., 2023c; Chen et al., 2022; Hedman et al., 2021)과 생성(Pool et al., 2022; Lin et al., 2023; Chan et al., 2022)에서 NeRF를 최적화하는 데는 많은 시간이 소요될 수 있습니다.

NeRF의 학습을 가속화하기 위한 다양한 시도가 있었지만(M¨uller et al., 2022; Sara Fridovich-Keil and Alex Yu et al., 2022), 이러한 작업은 재구성 설정에만 초점을 맞추고 있습니다.

공간 가지치기의 일반적인 기술은 생성 설정을 가속화하지 못합니다.

최근 3D Gaussian Splatting (Kerbl et al., 2023)은 3D 재구성에서 인상적인 품질과 속도를 보여준 NeRF의 대체 3D 표현으로 제안되었습니다(Luiten et al., 2023).

효율적인 미분 가능한 렌더링 구현 및 모델 설계를 통해 공간 가지치기에 의존하지 않고 빠른 학습이 가능합니다.

본 연구에서는 최적화 기반 방법의 잠재력을 방출하기 위해 3D Gaussian Splatting을 생성 작업에 처음으로 적용합니다.

 

2.2 Text-to-3D Generation

text-to-3D 생성은 텍스트 프롬프트에서 3D 자산을 생성하는 것을 목표로 합니다.

최근 데이터 기반 2D diffusion 모델은 text-to-image 생성에서 주목할 만한 성공을 거두었습니다(Ho et al., 2020; Rombach et al., 2022; Saharia et al., 2022).

그러나 3D 생성으로 전송하는 것은 대규모 3D 데이터 세트를 큐레이팅하는 문제로 인해 쉽지 않습니다.

기존 3D 네이티브 diffusion 모델은 일반적으로 단일 객체 범주에서 작업하며 제한된 다양성으로 어려움을 겪습니다(Jun & Nichol, 2023; Nichol et al., 2022; Gupta et al., 2023; Lorraine et al., 2023; Zhang et al., 2023; Zhang et al., 2023; Zhang et al., 2023; Cheng et al., 2023).

개방형 어휘 3D 생성을 달성하기 위해, 여러 방법들이 3D 생성을 위해 2D 이미지 모델을 리프팅할 것을 제안합니다 (Jain et al., 2022; Pool et al., 2022; Wang et al., 2023a; Mohammad Khalid et al., 2022; Michel et al., 2022).

이러한 2D 리프팅 방법은 3D 표현을 최적화하여 3D 일관성과 현실성을 모두 보장할 수 있도록 다양한 관점에서 렌더링될 때 사전 학습된 2D diffusion 모델에서 높은 가능성을 달성하도록 합니다.

다음 작업은 생성 충실도 및 학습 안정성과 같은 다양한 측면을 계속 강화하고 (Lin et al., 2023; Talicoglu et al., 2023; Zhu & Zhang, 2023; Li et al., 2023b; Chen et al., 2023). Wang et al., Huang et al., 2023; Metzer et al., 2022; Chen et al., 2023) 추가 응용 프로그램을 탐색합니다 (Zhuang et al., 2023; Singer et al., 2023; Raj et al., 2023).

그러나, 이러한 최적화 기반 2D 리프팅 접근법은 일반적으로 케이스당 최적화 시간이 길어집니다.
특히, NeRF를 3D 표현으로 사용하는 것은 순방향 및 역방향 모두에서 값비싼 계산을 초래합니다.

본 연구에서, 우리는 미분 가능한 3D 표현으로 3D Gaussians을 선택하고 그것이 더 간단한 최적화 풍경을 가지고 있음을 경험적으로 보여줍니다.

 

2.3 Image-to-3D Generation

image-to-3D 생성은 참조 이미지에서 3D 자산을 생성하는 것을 타겟으로 합니다.

문제는 단일 뷰 3D 재구성(Yu et al., 2021; Trevithick & Yang, 2021; Duggal & Pathak, 2022)으로도 공식화될 수 있지만, 이러한 재구성 설정은 불확실성 모델링이 없기 때문에 일반적으로 블러 결과를 낳습니다.

text-to-3D 방법은 이미지 캡션 모델(Li et al., 2022; 2023a)을 사용하여 image-to-3D 생성(Xu et al., 2023a; Tang et al., 2023b; Melas-Kyriazi et al., 2023a)에도 적용될 수 있습니다.

최근 Zero-1-to-3(Liu et al., 2023b)은 카메라 변환을 2D diffusion 모델로 명시적으로 모델링하고 제로샷 이미지 조건의 새로운 뷰 합성을 가능하게 합니다.

SDS와 결합하면 높은 3D 생성 품질을 달성하지만 여전히 긴 최적화 시간(Tang, 2022; Qian et al., 2023a). One-2-3-45(Liu et al., 2023a)는 생성 품질 비용으로 가속화를 위한 다중 뷰 재구성 모델을 학습합니다.

효율성에 최적화된 프레임워크를 통해 품질을 거의 희생하지 않고 image-to-3D 최적화 시간을 2분으로 단축합니다.

 

그림 2: DreamGaussian 프레임워크. 3D Gaussians는 단일 단계 SDS loss를 이용하여 효율적인 기하학 및 외형 초기화를 위해 사용됩니다. 그런 다음 텍스처 메시를 추출하고 다단계 MSE loss로 텍스처 이미지를 정제합니다.

3  Our Approach

본 섹션에서는 그림 2와 같이 image-to-3D 및 text-to-3D 작업 모두에 대한 효율적인 3D 콘텐츠 생성을 위한 2단계 프레임워크를 소개합니다.

먼저, SDS(Pool et al., 2022)를 통해 효율적인 초기화를 위해 3D Gaussian Splatting (Kerbl et al., 2023)을 생성 작업에 적용합니다(섹션 3.1).

다음으로, 3D Gaussian에서 텍스처링된 메쉬를 추출하는 효율적인 알고리즘을 제안합니다(섹션 3.2).

이 텍스처는 최종 내보내기를 위한 UV-공간 정제 단계(섹션 3.3)를 통해 미분 가능한 렌더링(Lain et al., 2020)에 의해 파인튜닝됩니다.

 

3.1 Generative Gaussian Splatting

Gaussian splatting (Kerbl et al., 2023)은 3D 가우시안 집합으로 3D 정보를 나타냅니다.

NeRF와 유사한 모델링 시간 하에서 높은 추론 속도와 재구성 품질로 재구성 설정(Kerbl et al., 2023; Luiten et al., 2023)에서 효과가 입증되었습니다.

그러나 생성 방식에서의 사용은 탐구되지 않았습니다.

3D 가우시안이 3D 생성 작업에 효율적일 수 있음을 확인합니다.

 

구체적으로, 각 가우시안의 위치는 중심 x ∈ R^3, 스케일링 인자 s ∈ R^3, 회전 4차 이온 q ∈ R^4로 설명될 수 있습니다.

우리는 또한 볼륨 렌더링을 위해 불투명도 값 α ∈ R과 색상 피쳐 c ∈ R^3을 저장합니다.

Spherical harmonics는 단순 diffuse 색상만 모델링하고 싶기 때문에 비활성화됩니다.

위의 모든 최적화 가능한 매개 변수는 Θ에 의해 제시되며, 여기서 Θ_i = {x_i, s_i, q_i, α_i, c_i}는 i번째 가우시안의 매개 변수입니다.

3D 가우시안 집합을 렌더링하기 위해 우리는 그것들을 2D 가우시안으로 이미지 평면에 투영해야 합니다.

그런 다음 최종 색상과 알파를 평가하기 위해 전후 depth의 각 픽셀에 대해 볼륨 렌더링을 수행합니다. 

본 연구에서는 Θ를 최적화하기 위해 Kerbl et al. (2023)의 고도로 최적화된 렌더러 구현을 사용합니다.

 

우리는 회전 없이 단위 스케일링으로 구 내부에서 샘플링된 임의의 위치로 3D 가우시안을 초기화합니다.

이 3D 가우시안은 최적화 동안 주기적으로 밀도를 높인다.

재구성 파이프라인과 달리, 우리는 더 적은 가우시안에서 시작하지만 생성 진행에 맞추기 위해 더 자주 밀도를 높입니다.

우리는 이전 연구(Pool et al., 2022; Huang et al., 2023; Lin et al., 2023)의 권장 사례를 따르고 SDS를 사용하여 3D 가우시안을 최적화합니다.

각 단계에서, 우리는 물체 중심을 도는 랜덤 카메라 포즈 p를 샘플링하고 현재 뷰의 RGB 이미지 I_RGB^p와 투명도 I_A^p를 렌더링합니다.

Dreamtime (Huang et al., 2023)과 유사하게, 우리는 렌더링된 RGB 이미지에 랜덤 노이즈 ϵ를 가중하는 데 사용되는 시간 단계 t를 선형적으로 줄입니다.

그런 다음, 서로 다른 2D diffusion priors ϕ를 사용하여 3D 가우시안으로 역전파되는 SDS 디노이징 단계를 가이드합니다.

 

Image-to-3D.

image-to-3D 작업의 경우, 이미지 ˜I_RGB^r와 전경 마스크 ˜I_A^r가 입력으로 제공됩니다.

Zero-1-3 XL(Liu et al., 2023b; Deitke et al., 2023b)은 2D diffusion prior로 채택됩니다.

SDS loss는

과 같이 공식화될 수 있으며, 여기서 ϵ_ϕ(·)는 2D diffusion prior ϕ에 의해 예측된 노이즈이고, ∆p는 참조 카메라 r로부터의 상대적인 카메라 포즈 변화입니다.

또한, 우리는 참조 뷰 이미지 I_RGB^r와 투명도 I_A^r를 입력에 맞게 최적화합니다:

, 여기서 λ_RGB와 λ_A는 학습 중 선형적으로 증가하는 가중치입니다.

최종 loss는 위의 세 loss의 가중 합입니다.

 

Text-to-3D.

text-to-3D 입력은 단일 텍스트 프롬프트입니다.

이전 작업에 이어 Stable diffusion (Rombach et al, 2022)이 text-to-3D 작업에 사용됩니다.

SDS loss는

으로 공식화할 수 있으며, 여기서 e는 입력 텍스트 설명의 CLIP 임베딩입니다.

 

Discussion.

생성된 Gaussians는 더 긴 SDS 학습 반복에도 불구하고 종종 블러하게 보이고 디테일이 부족하다는 것을 관찰합니다.

이는 SDS loss의 모호성으로 설명될 수 있습니다.

각 최적화 단계에서 일관성 없는 3D 가이던스를 제공할 수 있기 때문에 재구성에서와 같이 재구성 중인 영역을 정확하게 밀도를 높이거나 과잉 재구성 영역을 가지치기는 어렵습니다.

이러한 관찰은 다음과 같은 메쉬 추출 및 텍스처 정제 설계로 이어집니다.

 

3.2 Efficient Mesh Extraction

다각형 메쉬는 특히 산업 응용 분야에서 널리 사용되는 3D 표현입니다.

많은 이전 작업(Pool et al., 2022; Lin et al., 2023; Tsalicoglou et al., 2023; Tsalicoglou et al., 2023; Tang et al., 2023a)은 고해상도 파인튜닝을 위해 NeRF 표현을 메쉬 기반 표현으로 내보냅니다.

또한 생성된 3D Gaussians를 메쉬로 변환하고 질감을 더욱 정제화하려고 합니다.

 

우리가 아는 한, 3D 가우시안에서 다각형 메쉬 추출은 여전히 해결되지 않은 문제입니다.

공간 밀도는 많은 수의 3D 가우시안에 의해 설명되기 때문에 밀도가 높은 3D 밀도 그리드의 단순한 쿼리는 느리고 비효율적일 수 있습니다.

또한 색상 블렌딩은 투영된 2D 가우시안으로만 정의되기 때문에 3D에서 외관을 추출하는 방법도 불분명합니다(Kerbl et al., 2023).

여기서는 블록 단위 로컬 밀도 쿼리와 역투영된 색상을 기반으로 텍스처링된 메쉬를 추출하는 효율적인 알고리즘을 제안합니다.

 

Local Density Query.

메쉬 지오메트리를 추출하기 위해서는 마칭 큐브(Lorensen & Cline, 1998) 알고리즘을 적용하기 위해 밀도 높은 그리드가 필요합니다.

Gaussian Splatting 알고리즘의 중요한 특징은 크기가 큰 가우시안들이 최적화되는 동안 분할되거나 가지치기 된다는 것입니다.

이것이 효율적인 래스터화를 위한 타일 기반 도태 기술의 기초입니다(Kerbl et al., 2023).

또한 이 특징을 활용하여 블록 단위 밀도 쿼리를 수행합니다.

 

우리는 먼저 (-1, 1)^3의 3D 공간을 16^3 블록으로 나눈 다음, 중심이 각 로컬 블록 외부에 위치한 가우시안을 도태합니다.

이것은 각 블록에서 쿼리할 가우시안의 총 수를 효과적으로 줄입니다.

그런 다음 각 블록 내부에 있는 8^3 조밀 그리드를 쿼리하여 최종 128^3 조밀 그리드로 이어집니다.

그리드 위치 x에서 각 쿼리에 대해, 우리는 남아 있는 각 3D 가우시안의 가중 불투명도를 합합니다:

, 여기서 ∑_i는 스케일링 s_i와 회전 q_i로부터 구축된 공분산 행렬입니다.

경험적 임계치를 사용하여 마칭 큐브를 통해 메쉬 표면을 추출합니다.

추출된 메쉬를 매끄럽게 하기 위해 Decimation과 Remeshing(Cignoni et al., 2008)을 적용하여 후처리합니다.

 

Color Back-projection.

메시 지오메트리를 습득했기 때문에 렌더링된 RGB 이미지를 메시 표면에 역투영하여 텍스처로 구을 수 있습니다.

먼저 메시의 UV 좌표(Young, 2021)를 unwrap하고 빈 텍스처 이미지를 초기화합니다.

그런 다음 azimuths 8개와 elevations 3개를 균일하게 선택하고 위 및 아래 뷰를 추가하여 해당 RGB 이미지를 렌더링합니다.

이러한 RGB 이미지의 각 픽셀은 UV 좌표를 기반으로 텍스처 이미지로 역투영될 수 있습니다.

Richardson et al. (2023)에 따라 메시 경계에서 불안정한 투영을 피하기 위해 카메라 공간 z 방향이 작은 픽셀을 제외합니다.

이 역투영된 텍스처 이미지는 다음 메시 텍스처 파인튜닝 단계의 초기화 역할을 합니다.

그림 3: Different Texture Fine-tuning Objectives. 우리는 SDS loss가 UV 공간 텍스처 최적화를 위한 아티팩트를 생성하고 제안된 MSE loss는 이를 방지함을 보여줍니다.

3.3 UV-space Texture Refinement

SDS 최적화의 모호성으로 인해 3D 가우시안에서 추출된 메쉬는 보통 그림 3과 같이 블러한 질감을 가지고 있습니다.

따라서 우리는 질감 이미지를 정제하기 위한 두 번째 단계를 제안합니다.

그러나 SDS loss로 UV 공간을 직접 파인튜닝하는 것은 종종 아티팩트로 이어지는데, 이는 이전 연구(Liao et al., 2023)에서도 관찰됩니다.

이는 미분 래스터화에서 사용된 mipmap 질감 샘플링 기술(Laine et al., 2020) 때문입니다.

SDS와 같이 모호한 가이던스를 사용하면 각 mipmap 레벨로 전파되는 그래디언트로 인해 색상 블록이 과포화됩니다.

따라서 우리는 블러힌 질감을 파인튜닝하기 위한 더 확실한 가이던스를 모색합니다.

 

SDEdit의 image-to-image 합성(Meng et al., 2021)과 재구성 설정에서 영감을 끌어냅니다.

이미 초기화 텍스처가 있기 때문에 임의의 카메라 뷰 p에서 블러한 이미지 I_coarse^p를 렌더링할 수 있습니다.

그런 다음, 이미지를 랜덤 노이즈로 섭동하고 정제된 이미지를 얻기 위해 2D diffusion prior를 사용하여 다단계 디노이징 프로세스 f_ϕ(·)을 적용합니다:

, 여기서 ϵ(t_start)는 타임스텝 t_start에서 랜덤 노이즈이며 c는 image-to-3D의 경우 ∆p, text-to-3D의 경우 e입니다.

시작 타임스텝 t_start는 노이즈 강도를 제한하기 위해 신중하게 선택되므로 정제된 이미지는 원래 내용을 깨지 않고 디테일을 강화할 수 있습니다.

이 정제된 이미지는 픽셀 단위 MSE loss를 통해 텍스처를 최적화하는 데 사용됩니다:

image-to-3D 작업의 경우에도 식 2의 참조 뷰 RGBA loss를 적용합니다.

대부분의 경우 약 50단계만이 좋은 디테일로 이어질 수 있는 반면, 더 많은 반복을 통해 질감의 디테일을 더욱 향상시킬 수 있음을 알 수 있습니다.

 

 

4  Experiments

4.1 Implementation Details

우리는 첫 번째 단계에 대해 500단계, 두 번째 단계에 대해 50단계를 학습합니다.

3D 가우시안은 반지름 0.5의 구 안에서 불투명도 0.1로 초기화되고 회색으로 초기화됩니다.

렌더링 해상도는 Gaussian Splatting의 경우 64에서 512로 증가하고 메쉬의 경우 128에서 1024로 랜덤으로 샘플링됩니다.

RGB와 투명도의 loss 가중치는 학습 동안 0에서 10^4 및 10^3으로 선형적으로 증가합니다.

image-to-3D의 경우 고정 반경 2에서 랜덤 카메라 포즈를 샘플링하고 text-to-3D, y축 FOV의 경우 2.5에서 49도, azimuth는 [-180, 180]도, elevation은 [-30, 30]도입니다.

배경은 gaussian splatting의 경우 흰색 또는 검은색으로 랜덤으로 렌더링됩니다.

image-to-3D 작업의 경우 두 단계는 각각 약 1분이 걸립니다.

우리는 입력 이미지를 배경 제거(Qin et al., 2020)로 전처리하고 전경 객체를 중심화합니다.

3D 가우시안은 5000개의 랜덤 입자로 초기화되고 각 100단계마다 밀도가 높습니다.

text-to-3D 작업의 경우 Stable Diffusion (Rombach et al., 2022) 모델에서 사용하는 512x512의 더 큰 해상도로 인해 각 단계를 완료하는 데 약 2분이 걸립니다.

우리는 1000개의 랜덤 입자로 3D 가우시안을 초기화하고 각 50단계마다 밀도를 높입니다.

메시 추출의 경우 마칭 큐브에 대해 경험적 임계값 1을 사용합니다.

모든 실험은 NVIDIA V100 (16GB) GPU로 수행되고 측정되지만 우리의 방법은 8GB 미만의 GPU 메모리를 필요로 합니다.

더 자세한 내용은 보조 자료를 확인하십시오.

그림 4: image-to-3D 비교. 다양한 이미지에서 생성 속도와 메쉬 품질 간의 균형을 더 잘 유지합니다.

4.2 Qualitative Comparisons

먼저 그림 4의 image-to-3D에 대한 정성적 비교를 제공합니다.

우리는 주로 최적화 기반 방법(Liu et al., 2023b)과 추론 전용 방법(Liu et al., 2023a; Jun & Nichol, 2023)의 세 가지 베이스라인과 비교합니다.

비교된 모든 방법의 경우, 우리는 생성된 모델을 정점 색상 또는 텍스처 이미지와 다각형 메쉬로 내보내고 주변 조명 아래에서 렌더링합니다.

생성 속도 측면에서, 우리의 접근 방식은 최적화 기반 방법과 비교할 때 주목할 만한 가속력을 보여줍니다.

생성된 모델의 품질과 관련하여, 우리의 방법은 특히 3D 기하학 및 시각적 외관의 충실도와 관련하여 추론 전용 방법을 능가합니다.

일반적으로, 우리의 방법은 생성 품질과 속도 사이에서 더 나은 균형을 달성하여 최적화 기반 방법과 동등한 품질에 도달하고 추론 전용 방법보다 약간 느립니다.

그림 5에서, 우리는 text-to-3D의 결과를 비교합니다.

image-to-3D 작업에서 발견한 것과 일치하여, 우리의 방법은 추론 기반 방법보다 더 나은 품질을 달성하고 다른 최적화 기반 방법보다 더 빠른 속도를 달성합니다.

또한, 우리는 그림 6에서 내보낸 메쉬의 품질을 강조합니다.

이러한 메쉬는 균일한 삼각형, 부드러운 표면 정규형, 그리고 선명한 텍스처 이미지를 보여 다운스트림 애플리케이션에 원활하게 통합하기에 잘 적합합니다.

예를 들어, Blender(Community, 2018)와 같은 소프트웨어를 활용하여 이러한 메쉬를 조작 및 애니메이션 목적으로 쉽게 사용할 수 있습니다.

그림 5: text-to-3D 비교. DreamFusion의 경우 Stable-Diffusion을 2D prior 버전으로 사용하는 Guo et al. (2023)의 구현을 사용합니다.
그림 6: Mesh Exportation. 3D 가우시안에서 고품질 질감의 메쉬를 내보내여 조작된 애니메이션과 같은 다운스트림 애플리케이션에서 원활하게 사용할 수 있습니다.
표 1: image-to-3D 작업의 생성 품질 및 속도에 대한 정량적 비교. Zero-1-to-3∗의 경우 메쉬 파인튜닝 단계를 통해 품질을 더욱 향상시킵니다(Tang, 2022).

4.3 Quantitative Comparisons

표 1에서는 이전 작품 (Melas-Kyriazi et al., 2023; Liu et al., 2023 a; Tang et al., 2023b)과 인터넷의 이미지 모음에 대해 서로 다른 image-to-3D 방식의 CLIP-similarity (Radford et al., 2021; Qian et al., 2023; Liu et al., 2023a) 및 평균 생성 시간을 보고합니다.

또한 표 2에 자세히 설명된 생성 품질에 대한 사용자 연구를 수행합니다.

본 연구는 image-to-3D 작업의 맥락에서 두 가지 중요한 측면인 참조 뷰 일관성과 전체 생성 품질 평가에 중점을 둡니다.

우리의 두 단계 결과는 추론 전용 방법에 비해 더 나은 뷰 일관성과 생성 품질을 달성합니다.

우리의 메쉬 품질은 다른 최적화 기반 방법에 비해 약간 뒤지지만, 우리는 10배 이상의 상당한 가속화에 도달합니다.

표 2: image-to-3D 작업에 대한 사용자 연구. 등급은 1-5 등급으로 높을수록 좋습니다.
그림 7: Ablation Study. 1단계 학습에서 설계 선택을 ablate합니다.

4.4 Ablation Study

우리는 그림 7의 방법 설계에 대한 ablation 연구를 수행합니다.

우리는 메시 파인튜닝이 이전 방법(Tang et al., 2023a; Lin et al., 2023)에서 잘 탐구되었다는 점을 감안하여 생성 Gaussian splatting 학습에 주로 관심이 있습니다.

특히, 우리는 우리 방법의 세 가지 측면에 대해 ablation을 수행합니다: 1) 3D 가우시안의 주기적인 고밀도화. 2) SDS loss에 대한 타임스텝 t의 선형 어닐링. 3) 참조 뷰 loss L_Ref의 영향.

우리의 연구 결과는 이러한 설계 요소 중 하나의 누락이 첫 번째 단계에서 생성된 모델의 품질을 저하시키는 결과를 초래한다는 것을 밝혀냈습니다.

특히, 최종 가우시안은 증가된 블러링과 부정확성을 보여 두 번째 파인튜닝 단계에 더 영향을 미칩니다.

 

 

5  Limitations and Conclusion

본 논문에서는 3D 컨텐츠 제작의 효율성을 크게 향상시킨 3D 컨텐츠 생성 프레임워크인 DreamGaussion을 소개합니다.

작업의 주요 특징은 다음과 같습니다: 1) 우리는 3D 생성에 매우 효율적인 생성 Gaussian splatting 파이프라인을 설계합니다. 2) 3D 가우시안에서 텍스처 메시를 효과적으로 도출하는 메시 추출 알고리즘을 제안합니다. 3) 텍스처 파인튜닝 단계를 통해 우리의 작업은 몇 분 안에 단일 이미지 또는 텍스트 설명에서 고품질 다각형 메시로 즉시 사용 가능한 3D 자산을 생성할 수 있습니다.

 

Limitations.

우리는 이전의 text-to-3D 작업과 공통적인 문제를 공유합니다: 멀티페이스 Janus 문제와 baked 조명.

다행히 최근 멀티뷰 2D diffusion 모델의 발전(Shi et al., 2023; Liu et al., 2023c; Zhao et al., 2023)과 잠재 BRDF 오토 인코더(Xu et al., 2023b)로 이러한 문제를 해결할 수 있습니다.

또한 image-to-3D 결과에서 생성된 백뷰 텍스처가 블러하게 보일 수 있습니다.

이는 더 긴 스테이지 2 학습으로 완화될 수 있습니다.