분류 전체보기(251)
-
Hallucinated Neural Radiance Fields in the Wild
Hallucinated Neural Radiance Fields in the Wild Xingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Ying Feng, Xuan Wang, Jue Wang AbstractNeural Radiance Fields (NeRF)는 최근 인상적인 새로운 뷰 합성 능력으로 인기를 얻고 있습니다. 이 논문은 환각 상태의 NeRF 문제를 연구합니다: 즉, 관광 이미지 그룹에서 하루 중 다른 시간에 현실적인 NeRF를 복구하는 것입니다. 기존 솔루션은 다양한 조건에서 새로운 뷰를 렌더링하기 위해 제어 가능한 외관 임베딩을 갖춘 NeRF를 채택하지만, 보이지 않는 외관으로 뷰 일관성 있는 이미지를 렌더링할 수는 없습니다. 이 문제를 해결하기 위해 Ha-Ne..
2024.09.16 -
Scalable Diffusion Models with Transformers
Scalable Diffusion Models with Transformers William Peebles, Saining Xie Abstract우리는 트랜스포머 아키텍처를 기반으로 한 새로운 종류의 디퓨전 모델을 탐구합니다. 우리는 일반적으로 사용되는 U-Net 백본을 잠재 패치에서 작동하는 트랜스포머로 대체하여 이미지의 잠재 디퓨전 모델을 학습합니다. 우리는 Gflops로 측정한 순방향 패스 복잡성 렌즈를 통해 Diffusion Transformers (DiT)의 확장성을 분석합니다. 우리는 더 높은 Gflops를 가진 DiT가 —트랜스포머 깊이/폭을 늘리거나 입력 토큰 수를 늘림으로써— 일관되게 낮은 FID를 가지고 있다는 것을 발견했습니다. 우수한 확장성 특성을 보유하고 있을 뿐만 아니라, 가장 ..
2024.09.09 -
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement Mark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani Abstract저희는 단일 이미지에서 0.5초 만에 빠르고 고품질의 텍스처 객체 메쉬 재구성을 위한 새로운 방법인 SF3D를 소개합니다. 대부분의 기존 접근 방식과 달리 SF3D는 메쉬 생성을 위해 명시적으로 학습되어 정점 색상에 의존하지 않고 빠른 텍스처 생성을 가능하게 하는 빠른 UV 언랩 기술을 통합합니다. 이 방법은 재구성된 3D 메쉬의 시각적 품질을 향상시키기 위해 재료 매개변수와 노멀 맵을 예측하는 방법도 학습합니다. 또한 SF..
2024.08.05 -
Adding Conditional Control to Text-to-Image Diffusion Models
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang, Anyi Rao, Maneesh Agrawala Abstract저희는 사전 학습된 대규모 text-to-image 디퓨전 모델에 공간 조건화 제어를 추가하기 위한 신경망 아키텍처인 ControlNet을 소개합니다. ControlNet은 프로덕션 준비가 된 대규모 디퓨전 모델을 잠그고, 수십억 개의 이미지로 사전 학습된 심층적이고 강력한 인코딩 레이어를 강력한 백본으로 재사용하여 다양한 조건부 제어 세트를 학습합니다. 신경망 아키텍처는 매개 변수를 0에서 점진적으로 확장하고 유해한 노이즈가 파인튜닝에 영향을 미치지 않도록 하는 "zero convolution"(제로 초기화 컨..
2024.07.30 -
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang Abstract최근 몇 년 동안 고충실도 이미지를 생성하는 인상적인 생성 기능에 대한 대규모 text-to-image 디퓨전 모델의 강력한 힘을 목격했습니다. 그러나 복잡한 프롬프트 엔지니어링이 수반되는 경우가 많기 때문에 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 매우 까다롭습니다. 텍스트 프롬프트의 대안은 "an image is worth a thousand words"는 말처럼 이미지 프롬프트입니다. 사전 학습된 모델을 직접 파인튜닝하는 기존 방법은 효과적이지..
2024.07.08 -
Improving Diffusion Models for Authentic Virtual Try-on in the Wild
Improving Diffusion Models for Authentic Virtual Try-on in the Wild Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin Abstract이 논문에서는 사람과 옷을 각각 묘사하는 한 쌍의 이미지가 주어지면, 큐레이팅된 옷을 입은 사람의 이미지를 렌더링하는 이 확산 모델[13, 41]은 데이터에 가우시안 노이즈를 점진적으로 추가하는 순방향 프로세스와 무작위 노이즈를 점진적으로 제거하여 샘플을 생성하는 역방향 프로세스로 구성된 생성 모델입니다. x_0이 데이터 포인트(예: 자동 인코더[37]의 출력에서 이미지 또는 잠재)라고 가정합니다. 미지 기반 virtual try-on을 고려합니다...
2024.06.27