Diffusion(14)
-
Rich Human Feedback for Text-to-Image Generation
Rich Human Feedback for Text-to-Image Generation Google Research AbstractStable Diffusion 및 Imagen과 같은 최근 Text-to-Image (T2I) 생성 모델은 텍스트 설명을 기반으로 고해상도 이미지를 생성하는 데 상당한 진전을 이루었습니다.그러나 생성된 많은 이미지는 여전히 아티팩트/불합리성, 텍스트 설명과의 불일치, 낮은 미적 품질과 같은 문제를 겪고 있습니다.대규모 언어 모델에 대한 Reinforcement Learning with Human Feedback (RLHF)의 성공에 영감을 받아, 이전 연구들은 생성된 이미지에 대한 피드백으로 인간이 제공한 score를 수집하고 reward 모델을 학습하여 T2I 생성을 개선했..
2025.04.25 -
Generative Image Dynamics (CVPR 2024 Best Paper)
Generative Image Dynamics Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski Abstract우리는 장면 움직임에 대한 이미지 공간 prior 모델링 접근 방식을 제시합니다.우리의 prior는 바람에 흔들리는 나무, 꽃, 양초, 옷과 같은 물체의 자연스럽고 진동하는 역학을 묘사한 실제 비디오 시퀀스에서 추출한 일련의 움직임 궤적에서 학습됩니다.우리는 푸리에 영역에서 밀도가 높고 장기적인 모션을 스펙트럼 부피로 모델링하며, 이는 디퓨전 모델을 사용한 예측에 적합하다는 것을 발견했습니다.단일 이미지가 주어졌을 때, 우리의 학습된 모델은 주파수 조정 디퓨전 샘플링 과정을 사용하여 스펙트럼 볼륨을 예측하며, 이는 전체 비디오를 아우르..
2025.03.17 -
Scalable Diffusion Models with Transformers
Scalable Diffusion Models with Transformers William Peebles, Saining Xie Abstract우리는 트랜스포머 아키텍처를 기반으로 한 새로운 종류의 디퓨전 모델을 탐구합니다. 우리는 일반적으로 사용되는 U-Net 백본을 잠재 패치에서 작동하는 트랜스포머로 대체하여 이미지의 잠재 디퓨전 모델을 학습합니다. 우리는 Gflops로 측정한 순방향 패스 복잡성 렌즈를 통해 Diffusion Transformers (DiT)의 확장성을 분석합니다. 우리는 더 높은 Gflops를 가진 DiT가 —트랜스포머 깊이/폭을 늘리거나 입력 토큰 수를 늘림으로써— 일관되게 낮은 FID를 가지고 있다는 것을 발견했습니다. 우수한 확장성 특성을 보유하고 있을 뿐만 아니라, 가장 ..
2024.09.09 -
Adding Conditional Control to Text-to-Image Diffusion Models
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang, Anyi Rao, Maneesh Agrawala Abstract저희는 사전 학습된 대규모 text-to-image 디퓨전 모델에 공간 조건화 제어를 추가하기 위한 신경망 아키텍처인 ControlNet을 소개합니다. ControlNet은 프로덕션 준비가 된 대규모 디퓨전 모델을 잠그고, 수십억 개의 이미지로 사전 학습된 심층적이고 강력한 인코딩 레이어를 강력한 백본으로 재사용하여 다양한 조건부 제어 세트를 학습합니다. 신경망 아키텍처는 매개 변수를 0에서 점진적으로 확장하고 유해한 노이즈가 파인튜닝에 영향을 미치지 않도록 하는 "zero convolution"(제로 초기화 컨..
2024.07.30 -
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang Abstract최근 몇 년 동안 고충실도 이미지를 생성하는 인상적인 생성 기능에 대한 대규모 text-to-image 디퓨전 모델의 강력한 힘을 목격했습니다. 그러나 복잡한 프롬프트 엔지니어링이 수반되는 경우가 많기 때문에 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 매우 까다롭습니다. 텍스트 프롬프트의 대안은 "an image is worth a thousand words"는 말처럼 이미지 프롬프트입니다. 사전 학습된 모델을 직접 파인튜닝하는 기존 방법은 효과적이지..
2024.07.08 -
Improving Diffusion Models for Authentic Virtual Try-on in the Wild
Improving Diffusion Models for Authentic Virtual Try-on in the Wild Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin Abstract이 논문에서는 사람과 옷을 각각 묘사하는 한 쌍의 이미지가 주어지면, 큐레이팅된 옷을 입은 사람의 이미지를 렌더링하는 이 확산 모델[13, 41]은 데이터에 가우시안 노이즈를 점진적으로 추가하는 순방향 프로세스와 무작위 노이즈를 점진적으로 제거하여 샘플을 생성하는 역방향 프로세스로 구성된 생성 모델입니다. x_0이 데이터 포인트(예: 자동 인코더[37]의 출력에서 이미지 또는 잠재)라고 가정합니다. 미지 기반 virtual try-on을 고려합니다...
2024.06.27