Deep Learning(16)
-
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang Abstract본 논문에서는 범주 이름이나 참조 표현식과 같은 사람의 입력으로 임의의 객체를 탐지할 수 있는 트랜스포머 기반 탐지기 DINO와 grounded 사전 학습을 결합하여 Grounding DINO라는 오픈셋 객체 탐지기를 개발합니다. 오픈셋 객체 탐지의 핵심 솔루션은 오픈셋 개념 일반화를 위해 폐쇄형..
2024.10.16 -
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong AbstractSegment Anything Model (SAM)은 인상적인 제로 샷 전송 성능과 다양한 비전 애플리케이션(예: 세분화된 제어를 통한 이미지 편집)에 대한 높은 다재다능함으로 인해 상당한 주목을 받고 있습니다. 이러한 애플리케이션의 대부분은 휴대폰과 같은 리소스가 제한된 에지 장치에서 실행되어야 합니다. 본 연구에서는 헤비급 이미지 인코더를 경량 이미지 인코더로 대체하여 SAM을 모바일 친화..
2024.10.15 -
Deep Generative Filter for Motion Deblurring
Deep Generative Filter for Motion Deblurring Sainandan Ramakrishnan, Shubham Pachori, Aalok Gangopadhyay, Shanmuganathan Raman Abstract 이미지에서 카메라 흔들림으로 인한 블러를 제거하는 것은 잘못된 특성으로 인해 컴퓨터 비전 문헌에서 항상 어려운 문제였습니다. 3D 공간에서 카메라와 객체 간의 상대적인 움직임으로 인한 모션 블러는 전체 이미지에서 공간적으로 변화하는 블러 효과를 유도합니다. 본 논문에서는 이 문제를 해결하기 위해 전역 스킵 연결 및 고밀도 아키텍처와 통합된 Generative Adversarial Network (GAN) 아키텍처 기반의 새로운 심층 필터를 제안합니다. 저희 모델은 ..
2024.01.02 -
Learning bothWeights and Connections for Efficient Neural Networks
Learning both Weights and Connections for Efficient Neural Networks Song Han, Jeff Pool, John Tran, William J. Dally Abstract 신경망은 계산 집약적이고 메모리 집약적이므로 임베디드 시스템에 배포하기가 어렵습니다. 또한 기존 네트워크는 학습이 시작되기 전에 아키텍처를 수정합니다; 결과적으로 학습은 아키텍처를 개선할 수 없습니다. 이러한 한계를 해결하기 위해, 우리는 중요한 연결만 학습하여 신경망의 정확성에 영향을 주지 않고 신경망에 필요한 저장 및 계산을 몇 배로 줄이는 방법을 설명합니다. 우리의 방법은 3단계 방법을 사용하여 중복 연결을 제거합니다. 먼저, 우리는 어떤 연결이 중요한지 학습하기 위해 네트워크..
2023.05.03 -
Segment Anything
Segment Anything Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Doll´ar, Ross Girshick Abstract Segment Anything (SA) 프로젝트를 소개합니다: 이미지 segmentation을 위한 새 작업, 모델 및 데이터 세트. 데이터 수집 루프에서 효율적인 모델을 사용하여 현재까지 가장 큰 segmentation 데이터 세트를 구축했으며, 11M 라이센스 및 개인 정보 보호 이미지에 10억 개 이상의 마스크를 사용했습니다. 이 모델은..
2023.04.12 -
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia, William Chan, Saurabh Saxenay, Lala Liy, Jay Whangy, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Hoy, David J Fleety, Mohammad Norouzi Abstract 우리는 전례 없는 수준의 사진사실주의와 깊은 언어 이해도를 가진 text-to-image 확산 모델인 Imagen을 제시한다. Imag..
2022.11.08