Computer Vision(16)
-
Feature Pyramid Networks for Object Detection
Feature Pyramid Networks for Object Detection Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie Abstract 피처 피라미드는 다양한 스케일의 객체를 검출하기 위한 인식 시스템의 기본 컴포넌트입니다. 그러나 최근 딥러닝 객체 검출기는 컴퓨팅과 메모리 부하가 높기 때문에 피라미드 표현을 피하고 있습니다. 이 논문에서는 심층 컨볼루션 네트워크의 고유한 멀티 스케일 피라미드 계층을 이용하여 한계 추가 비용으로 피쳐 피라미드를 구축한다. 횡방향 접속이 있는 탑다운 아키텍처는 모든 척도에서 높은 수준의 시맨틱 피쳐 맵을 구축하기 위해 개발된다. Feature ..
2022.04.05 -
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby Abstract 트랜스포머 아키텍처는 자연어 처리 작업의 실질적인 표준이 되었지만 컴퓨터 비전에 대한 적용은 여전히 제한적이다. 비전에서 attention는 컨볼루션 네트워크와 함께 적용되거나 컨볼루션 네트워크의 ..
2022.03.03 -
NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING
NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING Barret Zoph, Quoc V. Le Abstract 신경망은 이미지, 음성 및 자연어 이해에서 많은 어려운 학습 과제에 잘 작동하는 강력하고 유연한 모델이다. 그들의 성공에도 불구하고, 신경망은 여전히 설계하기 어렵다. 본 논문에서, 우리는 반복 네트워크를 사용하여 신경망의 모델 설명을 생성하고 검증 세트에서 생성된 아키텍처의 예상 정확도를 최대화하기 위한 강화 학습으로 이 RNN을 훈련시킨다. CIFAR-10 데이터 세트에서, 우리의 방법은 처음부터 시작하여 테스트 세트 정확도 측면에서 인간이 발명한 최고의 아키텍처에 필적하는 새로운 네트워크 아키텍처를 설계할 수 있다. 우리의 CIFAR-10 모델..
2022.02.22 -
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks Mingxing Tan, Quoc V. Le Abstract ConvNets(Convolutional Neural Networks)는 일반적으로 고정된 리소스 예산으로 개발된 다음 더 많은 리소스를 사용할 수 있는 경우 정확도를 높이기 위해 확장됩니다. 이 논문에서 우리는 모델 스케일링을 체계적으로 연구하고 네트워크 깊이, 너비 및 해상도의 균형을 신중하게 조정하면 더 나은 성능으로 이어질 수 있음을 확인합니다. 이러한 관찰을 바탕으로 우리는 간단하지만 매우 효과적인 복합 계수를 사용하여 깊이/너비/해상도의 모든 차원을 균일하게 스케일링하는 새로운 스케일링 방법을 제안합니다...
2022.02.10 -
MobileNetV2: Inverted Residuals and Linear Bottlenecks
MobileNetV2: Inverted Residuals and Linear Bottlenecks Mark Sandler Andrew Howard Menglong Zhu Andrey Zhmoginov Liang-Chieh Chen Google Inc. Abstract 이 논문에서는 다양한 모델 크기의 스펙트럼뿐만 아니라 여러 작업 및 벤치마크에서 모바일 모델의 최신 성능을 향상시키는 새로운 모바일 아키텍처인 MobileNetV2에 대해 설명합니다. 또한 우리는 SSDLite라고 하는 새로운 프레임워크에서 이러한 모바일 모델을 객체 감지에 적용하는 효율적인 방법을 설명합니다. 또한 Mobile DeepLabv3이라고 하는 축소된 형태의 DeepLabv3을 통해 모바일 의미론적 세분화 모델을 구축하는 방법을..
2022.02.08 -
FaceNet, A Unified Embedding for Face Recognition and Clustering 2021.11.19