SmolVLM: Redefining small and efficient multimodal models

SmolVLM: Redefining small and efficient multimodal models

2026. 5. 8. 11:23ㆍVLM

SmolVLM: Redefining small and efficient multimodal models

Hugging Face, Standford University

Abstract

대형 Vision-Language Models (VLM)은 뛰어난 성능을 제공하지만 상당한 계산 자원이 필요하여 모바일 및 엣지 디바이스에 배포하는 데 한계가 있습니다.
소형 VLM은 일반적으로 광범위한 이미지 토큰화와 같은 대형 모델의 설계 선택을 반영하므로 GPU 메모리 사용량이 비효율적이고 기기 내 애플리케이션의 실용성이 제한됩니다.

리소스 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다.
우리는 낮은 계산 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으로 탐구합니다.
이를 통해 최소한의 메모리 풋프린트로 이미지 및 비디오 작업에서 상당한 성능 향상을 가져올 수 있는 주요 디자인 선택 사항을 식별합니다.

저희의 가장 작은 모델인 SmolVLM-256M은 추론 과정에서 1GB 미만의 GPU 메모리를 사용하며, 18개월의 개발 격차에도 불구하고 300배 더 큰 Idefics-80B 모델을 능가합니다.
우리의 가장 큰 모델은 2.2B개의 파라미터로 GPU 메모리의 두 배를 소비하는 SOTA VLM과 비교할 수 있습니다.
SmolVLM 모델은 정적 이미지를 넘어 강력한 비디오 이해 능력을 보여줍니다.

우리의 결과는 전략적 아키텍처 최적화, 공격적이면서도 효율적인 토큰화, 신중하게 선별된 학습 데이터가 멀티모달 성능을 크게 향상시켜 훨씬 작은 규모에서 실용적이고 에너지 효율적인 배포를 촉진한다는 점을 강조합니다.

1 Introduction

Vision-Language Models (VLM)은 기능과 채택 (Achiam et al., 2023; Bai et al., 2023; Beyer et al., 2024; Chen et al., 2024c; McKinzie et al., 2024) 면에서 빠르게 발전하여 크로스 모달 추론 (Liu et al., 2024a, 2023)과 문서 이해 (Appalaraju et al., 2021; Faysse et al., 2024a; Livathinos et al., 2025; Nassar et al., 2025a)에 획기적인 진전을 이루었습니다.
그러나 이러한 개선은 일반적으로 큰 매개변수 수와 높은 계산 요구를 수반합니다.

Flamingo (Alayrac et al., 2022a)와 Idefics (Laurençon et al., 2023)과 같은 초기 대규모 VLM이 80B 매개변수를 가진 능력을 입증한 이후, 새로운 모델들이 서서히 더 작은 크기로 등장했습니다.
그러나 이러한 모델은 더 큰 모델에 대한 아키텍처 결정으로 인해 높은 메모리 요구 사항을 유지하는 경우가 많습니다.
예를 들어, Qwen2-VL (Wang et al., 2024a)과 InterVL 2.5 (Chen et al., 2024b)는 더 작은 변형 (1B-2B)을 제공하지만 상당한 계산 오버헤드를 유지합니다.

반대로 Meta (Dubey et al., 2024)와 Google (Gemma 3)의 모델은 대규모 모델의 비전 기능을 보유하고 있습니다.
처음에는 효율성에 중점을 두었던 PaliGemma (Beyer et al., 2024)도 두 번째 출시 (Steiner et al., 2024)에서 크게 확장되었습니다.
반면, Moondream (Korrapati, 2024)은 효율성을 유지하면서 성능을 향상시키는 데 계속 집중하고 있으며, H2OVL-Mississippi (Galib et al., 2024)는 온디바이스 배포를 명시적으로 타겟으로 삼고 있습니다.

효율적인 처리는 특히 메모리 관리가 필수적인 Apollo (Zohar et al., 2024b)를 예로 들 수 있듯이 비디오 이해 작업에 매우 중요합니다.
또한 추론 LLM은 추론 중에 더 많은 토큰을 생성하여 계산 비용을 가중시킵니다 (DeepSeek-AI, 2025; OpenAI et al., 2024).

따라서 모델이 실제 사용에 실용적으로 유지될 수 있도록 토큰당 효율성이 중요해집니다.
우리의 기여는 다음과 같습니다:

• 컴팩트하면서도 강력한 모델: 강력한 소규모 멀티모달 모델 제품군인 SmolVLM을 소개하며, 신중한 아키텍처 설계가 기능을 희생하지 않고도 리소스 요구 사항을 크게 줄일 수 있음을 입증합니다.
• 효율적인 GPU 메모리 사용: 우리의 가장 작은 모델은 1GB 미만의 GPU RAM을 사용하여 추론을 실행하여 온디바이스 배포의 장벽을 크게 낮춥니다.
• 체계적인 아키텍처 탐색: 인코더-LM 매개변수 균형, 토큰화 방법, 위치 인코딩 및 학습 데이터 구성을 포함한 아키텍처 선택의 영향을 종합적으로 조사하여 컴팩트 VLM에서 성능을 극대화하는 중요한 요소를 식별합니다.
• 엣지 디바이스에서의 견고한 비디오 이해: 우리는 SmolVLM 모델이 비디오 작업에 효과적으로 일반화되어 Video-MME와 같은 도전적인 벤치마크에서 경쟁력 있는 점수를 얻음을 입증하며, 다양한 멀티모달 시나리오와 실시간 온디바이스 애플리케이션에 대한 적합성을 강조합니다.
• 완전 오픈 소스 리소스: 재현성을 높이고 추가 연구를 촉진하기 위해 모든 모델 가중치, 데이터 세트, 코드 및 스마트폰에서 추론을 보여주는 모바일 애플리케이션을 출시합니다.

그림 2 ∣ SmolVLM 아키텍처. 이미지를 하위 이미지로 나누고, 비디오에서 프레임을 샘플링한 다음 시각적 피쳐로 인코딩합니다. 이러한 기능은 먼저 픽셀 셔플 작업을 통해 재배열된 다음 MLP 프로젝션을 사용하여 시각적 토큰으로 LLM 입력 공간에 매핑됩니다. 시각적 토큰은 텍스트 임베딩 (주황색/빨간색)과 연결되거나 인터리빙됩니다. 이 결합된 시퀀스는 텍스트 출력을 위해 LLM으로 전달됩니다.

2 Smoller Model Architecture

우리는 그림 2의 아키텍처를 기반으로 소형 멀티모달 모델의 설계 선택을 체계적으로 탐구합니다, 여기서 인코딩된 이미지는 풀링되어 SmolLM2 백본에 투영됩니다.
먼저 최적의 계산 할당을 분석하여 소형 비전 인코더가 컴팩트 LM을 보완한다는 것을 보여줍니다 (§2.1).
컨텍스트 길이를 확장하면 최소한의 오버헤드 (§2.2)로 더 높은 이미지 해상도를 달성할 수 있으며, 픽셀 셔플링은 시각적 토큰을 더욱 줄여줍니다.
마지막으로, 문서별 이미지 분할과 타겟 토큰 압축 (§2.3)을 통해 고해상도 이미지와 동영상을 효율적으로 처리합니다.
이러한 접근 방식을 통해 소규모 LMM을 위한 통합적이고 성능적이며 비용 효율적인 레시피를 얻을 수 있습니다.

2.1 How to assign compute between vision and language towers?

VLM은 비전 인코더 (그림 2 참조)를 사용하여 'vision tokens'을 생성한 다음 LM에 입력합니다.
우리는 컴팩트 VLM에서 비전 인코더와 language models (LM) 간의 최적 용량 할당을 조사합니다.
구체적으로, 우리는 세 가지 SmolLM2 변형 (135M, 360M, 1.7B 매개변수)을 두 개의 SigLIP 인코더와 페어링합니다: 컴팩트 93M SigLIP-B/16과 대형 428M SigLIP-SO400M.
일반적으로 더 큰 VLM은 LM에 매개변수를 불균형적으로 할당하지만; LM이 축소됨에 따라 더 이상 그렇지 않습니다.

그림 3 ∣ SmolVLM 구성의 성능 분석. (왼쪽) 비전 인코더와 언어 모델 크기의 영향. 작은 언어 모델 (135M)은 큰 비전 인코더 (SigLIP-SO-400M, 428M)의 이점이 SigLIP-B/16 (93M)에 비해 적은 반면, 큰 언어 모델은 강력한 인코더의 이점을 더 많이 얻습니다. (왼쪽 가운데) 컨텍스트 길이가 길어질수록 성능이 크게 향상됩니다 (2k~16k개 토큰). (중간 오른쪽) 최적 픽셀 셔플 팩터 (PS=2 vs. PS=4)는 모델 크기에 따라 달라집니다. (오른쪽) 프레임 평균화는 비디오 성능을 저하시키며, 더 많은 프레임이 평균화될수록 급격히 감소합니다. 지표 평균 CIDEr (캡션) 및 정확도 (시각적 질문 답변).

그림 3 (왼쪽)은 LM (135M)이 가장 작은 대형 인코더를 사용할 때 성능이 크게 저하된다는 것을 확인하여 인코더-LM 균형이 비효율적임을 강조합니다.
중간 LM 스케일 (360M)에서는 더 큰 인코더가 성능을 11.6% 향상시키지만, 이는 파라미터가 66% 크게 증가하여 소형 인코더가 더 선호됩니다.
가장 큰 LM 스케일 (17B)에서만 더 큰 인코더는 파라미터가 10% 증가하는 데 그칩니다.

발견 1. 컴팩트 멀티모달 모델은 균형 잡힌 인코더-LM 매개변수 할당의 이점을 활용하므로 효율성을 위해 더 작은 비전 인코더가 선호됩니다.

2.2 How can we efficiently pass the images to the Language Model?

Laurençon et al. (2024)에 이어, 우리는 비전 인코더의 시각적 토큰을 텍스트 토큰과 연결하고 언어 모델 (예: FROMAGe (Koh et al., 2023), BLIP-2 (Li et al., 2023a))에 의해 공동으로 처리되는 셀프 어텐션 아키텍처를 채택합니다.
이 디자인은 SigLIP-B/16으로 인코딩된 단일 512 × 512 이미지가 1024개의 토큰을 필요로 하기 때문에 SmolLM2에서 사용되는 2k-토큰 제한보다 훨씬 더 많은 컨텍스트가 필요합니다.

이를 해결하기 위해 Liu et al. (2024c)에 따라 RoPE 기반을 10k에서 273k로 늘려 컨텍스트 용량을 확장하고, 긴 컨텍스트 데이터(Dolma books (Soldaini et al., 2024) , The Stack (Kocetkov et al., 2022))와 짧은 컨텍스트 소스 (FineWeb-Edu (Penedo et al., 2024), DCLM (Li et al., 2024a), SmolLM2의 수학)를 혼합하여 모델을 파인튜닝했습니다.

1.7B개의 LM에 대해 16k개의 토큰으로 파인튜닝이 안정적이었지만, 소형 모델 (135M, 360M)은 8k개 이상의 토큰으로 어려움을 겪었습니다.
2.2B개의 SmolVLM을 사용한 실험 결과, 최대 16k개의 토큰까지 일관된 성능 향상이 확인되었습니다 (그림 3, 중간).
따라서 SmolVLM의 경우 16k 토큰 컨텍스트를 채택하고 작은 변형의 경우 8k 토큰 제한을 채택합니다.

발견 2. 컴팩트 VLM은 확장된 컨텍스트 길이로부터 상당한 이점을 얻습니다.

컨텍스트 창만 확장하는 것만으로는 충분하지 않습니다.
최근 VLM (예: MM1 (McKinzie et al., 2024), MiniCPM-V (Yao et al., 2024), InterVL (Chen et al., 2024c))은 셀프 어텐션 아키텍처와 토큰 압축 기술 (Zohar et al., 2024b; Laurençon et al., 2024c)을 결합하여 더 긴 시퀀스를 효율적으로 맞추고 계산 오버헤드를 줄입니다.

그림 4 ∣ 픽셀 셔플. 인코딩된 이미지를 재배열하여 채널 depth를 높이는 공간 해상도를 제공합니다. 이렇게 하면 정보 밀도를 유지하면서 시각적 토큰 수를 줄일 수 있습니다.

특히 효과적인 압축 방법 중 하나는 픽셀 셔플 (space-to-depth)로, 처음에는 초해상도 작업을 위해 제안되었으며 (Shi et al., 2016), 최근 Idefics3에서 채택되었습니다.
픽셀 셔플은 공간적 피쳐를 추가 채널로 재배열하여 공간 해상도를 낮추지만 표현 밀도를 높입니다 (그림 4).

이는 시각적 토큰의 총 수를 r^2배 줄이며, 여기서 r은 셔플 비율입니다.

그러나 비율이 높을수록 더 큰 공간 영역이 단일 토큰으로 붕괴되어 OCR과 같이 정확한 위치 지정이 필요한 작업이 방해받습니다.

InterVL 및 Idefics3와 같은 모델은 압축과 공간 충실도의 균형을 맞추기 위해 r = 2를 사용합니다.
대조적으로, 우리의 실험 (그림 3, 오른쪽)은 축소된 토큰 수가 어텐션 오버헤드를 줄이고 장기 컨텍스트 모델링을 개선함에 따라 더 공격적인 압축 (r = 4)의 이점을 더 많이 얻는다는 것을 보여줍니다.

발견 3. 소형 VLM은 보다 공격적인 시각적 토큰 압축의 이점을 누릴 수 있습니다.

2.3 How can we efficiently encode images and videos?

이미지와 비디오 간의 토큰 할당 균형을 맞추는 것은 효율적인 멀티모달 모델링을 위해 매우 중요합니다:
이미지는 더 높은 해상도와 더 많은 토큰을 통해 충실도를 유지하는 반면, 비디오는 일반적으로 더 긴 시퀀스를 효율적으로 처리하기 위해 프레임당 더 적은 토큰이 필요합니다.

이를 달성하기 위해 우리는 UReader (Ye et al., 2023b)와 SPHINX (Lin et al., 2023b)에서 영감을 받은 이미지-분할 전략을 성공적으로 채택했습니다, 이 전략에서는 원본의 축소된 버전과 함께 고해상도 이미지를 여러 하위 이미지로 분할합니다.
이 접근 방식은 과도한 계산 오버헤드 없이 이미지 품질을 유지하는 데 효과적인 것으로 입증되었습니다.
그러나 동영상의 경우, Liu et al. (2024f)에게서 영감을 받은 프레임 평균화와 같은 전략이 성능에 부정적인 영향을 미친다는 사실을 발견했습니다.
그림 3 (오른쪽)에서 볼 수 있듯이 여러 프레임을 결합하면 특히 평균화 계수가 높은 경우 Open Compass-Video 결과가 크게 저하되었습니다 (2, 4, 8).
따라서 SmolVLM의 최종 설계에서 프레임 평균화는 제외되었고, 대신 비디오 프레임은 이미지 인코더의 해상도로 재조정되었습니다.

발견 4. 작은 모델의 경우 이미지 분할이 비전 작업의 성능을 향상시키는 반면, 비디오 프레임 평균화는 그렇지 않습니다.

3 Smol Instruction Tuning

smol 명령어 튜닝에는 신중한 비전 (§3.1)과 텍스트 토큰화 (§3.2)가 필요하며, 엄격한 계산 제약 하에서 멀티모달 모델링을 위한 통합 방법도 필요합니다.
학습된 포지션 토큰과 구조화된 프롬프트는 학습을 안정화하고 OCR을 개선하지만, 데이터 구성은 여전히 중요합니다: LLM 명령어 데이터셋을 재사용하면 작은 VLM (§3.3)에 부정적인 영향을 미치며, 과도한 Chain-of-Thought 데이터가 제한된 용량 (§3.4)을 초과하고, 중간 정도의 비디오 시퀀스 길이가 효율성과 성능의 균형을 이룹니다 (§3.5).
종합적으로 볼 때, 이러한 인사이트는 멀티모달 명령어 튜닝을 SmolVLM으로 효과적으로 확장하는 데 필수적인 타겟팅 전략을 강조합니다.

3.1 Learned Tokens vs. String

SmolVLM에서 주요 설계 고려 사항은 분할된 하위 이미지 위치를 효과적으로 인코딩하는 것입니다.
처음에는 간단한 문자열 토큰 (예: <row_1_col_2>)을 사용하려고 시도했는데, 이는 OCR 성능의 개선 없이 갑작스러운 loss 감소를 특징으로 하는 초기 학습 고원—"OCR loss plague"라고 함—을 초래했습니다 (그림 5, 왼쪽 및 중간).

그림 5 ∣ 토큰화 전략 비교. (왼쪽) 학습 loss 곡선은 작은 모델에서 문자열 기반 토큰을 사용할 때 "OCR loss plague"를 보여줍니다. (가운데) 학습된 토큰 (주황색)으로 일관되게 더 높은 점수를 보여주는 집계 평가 지표. (오른쪽) Open Compass-Image vs. Open Compass-Video의 산점도: 학습된 토큰은 특히 이미지 집약적인 작업에서 더 높은 스코어링 영역을 지배합니다.

학습 중 불안정성을 해결하기 위해 포지션 토큰을 도입하여 학습 수렴을 크게 개선하고 스톨을 줄였습니다.
더 큰 모델은 raw 문자열 위치를 사용하는 데 상대적으로 견고했지만, 더 작은 모델은 위치 토큰의 혜택을 크게 받아 OCR 정확도가 현저히 높고 작업 전반에 걸쳐 일반화가 개선되었습니다.
그림 5 (가운데)는 학습된 위치 토큰이 여러 이미지 및 텍스트 벤치마크에서 나이브한 문자열 위치보다 일관되게 우수하다는 것을 보여줍니다.
또한, 그림 5 (오른쪽)는 학습된 토큰을 활용하는 모델이 Open Compass-Image 및 Open Compass-Video 평가에서 일관되게 더 높은 점수를 받는 것을 보여주며, 이는 컴팩트 멀티모달 모델에서 구조화된 위치 토큰화의 효과를 강조합니다.

발견 5. 학습된 위치 토큰은 컴팩트 VLM의 raw 텍스트 토큰보다 우수합니다.

그림 6 ∣ 학습 전략이 SmolVLM 성과에 미치는 누적 효과. 시각화는 SmolVLM base 모델에 다양한 토큰화 및 프롬프트 엔지니어링 전략이 순차적으로 적용됨에 따라 성능이 향상되는 과정을 보여줍니다. (왼쪽) 이미지 벤치마크 결과는 추가된 전략마다 일관된 개선을 보여줍니다. (오른쪽) 비디오 벤치마크 결과는 비슷한 패턴을 보여주며 더 뚜렷한 상승폭을 보여줍니다.

3.2 Structured Text Prompts and Media Segmentation

시스템 프롬프트와 명시적 미디어 인트로/아웃트로 접두사가 이미지 (왼쪽)와 비디오 (오른쪽) 벤치마크에서 SmolVLM의 성능을 점진적으로 향상시키는 방법을 그림 6과 같이 평가했습니다.
각 바이올린 플롯은 주어진 구성에 대한 세 가지 체크포인트를 나타냅니다.

System Prompts.

우리는 제로샷 추론 중에 작업 objective를 명확히 하고 모호성을 줄이기 위해 간결한 지침을 추가합니다.
예를 들어, 대화형 데이터셋은 "You are a useful conversational assistant,"와 같은 프롬프트를 사용하는 반면, 비전 중심 작업은 "You are a visual agent and should provide concise answers."를 사용합니다
각 하위 플롯의 두 번째 바이올린 플롯 (그림 6)은 이러한 시스템 프롬프트를 통합함으로써 특히 이미지 중심 작업에서 명확한 성능 향상을 보여줍니다.

Media Intro/Outro Tokens.

시각적 콘텐츠를 명확하게 구분하기 위해 이미지와 비디오 세그먼트 주변에 텍스트 마커를 도입합니다 (예: "Here is an image..." 및 "Here are N frames sampled from a video...").
아웃트로 토큰은 다시 텍스트 지침으로 전환됩니다 (예: "Given this image/video...").
세 번째 바이올린은 이 전략이 비디오 작업—여러 프레임 간의 혼동 가능성이 높은 경우—에서 성능을 크게 향상시키고 이미지 작업에서 여전히 측정 가능한 개선을 제공한다는 것을 나타냅니다.

Masking User Prompts.

Allal et al. (2025)의 기법을 바탕으로, 과적합을 줄이기 위한 방법으로 지도 파인튜닝 중 사용자 프롬프트 마스킹을 탐구합니다.
그림 6의 오른쪽 바이올린 플롯은 사용자 쿼리 (주황색)를 마스킹하면 마스킹되지 않은 베이스라인 (파란색)에 비해 이미지 및 비디오 작업 모두에서 성능이 향상된다는 것을 보여줍니다.
이 효과는 질문이 반복적이고 모델에 의해 쉽게 기억될 수 있는 멀티모달 QA에서 크게 두드러집니다.
따라서 마스킹은 SmolVLM이 피상적인 반복보다는 작업 관련 콘텐츠에 의존하도록 하여 더 나은 일반화를 촉진합니다.

발견 6. 시스템 프롬프트와 미디어 인트로/아웃트로 토큰은 특히 비디오 작업에서 컴팩트 VLM 성능을 크게 향상시킵니다.

SFT 동안에는 완료에 대해서만 학습합니다.

그림 7 ∣ 학습 전략이 소규모 복합 모델에 미치는 영향. (왼쪽) LLM-SFT (SmolTalk)의 텍스트 데이터를 재사용하면 작은 모델에서 이미지와 비디오 점수가 모두 감소합니다. (중간) Chain-of-Thought (CoT) 데이터의 최소 비율 (0.02%–0.05%)은 최적의 결과를 제공하는 반면, CoT 사용량이 많을수록 성능이 저하됩니다. (오른쪽) 평균 비디오 지속 시간이 3.5분을 초과하면 이미지 작업과 비디오 작업 모두에서 수익률이 감소합니다.

3.3 Impact of Text Data Reuse from LLM-SFT

직관적으로 보이는 관행은 대규모 언어 모델의 최종 지도 파인튜닝 단계에서 얻은 텍스트 데이터를 재사용하여 배포 내 프롬프트와 고품질 언어 입력을 예측하는 것입니다.
그러나 그림 7 (왼쪽)은 LLM-SFT 텍스트 데이터 (SmolTalk)를 통합하면 더 작은 멀티모달 아키텍처에서 비디오 작업에서 최대 3.7%, 이미지 작업에서 최대 6.5% 성능이 저하될 수 있음을 보여줍니다.
이러한 부정적인 전송은 텍스트 재사용의 이점보다 데이터 다양성이 감소했기 때문이라고 생각합니다.
따라서 Zohar et al. (2024b)에 따라 학습 믹스에서 엄격한 14%의 텍스트 비율을 유지합니다.
이러한 연구 결과는 소규모 멀티모달 모델에 대규모 SFT 텍스트를 직접 채택하는 것보다 신중하게 균형 잡힌 데이터 파이프라인의 중요성을 강조합니다.

발견 7. SFT 블렌드에서 텍스트를 추가하는 것이 새로운 텍스트 SFT 데이터보다 더 나쁜 것으로 나타났습니다.

3.4 Optimizing Chain-of-Thought Integration for Compact Models

학습 중에 모델을 명시적인 추론 단계에 노출시키는 Chain-of-Thought (CoT) 프롬프트는 일반적으로 대형 모델의 추론 능력을 향상시킵니다.
그러나 그것이 더 작은 멀티모달 아키텍처에 미치는 영향은 여전히 불분명합니다.
이를 조사하기 위해 텍스트, 이미지, 비디오 작업을 포괄하는 Mammoth 데이터셋 (Yue et al., 2024b)에 통합된 CoT 데이터의 비율을 변경했습니다.
그림 7 (가운데)은 최소한의 비율 (0.02–0.05%)의 CoT 예제를 포함하면 성능이 약간 향상되었지만, 특히 이미지 작업에서 비율이 높을수록 성능이 현저히 저하되는 것을 보여줍니다.
이러한 관찰은 과도한 추론 지향 텍스트 데이터가 작은 VLM의 제한된 용량을 압도하여 시각적 표현 능력을 저하시킬 수 있음을 시사합니다.
따라서 컴팩트 모델은 대규모 아키텍처에서 일반적으로 유용한 광범위한 사용보다는 CoT 데이터를 매우 드물게 포함함으로써 가장 큰 이점을 얻을 수 있습니다.

발견 8. 과도한 CoT 데이터는 컴팩트 모델 성능에 해를 끼칩니다.

3.5 Impact of Video Sequence Length on Model Performance

학습 중 비디오 지속 시간을 늘리면 더 풍부한 시간적 맥락을 제공하지만 더 많은 계산 비용이 듭니다.
최적의 지속 시간을 파악하기 위해 SmolVLM을 평균 1.5분에서 3.5분 사이의 비디오 길이로 학습시켰습니다.
그림 7 (오른쪽)은 비디오 시간이 약 3.5분에 가까워짐에 따라 비디오 및 이미지 벤치마크 모두에서 명확한 성능 향상을 보여줍니다, 이는 아마도 더 효과적인 크로스 모달 특징 학습 덕분일 것입니다.
비디오 지속 시간을 3.5분 이상 연장하면 추가적인 이득이 거의 없어 추가된 계산 비용에 비해 수익률이 감소하는 것을 알 수 있습니다.
따라서 적당히 확장된 비디오 시퀀스는 더 작은 모델에서 성능을 크게 향상시키는 반면, 지나치게 긴 시퀀스는 비례적으로 계산 비용을 정당화하지 못합니다.

발견 9. 학습 중 비디오 지속 시간을 적당히 늘리면 컴팩트 VLM에서 비디오 및 이미지 작업 성능이 모두 향상됩니다.

4 Experimental Results

우리는 서로 다른 계산 환경에 맞춘 세 가지 변형 SmolVLM을 구성합니다:
• SmolVLM-256M: 93M SigLIP-B/16과 SmolLM2-135M을 결합한 가장 작은 모델입니다 (All et al., 2025).

1GB 미만의 그램으로 작동하므로 리소스가 제한된 엣지 애플리케이션에 이상적입니다.
• SmolVLM-500M: 동일한 93M SigLIP-B/16과 더 큰 SmolLM2-360M을 결합한 중급 모델.
메모리 효율성과 성능의 균형을 맞추기 위해 중간 정도의 리소스를 가진 엣지 디바이스에 적합합니다.
• SmolVLM-2.2B: 가장 큰 변형으로, 400M SigLIP-SO400M과 1.7B 매개변수 SmolLM2 백본을 가지고 있습니다.
이 모델은 성능을 극대화하면서도 고급 엣지 시스템에 배포할 수 있습니다.

4.1 Training Data

모델 학습은 두 단계로 진행됩니다: (1) 비전 단계와 (2) 비디오 단계.

비전 학습 단계는 Laurençon et al. (2024)에서 사용된 새로운 데이터 세트 혼합을 사용하며, 여기에 MathWriting (Gervais et al., 2024)을 추가했습니다.
혼합물은 시각적이고 구조화된 데이터 해석을 강조하면서도 추론과 문제 해결 능력에 중점을 두도록 균형을 맞췄습니다.
시각적 구성 요소는 문서 이해, 캡셔닝, 시각적 질문 답변 (멀티 이미지 추론에 전념하는 2% 포함), 차트 이해, 표 이해, 시각적 추론 작업으로 구성됩니다.
텍스트 기반 작업에서 모델의 성능을 유지하기 위해 수학과 코딩 문제를 포함하는 일반 지식 Q&A와 텍스트 기반 추론 및 논리 문제를 소량 유지했습니다.

비디오 파인튜닝 단계에서는 Zohar et al. (2024b)의 학습에 따라 텍스트 데이터의 14%와 비디오의 33%를 유지하여 최적의 성능을 달성합니다.
비디오의 경우, LLaVA-video-178k (Zhang et al., 2024a), Video-STAR (Zohar et al., 2024a), Vript (Yang et al., 2024), ShareGPT4Video (Chen et al., 2023)의 시각적 설명과 캡셔닝, Vista-400k (Ren et al., 2024)의 시간적 이해, 그리고 MovieChat (Song et al., 2024)과 FineVideo (Farré et al., 2024)의 내러티브 이해를 샘플링했습니다.
멀티 이미지 데이터는 M4-Instruct (Liu et al., 2024a)와 Mamphthd (Guo et al., 2024)에서 샘플링되었습니다.

텍스트 샘플은 (Xu et al., 2024)에서 출처했습니다.

그림 8 ∣ 데이터 세부 정보. 비전 (왼쪽)과 비디오 (오른쪽)에 대한 학 데이터셋 세부 정보는 모달리티 및 하위 카테고리별로 분류됩니다.

더 자세한 설명을 위해 그림 8은 비전 및 비디오 파인튜닝 단계에서 사용되는 학습 데이터 분포에 대한 자세한 개요를 제공합니다.

4.2 Evaluation details

재현성을 보장하기 위해 VLMEvalKit (Duan et al., 2024)을 사용하여 SmolVLM을 평가했습니다.
전체 결과는 온라인에서 확인할 수 있습니다.
현재 OpenVLM 리더보드는 239개의 다양한 VLM과 31개의 다양한 멀티모달 벤치마크를 다루고 있습니다.
또한, 평가를 실행하는 데 필요한 RAM과 비교하여 성능을 도표화합니다.
우리는 모델 크기가 일반적으로 모델을 실행하는 데 필요한 계산 비용의 대리인으로 사용된다고 주장합니다.
이는 VLM의 경우 오해의 소지가 있습니다, 왜냐하면 아키텍처가 모델 실행 비용에 큰 영향을 미치기 때문입니다; 저희 생각에는 RAM 사용이 더 나은 프록시 말씀드리고 싶습니다.
SmolVLM의 경우, 256M 및 500M 모델에서는 이미지의 가장 긴 엣지 크기를 1920으로, 2.2B 모델에서는 1536으로 조정합니다.

표 1 ∣ 비전-언어 작업 간 SmolVLM 변형의 벤치마크 비교. 단일 이미지, 멀티태스크, 비디오 벤치마크에서 효율적인 오픈 소스 모델과 비교하여 SmolVLM 모델의 성능은 세 가지 스케일 (256M, 500M, 22B 매개변수)에서 향상되었습니다. SmolVLM 모델은 RAM 사용량을 크게 줄이면서도 높은 정확도를 보여주며, 자원이 제한된 멀티모달 시나리오에서 계산 효율성을 강조합니다.

4.3 Strong Performance at a Tiny Scale

우리는 SmolVLM의 모델 크기 대비 성능을 평가하여, 효율적인 SOTA 오픈 소스 모델과 세 가지 변형 (256M, 500M, 2.2B)을 비교합니다.
표 1은 9개의 까다로운 비전 언어 벤치마크와 5개의 비디오 벤치마크에 대한 결과를 요약한 것입니다.
표에서 시각 작업을 위한 1B 활성화 매개변수 (Deitke et al., 2024) (MolmoE-A1B-7B)와 비디오 작업을 위한 InterVL2-2B Chen et al. (2024c)를 강조합니다.
더 넓은 경쟁 모델 배열이 그림 1에 나와 있습니다.

그림 1 ∣ 작지만 강력한: SmolVLM을 다른 SOTA 소형 VLM 모델과 비교한 결과입니다. 이미지 결과는 OpenCompass OpenVLM 순위표 (Duan et al., 2024)에서 확인할 수 있습니다.

Efficiency and Memory Footprint.

SmolVLM은 훨씬 더 큰 모델에 비해 놀라운 계산 효율성을 보여줍니다.
단일 이미지 추론에는 256M 변형의 경우 0.8GB VRAM, 500M의 경우 1.2GB, 22B의 경우 4.9GB만 필요합니다—MolmoE-A1B-7B에서 요구하는 27.7GB보다 현저히 낮습니다.
유사한 매개변수 스케일의 모델과 비교하더라도 SmolVLM이 훨씬 더 효율적입니다: Qwen2VL-2B는 13.7GB VRAM이 필요하며, InterVL2-2B는 10.5GB VRAM이 필요합니다, 이는 매개변수 수만으로는 계산 요구 사항을 결정하지 않는다는 점을 강조합니다.
배치 크기 64에서는 SmolVLM의 메모리 사용량이 여전히 실용적입니다: 15.0GB (256M), 16.0GB (500M), and 49.9GB (2.2B).
이 결과는 GPU 제약 환경에서 SmolVLM의 상당한 장점을 강조합니다.

Overall Gains from Scaling.

SmolVLM의 매개변수 수를 늘리면 평가된 모든 벤치마크에서 상당한 성능 향상이 지속적으로 이루어집니다.
가장 큰 모델 (2.2B)이 59.8%로 전체 점수에서 가장 높은 점수를 받았으며, 그 다음으로 중간 500M 변형 (51.0%)과 가장 작은 256M 변형 (44.0%)이 그 뒤를 이었습니다.
특히, 가장 작은 SmolVLM-256M조차도 거의 모든 벤치마크에서 훨씬 더 큰 Idefics 80B 모델 (그림 1 참조)을 크게 능가하여 적당한 규모에서 효과적인 시력 기능을 강조합니다.
몇 가지 예외—특히 MMMU (29.0% vs. 42.3%)와 AI2D (46.4% vs. 56.3%)—는 대규모 언어 백본에서 강력한 언어적 추론이 여전히 중요한 벤치마크임을 강조합니다.
흥미롭게도 OCRBench와 같은 시각 지향적인 작업은 언어 모델 용량을 확장함으로써 현저한 이점을 얻을 수 있으며, 256M (52.6%)에서 500M (61.0%)으로 전환할 때 거의 10포인트 향상됩니다.
이러한 결과는 더 큰 언어 모델이 향상된 컨텍스트 관리와 향상된 멀티모달 추론을 제공하여 언어 집약적 작업과 비전 중심 작업 모두에 도움이 된다는 것을 강조합니다.

Comparison with Other Compact VLMs.

그림 1은 OpenCompass 벤치마크 성능과 이미지당 GPU 메모리 소비량을 비교하여 최근 소규모 VLM 중 SmolVLM-2.2B를 나타냅니다.
SmolVLM-2.2B는 MathVista (51.5) 및 ScienceQA (90.0)에서 눈에 띄게 강력한 성능을 달성하면서도 GPU 사용량은 4.9GB VRAM에 불과합니다.
반면, Qwen2VL-2B 및 InterVL2-2B와 같이 훨씬 더 많은 연산이 필요한 모델은 성능이 뛰어나지 않습니다.
특히, Qwen2VL-2B는 AI2D (74.7 vs. 70.0)와 ChartQA (73.5 vs. 68.8)에서는 SmolVLM-2B를 약간 능가하지만, MathVista (48.0 vs. 51.5)와 ScienceQA (78.7 vs. 90.0)에는 미치지 못합니다.
마찬가지로, InterVL2-2B는 ScienceQA (94.1 vs. 90.0)와 MMStar (49.8 vs. 46.0)에서 더 높은 점수를 얻었지만 VRAM 비용은 두 배 이상 증가했습니다.

추가 비교를 통해 크기, 메모리 사용량, 작업별 성능 간의 뚜렷한 절충점을 확인할 수 있습니다.
MiniCPM-V2 (2.8B개의 매개변수)는 대부분의 벤치마크에서 SmolVLM-2.2B보다 성능이 떨어집니다.
Moondream2 및 PaliGemma와 같은 다른 모델 (둘 다 약 2˘3B 매개변수)은 작업마다 상당한 분산을 보입니다: 예를 들어, Moondream2는 3.9GB VRAM으로 ChartQA (72.2)에서 좋은 점수를 얻었지만 MMMU (29.3)에서는 상당히 낮은 성능을 보였습니다.

반대로, PaliGemma는 ScienceQA (94.3)에서는 뛰어나지만 ChartQA (33.7)에서는 어려움을 겪고 있습니다.
이 변동성은 전문 학습이 각 과제에 미치는 영향을 강조합니다.

Video Benchmarks.

표 1은 다섯 가지 다양한 비디오 벤치마크에 대한 종합적인 결과를 제공합니다: Video-MME, MLVU, MVBench, TempCompass, 그리고 WorldSense.
SmolVLM-2.2B는 Video-MME (52.1)와 WorldSense (36.2)에서 뛰어난 성능을 보이며, Qwen2 VL-7B (WorldSense에서 32.4)와 같은 훨씬 더 큰 모델을 능가하여 복잡한 멀티모달 비디오 이해 작업에서 강력한 성능을 보여줍니다.
SmolVLM-500M 변형 모델은 또한 강력한 성능을 보여 TempCompass (49.0)와 WorldSense (30.6)에서 경쟁력 있는 점수를 획득하여 엣지 디바이스 배포에 이상적인 규모에서 정교한 시간적 추론과 실제 시각적 이해를 강조합니다.
SmolVLM 변형은 매개변수 수가 짧음에도 불구하고 효율적인 리소스 사용과 인상적인 정확도의 균형을 일관되게 유지하여 리소스가 제한된 시나리오에 대한 적합성을 강화합니다.

그림 9 ∣ 엣지 디바이스의 SmolVLM. (왼쪽) SmolVLM이 기기에서 소비자 휴대폰으로 로컬로 실행될 수 있는 HuggingSnap 앱의 예입니다. 예를 들어, 상호작용은 모바일 인터페이스를 사용하여 객체를 감지하고 질문에 답할 수 있습니다. (오른쪽) 배치 크기와 모델 변형에 따라 NVIDIA A100 GPU (위)와 다양한 소비자 개인용 컴퓨터 (아래)의 초당 토큰 처리량.

4.4 On-Device Performance

SmolVLM의 배포 실용성을 종합적으로 평가하기 위해, 우리는 두 가지 대표적인 하드웨어 플랫폼에서 다양한 배치 크기에 걸쳐 SmolVLM의 처리량을 벤치마킹했습니다: NVIDIA A100 및 NVIDIA L4 GPU (그림 9 참조).
우리의 평가는 SmolVLM이 온디바이스 및 엣지 배포 시나리오에 적합하다는 점을 강조합니다.

A100 GPU에서 가장 작은 SmolVLM-256M 변형은 배치 크기 1에서 초당 0.8개의 예제에서 배치 크기 64에서 초당 16.3개의 예제로 확장하여 인상적인 처리량을 달성합니다.
500M 변형은 초당 0.7~9.9개의 예제로 유사하게 확장되는 반면, 가장 큰 22B 변형은 더 완만한 확장 (초당 0.6~1.7개의 예제)을 보여 더 높은 계산 요구를 나타냅니다.

L4 GPU에 대한 평가는 SmolVLM의 엣지 호환성을 더욱 강조합니다.
여기서 256M 변형은 배치 크기 8에서 초당 2.7개의 예제로 최대 처리량에 도달하며, 이후 메모리 제약으로 인해 감소합니다.
500M 및 22B 변형은 배치 크기가 낮을수록 (각각 초당 1.4건과 0.25건) 최고조에 달하며, 이는 더 제한적인 하드웨어 조건에서도 효율성을 강조합니다.

마지막으로, 출시와 함께 여러 최적화된 ONNX (Open Neural Network Exchange) 수출을 통해 플랫폼 간 호환성을 높이고 소비자급 하드웨어 타겟 전반에 걸쳐 배포 기회를 넓혔습니다.
특히, 우리는 웹GPU를 통해 브라우저 환경 내에서 이러한 모델을 효율적으로 실행할 수 있는 능력을 입증했으며, 256M 변형 모델은 14인치 MacBook Pro (M4 Max)에서 초당 최대 80개의 디코딩 토큰을 달성했습니다.

4.5 Downstream Applications

SmolVLM은 자체 평가 외에도 광범위한 연구 커뮤니티에서 개발한 다양한 다운스트림 애플리케이션에 채택되어 실제 리소스가 제한된 시나리오에서 효율성을 강조하고 있습니다.

ColSmolVLM: On-Device Multimodal Inference.

ColSmolVLM은 Hugging Face (Fayse et al., 2024b)의 최근 연구에서 자세히 설명한 바와 같이 온디바이스 배포를 위해 명시적으로 설계된 소형 SmolVLM 변형 (256M 및 500M 매개변수)을 활용합니다.
이러한 컴팩트한 모델은 모바일 기기, 소비자용 노트북, 심지어 브라우저 기반 환경에서도 효율적인 멀티모달 추론을 가능하게 하여 계산 요구와 운영 비용을 크게 줄여줍니다.

Smol Docling: Ultra-Compact Document Processing.

Smol Docling은 SmolVLM의 초소형 256M 매개변수 변형으로, 종단 간 멀티모달 문서 변환 작업에 명시적으로 최적화되어 있습니다 (Nassar et al., 2025b).
Smol Docling은 DocTags라는 특수 표현을 사용하여 비즈니스 문서, 학술 논문, 특허 등 다양한 문서 유형에서 콘텐츠, 맥락 및 공간적 관계를 효율적으로 포착합니다.
컴팩트한 아키텍처는 상당히 큰 VLM으로 경쟁력 있는 성능을 유지하여 계산 제약이 있는 시나리오에서 배포하기에 적합하다는 점을 강조합니다.

BioVQA: Biomedical Visual Question Answering.

BioVQA는 SmolVLM의 컴팩트하고 효율적인 아키텍처를 활용하여 생물의학 영역 내에서 시각적 질문 응답 작업을 처리합니다(Lozano et al., 2025).
소규모 SmolVLM 모델은 의료 영상을 해석하는 데 유망한 능력을 입증했으며, 시각 데이터를 기반으로 임상 질문에 정확한 답변을 제공하여 의료 전문가를 지원합니다.
이 기능은 빠르고 신뢰할 수 있는 이미지 해석이 중요하지만 계산 자원이 제한될 수 있는 의료 환경에서 특히 유용합니다.

5 Related Work

5.1 First-Generation Vision-Language Models

초기 멀티모달 모델은 주로 매개변수를 확장하여 상당한 진전을 이루었지만, 높은 계산 요구 사항으로 인해 실용적인 배포에 한계가 있었습니다.
예를 들어, 80B 매개변수 Vision-Language Model (VLM)인 Flamingo (Alayrac et al., 2022b)는 게이트 크로스 어텐션을 사용하는 비전 인코더와 효율적인 토큰 압축을 위해 고정된 70B 매개변수 LM (Hoffmann et al., 2022)을 통합했습니다.
작업별 파인튜닝 없이 SOTA 퓨 샷 기능을 제공했음에도 불구하고, Flamingo의 대규모 작업은 상당한 배포 문제를 야기했습니다.

Hugging Face의 Idefics (Laurençon et al., 2023)은 Flamingo의 아키텍처를 채택하여 9B 및 80B 매개변수 모두에서 모델을 제공하여 대규모 멀티모달 학습의 접근 방식을 더욱 잘 보여주었습니다.
반면, BLIP-2 (Li et al., 2023a)는 비전 인코더와 언어 모델을 모두 freeze하여 보다 매개변수 효율적이고 모듈식 설계를 제안했으며, 대신 시각적 피쳐를 언어 호환 토큰으로 변환하는 경량 Query Transformer (Q-Former)를 도입했습니다.
이 접근 방식은 학습 가능한 매개변수를 크게 줄여, 학습 가능한 매개변수가 약 54배 적은 VQA 작업에서 Flamingo의 성능을 능가했습니다 (Antol et al., 2015; Goyal et al., 2017), 따라서 더 효율적인 멀티모달 아키텍처를 향한 길을 열었습니다.

마찬가지로, LLaVA (Large Language-and-Vision Assistant) (Liu et al., 2023)는 사전 학습된 CLIP (Radford et al., 2021) ViT 이미지 인코더를 LLaMA/Vicuna 언어 백본(Touvron et al., 2023; Zheng et al., 2024)에 연결하여 명령어-팔로잉 데이터셋에서 결합 모델을 파인튜닝했습니다.
GPT-4V 유사 기능을 갖춘 13B 매개변수 멀티모달 챗봇 (Achiam et al., 2023)을 개발한 결과, LLaVA는 눈에 띄는 시각적 대화 성능을 달성했습니다.
그러나 Flamingo보다 작고 빠름에도 불구하고 실시간 상호작용을 위해 여전히 상당한 GPU 메모리가 필요하며 기본 언어 모델의 컨텍스트 창 (일반적으로 2048개의 토큰)의 한계를 물려받습니다.

최근 연구는 Vision-Language Models (VLM)을 향상시키기 위해 다양한 디자인 선택, 학습 전략 및 데이터 구성을 적극적으로 탐구하고 있습니다.
예를 들어, Idefics2 (Laurençon et al., 2024)는 이전 모델에 비해 아키텍처 및 학습 데이터 개선을 도입하여 오픈 소스 VLM 기능을 발전시켰습니다.
동시에 Cambrian1 (Tong et al., 2024)은 보다 효율적인 아키텍처를 목표로 기본 설계 원칙과 확장 동작을 검토했습니다.
Eagle (Shi et al., 2024)과 그 후속작인 Eagle2 (Li et al., 2025b)와 같은 프로젝트는 성능과 효율성 향상을 목표로 특정 아키텍처 구성 요소를 최적화했습니다.
또한, 최근 Apollo (Zohar et al., 2024b)와 같은 연구들은 멀티모달 아키텍처를 정적 이미지에서 비디오 이해로 확장하여 접근 방식의 다양성을 더욱 풍부하게 합니다.

5.2 Efficiency-Focused Vision-Language Models

InternVL (Chen et al., 2024c,b) 및 Qwen-VL (Bai et al., 2023, 2025; Wang et al., 2024a)과 같은 대형 모델은 향상된 계산 효율성을 위해 아키텍처 혁신을 도입했습니다.
InternVL은 6B 매개변수 vision transformer (ViT)를 8B 매개변수 언어 'middleware,'와 정렬하여 여러 비전 및 멀티모달 작업에서 SOTA 결과를 달성하는 14B 매개변수 모델을 형성합니다.
이 균형 잡힌 아키텍처는 모달리티 격차를 줄여 강력한 멀티모달 인식 및 생성 기능을 가능하게 합니다.
마찬가지로 Qwen-VL은 Qwen 언어 모델과 특수 시각 모듈을 통합하여 캡션된 바운딩 박스 데이터를 활용하여 시각적 grounding 및 텍스트 인식 기능을 향상시킵니다.
Qwen-VL은 강력한 다국어 및 멀티모달 성능에도 불구하고 고해상도 입력을 위한 매우 긴 토큰 시퀀스를 생성하여 메모리 요구 사항을 증가시킵니다.

작은 측면에서는 PaliGemma, Moondream2, MiniCPM-V와 같은 모델이 제한된 매개변수 예산 내에서 인상적인 멀티모달 기능을 보여줍니다.
PaliGemma (Team et al., 2024)는 단 3B 매개변수 (SigLIP-So (Zhai et al., 2023)와 2B Gemma 언어 모델의 400M개의 비전 인코더)로 다양한 멀티모달 작업을 효과적으로 처리합니다.
그러나 압축된 시각적 인터페이스는 상세한 시각적 분석을 제한할 수 있습니다.

Moondream2는 1.8B 매개변수에 불과한 SigLIP 시각적 피쳐를 Microsoft의 Phi-1.5 언어 모델 (Li et al., 2023b)과 페어링하여 이미지 설명, OCR, 카운팅, 분류와 같은 작업에서 경쟁력 있는 성능을 보여주며 엣지 및 모바일 애플리케이션에 이상적입니다.
기기 내 시나리오를 위해 특별히 설계된 MiniCPM-V (Hu et al., 2024)는 퍼시버 스타일 어댑터를 통해 400M개의 비전 인코더와 7.5B개의 언어 모델을 통합합니다.
이 컴팩트 모델은 선택된 벤치마크에서 GPT-4V 수준의 성능을 현저히 달성합니다.
Deepseek VL과 Deepseek VL2 (Lu et al., 2024a; Wu et al., 2024)는 각각 2~7B와 4~27B 매개변수에 걸쳐 있으며, 자원 제약 환경에 적합한 효율적이면서도 강력한 멀티모달 모델에 대한 관심이 증가하고 있음을 더욱 잘 보여줍니다.
종합적으로, 이러한 모델들은 실제 시나리오에서 효과적인 실시간 멀티모달 AI를 배포하는 가능성이 증가하고 있음을 보여줍니다.

5.3 Multimodal Tokenization and Compression Strategies

효율적인 토큰화는 Vision-Language Models (VLM)의 계산 및 메모리 요구를 크게 줄여줍니다.
초기 방법들은 모든 픽셀이나 패치를 개별적으로 인코딩하여 긴 시퀀스를 생성했습니다—16×16 해상도의 224×224 이미지에 대한 196개의 토큰.
최근 전략들은 필수적인 세부 사항을 보존하면서 시각적 데이터를 압축합니다.
Flamingo와 Idefics2 (Alayrac et al., 2022b; Laurençon et al., 2024a)에서 사용하는 Perceiver Resamplers (Jaegle et al., 2021)와 BLIP-2의 Q-Former (Li et al., 2023a)와 같은 학습된 모듈은 입력을 소수의 잠재 토큰 세트로 압축합니다.
시퀀스를 단축하는 데 효과적이지만, 이러한 방법들은 OCR과 같은 세밀한 작업에서 성능을 제한할 수 있습니다 (Singh et al., 2019; Biten et al., 2019).
패치 풀링과 픽셀 셔플을 통한 공간 압축이 점점 더 인기를 끌고 있습니다.
InternVL v1.5 및 Idefics3 (Chen et al., 2024c,b; Laurençon et al., 2023)는 2×2 픽셀 셔플을 사용하여 토큰 수를 4배 줄이면서 OCR 기능을 유지합니다.
Qwen-VL-2 (Wang et al., 2024a)와 같은 모델은 컨볼루션 및 트랜스포머 모듈을 통한 다중 스케일 표현과 선택적 토큰 드롭을 채택합니다.
UReader와 DocOwl의 이미지 타일링과 같은 적응형 방법은 작업 복잡성에 따라 토큰 수를 동적으로 조정하여 일부 전역 컨텍스트를 희생시킵니다.

5.4 Video-Capable Vision-Language Models

vision-language models (VLM)을 이미지에서 비디오로 확장하면 시간적 차원, 토큰 수 확장 및 계산 요구로 인해 복잡성이 크게 증가합니다.
초기 모델들, 예를 들어 Video-LLaVA (Lin et al., 2023a), 통합 이미지 및 비디오 학습, 정적 이미지와 비디오 프레임 기능 정렬, 그리고 MSRVTT (Xu et al., 2016), MSVD (Chen and Dolan, 2011), TGIF (Li et al., 2016), ActivityNet (Caba Heilbron et al., 2015)과 같은 벤치마크에서 Video-ChatGPT (Maaz et al., 2023)와 같은 이전 모델들을 크게 능가했습니다.
한편, Video-STaR (Zohar et al., 2024a)은 대형 멀티모달 모델의 명령어 튜닝을 위해 기존 라벨링된 비디오 데이터셋을 활용하는 최초의 자가 학습 접근 방식을 도입했습니다.

최근 모델들은 긴 형식의 비디오 콘텐츠를 처리하는 데 있어 효율성과 효율성을 향상시킵니다.
Temporal Preference Optimization (TPO) (Li et al., 2025a)는 로컬화되고 포괄적인 시간적 기반을 갖춘 자가 학습을 통해 LongVideoBench, MLVU, Video-MME와 같은 벤치마크를 개선합니다.
Oryx MLLM (Liu et al., 2024g)은 OryxViT 인코더를 통해 시각적 토큰을 동적으로 압축하여 작업 전반에 걸쳐 효율성과 정밀성을 균형 있게 유지합니다.
VideoAgent (Wang et al., 2024b)는 의사 결정 과정으로서 장기적인 비디오 이해를 모델링하며, large language model (LLM)을 에이전트로 활용하여 질문 응답에 중요한 정보를 반복적으로 식별하고 컴파일합니다.
VideoLLaMA3 (Zhang et al., 2025)는 가변 해상도를 위해 비전 인코더를 조정하고 멀티태스크 파인튜닝을 사용하여 비디오 이해를 향상시킵니다.
Video-XL (Shu et al., 2024)은 시간 규모의 동영상을 효율적으로 처리하기 위해 Visual Summarization Tokens (VST)과 커리큘럼 학습을 도입합니다.
마찬가지로, Kangaroo (Liu et al., 2024b)는 커리큘럼 학습을 활용하여 입력 해상도와 프레임 수를 점진적으로 확장하여 다양한 벤치마크에서 최고의 성능을 달성합니다.

Apollo (Zohar et al., 2024b)는 최근 Video-LMM에 대해 심층적으로 탐구하고 성능에 가장 큰 영향을 미치는 아키텍처와 학습 일정을 보여주었습니다.
그렇게 함으로써 학습과 추론 과정에서 놀라운 효율성 향상을 보여주었습니다.
Apollo는 LongVideoBench, MLVU, Video-MME와 같은 벤치마크에서 적당한 매개변수 크기로 SOTA 성과를 달성했습니다(Zhou et al., 2024; Fu et al., 2024).

6 Conclusion

우리는 256M에서 2.2B개의 매개변수에 이르는 메모리 효율적인 비전-언어 모델 제품군인 SmolVLM을 소개했습니다.
놀랍게도 가장 작은 버전이라도 1GB 미만의 GPU 메모리가 필요하지만 불과 18개월 전의 최신 80B 매개변수 모델을 능가합니다(Laurençon et al., 2023).
우리의 연구 결과는 중요한 통찰력을 강조합니다: 자원이 풍부한 조건에서 최적화된 대형 VLM 아키텍처를 축소하면 추론 과정에서 메모리 요구량이 불균형적으로 높아지며, 전문 아키텍처에 비해 이점이 거의 없습니다.
반면, SmolVLM의 설계 철학은 컴팩트한 아키텍처 혁신, 공격적이지만 신중한 토큰화 방법, 효율적인 학습 전략을 명시적으로 우선시하여 계산 비용의 일부로 강력한 멀티모달 기능을 가능하게 합니다.

모든 모델 가중치, 학습 데이터셋, 학습 코드는 재현성, 투명성, 지속적인 혁신을 장려하기 위해 공개적으로 공개됩니다.
SmolVLM이 차세대 경량 효율적인 VLM에 영감을 주어 최소한의 전력 소비로 실시간 멀티모달 추론의 새로운 가능성을 열어주기를 바랍니다.

'VLM' 카테고리의 다른 글

Improved Baselines with Visual Instruction Tuning (0)	2026.04.29
Visual Instruction Tuning (0)	2026.04.27

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브