2026. 4. 29. 11:22ㆍVLM
Improved Baselines with Visual Instruction Tuning
Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
Abstract
Large multimodal models (LMM)은 최근 visual instruction tuning에서 고무적인 진전을 보이고 있습니다.
이 논문에서는 LLaVA 프레임워크 하에서 통제된 환경에서 LMM의 설계 선택을 조사하기 위한 최초의 체계적인 연구를 제시합니다.
우리는 LLaVA의 완전 연결 비전 언어 커넥터가 놀랍도록 강력하고 데이터 효율적임을 보여줍니다.
CLIP-ViT-L-336px를 MLP 프로젝션과 함께 사용하고 응답 형식 프롬프트와 함께 학술 과제 지향 VQA 데이터를 추가하는 등 LLaVA를 간단히 수정하여 11개 벤치마크에서 SOTA 성능을 달성하는 더 강력한 베이스라인을 구축했습니다.
최종 13B 체크포인트는 공개된 1.2M개의 데이터만을 사용하며, 단일 8-A100 노드에서 약 1일 만에 전체 학습을 마칩니다.
또한, 우리는 고해상도 입력, 구성 능력, 모델 환각 등으로 확장하는 것을 포함하여 LMM의 미해결 문제에 대한 초기 탐구를 제시합니다.
이를 통해 SOTA LMM 연구에 대한 접근성이 높아지기를 바랍니다.
코드와 모델은 공개될 예정입니다.
1. Introduction
Large multimodal models (LMM)은 범용 어시스턴트를 위한 핵심 구성 요소이기 때문에 연구 커뮤니티에서 점점 더 인기를 끌고 있습니다 [2, 30, 43].
최근 LMM에 대한 연구는 visual instruction tuning이라는 중심 개념에 수렴하고 있습니다[36].
결과는 유망합니다, 예를 들어, LLaVA [36]와 MiniGPT-4 [62]는 자연스러운 명령어-팔로잉 및 시각적 추론 능력에서 인상적인 결과를 보여줍니다.
LMM의 기능을 더 잘 이해하기 위해 여러 벤치마크 [17, 27, 34, 37, 55]가 제안되었습니다.
최근 연구에서는 사전 학습 데이터 [3, 14, 54], 명령어-팔로잉 데이터 [14, 18, 29, 58], 시각 인코더 [3], 또는 언어 모델 [39]을 각각 확장하여 성능이 향상되었음을 보여줍니다.
LLaVA 아키텍처는 지역 수준 [8, 56] 및 픽셀 수준 [26, 50] 이해, 생의학 어시스턴트 [31], 이미지 생성 [5], 적대적 연구 [6, 59] 등 다양한 하위 작업 및 도메인에서도 활용됩니다.
그러나 많은 벤치마크와 개발에도 불구하고, 범용 어시스턴트의 목표를 향해 LMM을 학습시키는 가장 좋은 방법이 무엇인지는 여전히 불분명합니다.
예를 들어, LLaVA [36]은 대화형 시각적 추론에서 뛰어난 성능을 보이며, 이러한 벤치마크 [55]에서 InstructBLIP [14]와 같은 후속 접근 방식을 능가하는 반면, InstructBLIP는 단일 단어 또는 단답형 답변을 요구하는 전통적인 VQA 벤치마크에서는 뛰어난 성능을 보입니다.
모델 아키텍처와 학습 데이터의 상당한 차이를 고려할 때, 그들의 능력 차이의 근본 원인은 추측에도 불구하고 여전히 찾기 어렵습니다 [37, 55]: 학습 데이터의 양, Qformer [32]와 같은 리샘플러의 사용 등.
이를 위해, 우리는 통제된 환경에서 LMM의 설계 선택을 조사하기 위한 최초의 체계적인 연구를 제시합니다.
우리의 연구는 LLaVA에서 시작하여 입력, 모델, 데이터의 관점에서 효과적인 기여를 신중하게 수행하여 로드맵을 구축합니다.
먼저, LLaVA의 완전 연결 비전 언어 커넥터가 놀랍도록 강력하고 데이터 효율적임을 밝히고, LLaVA 프레임워크를 기반으로 한 더 강력하고 실현 가능한 베이스라인을 설정합니다.
MLP 크로스 모달 커넥터와 VQA와 같은 학술 과제 관련 데이터를 통합하는 두 가지 간단한 개선 사항이 LLaVA 프레임워크와 직교하며, LLaVA와 함께 사용하면 더 나은 멀티 모달 이해 능력을 얻을 수 있음을 보고합니다.
수억 또는 수십억 개의 이미지-텍스트 쌍 데이터를 기반으로 특별히 설계된 시각적 리샘플러를 학습시키는 InstructBLIP [14] 또는 Qwen-VL [3]과 달리, LLaVA는 LMM을 위한 가장 간단한 아키텍처 설계 중 하나를 사용하며, 단 600K개의 이미지-텍스트 쌍에 대해 간단한 완전 연결 투영 레이어만 학습하면 됩니다.
우리의 최종 모델은 단일 8-A100 기계에서 약 1일 만에 학습을 완료할 수 있으며, 다양한 벤치마크에서 SOTA 결과를 달성합니다.
또한, 학습에 사내 데이터를 포함하는 Qwen-VL [3]과 달리 LLaVA는 공개된 데이터만 활용합니다.
다음으로, 우리는 대규모 멀티모달 모델의 다른 미해결 문제들에 대한 초기 탐구를 탐구합니다.
우리의 연구 결과는 다음과 같습니다:
(1) 고해상도 이미지 입력으로 확장하기.
우리는 LLaVA의 아키텍처가 이미지를 그리드로 단순히 분할하여 더 높은 해상도로 확장하는 데 다재다능하다는 것을 보여주며, 데이터 효율성을 유지합니다; 해상도가 증가함에 따라 모델의 세부 인식 능력이 향상되고 환각이 줄어듭니다.
(2) 구성 능력.
우리는 대형 멀티모달 모델이 구성 능력으로 일반화할 수 있다는 것을 발견했습니다.
예를 들어, 긴 형태의 언어 추론과 짧은 시각적 추론에 대한 학습은 모델의 멀티모달 질문 작성 능력을 향상시킬 수 있습니다.
(3) 데이터 효율성.
우리는 LLaVA의 학습 데이터 혼합을 최대 75%까지 랜덤으로 다운샘플링해도 모델의 성능이 크게 저하되지 않는다는 것을 보여주며, 이는 더 정교한 데이터셋 압축 전략의 가능성이 LLaVA의 이미 효율적인 학습 파이프라인을 더욱 개선할 수 있음을 시사합니다.
(4) 데이터 확장.
우리는 환각과 같은 아티팩트를 도입하지 않고도 향상된 기능을 위해 모델의 기능과 함께 데이터 세분화의 확장에 대한 실증적 증거를 제공합니다.
요약하자면, 우리는 대형 멀티모달 모델의 학습에 대한 체계적인 연구를 수행하고, 대형 멀티모달 모델의 멀티태스크 학습과 효과적인 스케일링의 균형을 맞추기 위한 간단하면서도 효과적인 접근 방식을 소개합니다.
개선된 베이스라인인 LLaVA-1.5는 공개 데이터만을 사용하며, 11개의 광범위한 작업에서 SOTA 성능을 달성하고 이전 접근 방식보다 데이터 효율성이 훨씬 뛰어납니다.
기존의 접근 방식을 재고하고 시각적 명령 조정의 미해결 문제를 탐구함으로써, 우리는 LMM을 위한 보다 견고하고 유능한 시스템을 위한 길을 열었습니다.
이러한 개선되고 쉽게 재현 가능한 베이스라인이 향후 오픈 소스 LMM 연구에 참고가 되기를 바랍니다.

2 Related Work
Instruction-following large multimodal models (LMMs).
일반적인 아키텍처에는 시각적 피쳐를 인코딩하기 위해 사전 학습된 시각적 백본, 사용자 지시를 이해하고 응답을 생성하기 위해 사전 학습된 large language model (LLM), 비전 인코더 출력을 언어 모델에 맞추기 위한 비전-언어 크로스 모달 커넥터가 포함됩니다.
그림 1에서 볼 수 있듯이, LLaVA [36]는 아마도 LMM을 위한 가장 간단한 아키텍처일 것입니다.
선택적으로 시각적 리샘플러 (예: Qformer [32])를 사용하여 시각적 패치 수를 줄입니다 [3, 14, 62].
명령어를 따르는 LMM을 학습하는 것은 일반적으로 두 단계 프로토콜을 따릅니다.
먼저, 비전-언어 정렬 사전 학습 단계에서는 이미지-텍스트 쌍을 활용하여 시각적 피쳐를 언어 모델의 단어 임베딩 공간과 정렬합니다.
이전 연구들은 비교적 적은 수의 이미지-텍스트 쌍 (예: 약 600K [36] 또는 약 600M [62])을 사용했지만, 최근 연구들은 LMM의 성능을 극대화하기 위해 많은 양의 이미지-텍스트 쌍 (예: 129M [14] 및 1.4B [3])에서 특정 언어 모델의 비전-언어 연결기를 사전 학습시켰습니다.
둘째, visual instruction tuning 단계에서는 시각적 지시에 따라 모델을 튜닝하여 [36] 시각적 내용과 관련된 지시에 대한 사용자의 다양한 요청을 모델이 따를 수 있도록 합니다.
LMM에서 그리드를 사용한 고해상도 처리는 동시 연구 [1, 28, 53]에서 연구되었습니다.
Multimodal instruction-following data.
NLP에서 연구에 따르면, 명령어 추적 데이터의 품질이 결과적인 명령어 추적 모델의 능력에 크게 영향을 미치는 것으로 나타났습니다 [61].
visual instruction tuning을 위해 LLaVA [36]는 텍스트 전용 GPT-4를 활용하여 기존 COCO [35] 바운딩 박스 및 캡션 데이터셋을 대화형 QA, 상세한 설명, 복잡한 추론의 세 가지 유형의 명령어 추적 데이터셋을 포함하는 멀티모달 명령어 추적 데이터셋으로 확장하는 선구자입니다.
LLaVA의 파이프라인은 텍스트 이해 [57], 백만 규모 [58], 지역 수준 대화 [8]로 확장하는 데 사용되었습니다.
InstructBLIP [14]는 학업 과제 지향 VQA 데이터셋을 통합하여 모델의 시각적 기능을 더욱 향상시킵니다.
반대로, [7]은 이러한 나이브한 데이터 병합이 VQA 데이터셋에 과적합되는 경향이 있어 자연스러운 대화에 참여할 수 없는 모델을 초래할 수 있음을 식별합니다.
저자들은 또한 LLaVA 파이프라인을 활용하여 VQA 데이터셋을 대화형 스타일로 변환할 것을 제안합니다.
이것은 학습에 효과적이라는 것이 입증되었지만, 데이터 확장에 추가적인 복잡성을 초래합니다.
그러나 NLP에서 FLAN 계열 [13, 51]은 명령어 조정을 위해 많은 수의 학술 언어 작업을 추가하면 일반화 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.
이를 바탕으로, 우리는 멀티모달 모델에서 자연스러운 대화와 학문적 과제 간의 균형을 맞추지 못하는 근본 원인을 조사하는 것을 고려합니다.
3. Approach
3.1. Preliminaries
visual instruction tuning의 중요한 작업인 LLaVA [36]는 시각적 추론 능력에서 뛰어난 숙련도를 보여주며, 실제 시각적 지시 추종 작업에서 다양한 벤치마크 [4, 55]의 최신 모델을 능가합니다.
LLaVA는 단일 선형 레이어를 사용하여 시각적 피쳐를 언어 공간에 투영하고, visual instruction tuning을 위해 전체 LLM을 최적화합니다.
그러나 LLaVA는 일반적으로 짧은 형태의 답변 (예: 단일 단어)이 필요한 학문적 벤치마크에 미치지 못하며, 학습 분포에 이러한 데이터가 부족하기 때문에 예/아니오 질문에 대해 예라고 대답하는 경향이 있습니다.
반면, InstructBLIP [14]는 LLaVA-Instruct [36]와 함께 VQA-v2 [19]와 같은 학술 과제 지향 데이터셋을 통합한 선구자이며, VQA 벤치마크에서 향상된 성능을 보여줍니다.
129M 이미지-텍스트 쌍에서 Qformer [32]를 사전 학습하고 visual instruction tuning을 위해 명령어 인식 Qformer만 파인튜닝합니다.
그러나 최근 연구 [7, 55]에 따르면 실제 시각적 대화 작업에 참여하는 데 있어 LLaVA만큼 좋은 성능을 발휘하지 못하는 것으로 나타났습니다.
보다 구체적으로, 표 1a에 나타난 바와 같이, 상세한 응답이 필요한 요청에서도 짧은 답변으로 VQA 학습 세트에 과적합될 수 있습니다.

3.2. Response Format Prompting
자연스러운 응답과 단답형 응답을 모두 포함하는 명령어 후속 데이터를 활용하는 InstructBLIP [14]와 같은 접근 방식에서 [7]이 단답형 VQA와 장답형 VQA 간의 균형을 맞출 수 없는 것은 주로 다음과 같은 이유 때문이라는 것을 발견했습니다.
먼저, 응답 형식에 대한 모호한 프롬프트입니다.
예를 들어, Q: {Question} A: {Answer}.
이러한 프롬프트는 원하는 출력 형식을 명확하게 나타내지 않으며, 자연스러운 시각적 대화에서도 짧은 형식의 답변에 LLM을 행동적으로 과적합시킬 수 있습니다.
둘째, LLM을 파인튜닝하지 않습니다.
첫 번째 문제는 InstructBLIP가 명령어 튜닝을 위해 Qformer만 파인튜닝함으로써 더욱 악화됩니다.
Qformer의 시각적 출력 토큰은 접두사 튜닝 [33]에서와 같이 LLM의 출력 길이를 길게 또는 짧게 제어해야 하지만, Qformer는 LLaMA와 같은 LLM에 비해 용량이 제한되어 있어 제대로 수행할 수 있는 기능이 부족할 수 있습니다.
따라서 LLaVA가 InstructBLIP 문제를 해결하면서 짧은 형식의 답변을 더 잘 처리할 수 있도록 하기 위해 출력 형식을 명확하게 나타내는 단일 응답 형식 프롬프트를 사용할 것을 제안합니다.
짧은 답변을 홍보할 때 VQA 질문의 끝에 추가됩니다: 질문에 단 하나의 단어나 구절로 답하세요.
LLM이 이러한 프롬프트로 파인튜닝될 때, LLaVA는 사용자의 지시에 따라 출력 형식을 적절히 조정할 수 있으며 (표 1b 참조), ChatGPT [7]을 사용하여 VQA 답변을 추가로 처리할 필요가 없어 다양한 데이터 소스로 확장할 수 있음을 발견했습니다.
표 2에서 볼 수 있듯이, 학습에 VQAv2 [19]를 포함시키는 것만으로도 LLaVA의 MME 성능이 크게 향상되었으며 (1323.8 vs 809.6), InstructBLIP보다 111점 더 뛰어났습니다.

3.3. Scaling the Data and Model
MLP vision-language connector.
자기 지도 학습에서 선형 투영에서 MLP로 변경함으로써 향상된 성능에 영감을 받아, 우리는 2-레이어 MLP로 비전 언어 커넥터의 표현력을 향상시키는 것이 원래의 선형 투영에 비해 LLaVA의 멀티모달 능력을 향상시킬 수 있음을 발견했습니다 [9, 10].
Academic task oriented data.
또한, 표 2와 같이 다양한 방식으로 모델의 역량을 향상시키기 위해 VQA, OCR 및 지역 수준 인식을 위한 학술 과제 지향 VQA 데이터셋을 추가로 포함시켰습니다.
먼저 InstructBLIP에 사용되는 네 가지 추가 데이터셋을 포함합니다: open-knowledge VQA (OKVQA [41], A-OKVQA [45]) 및 OCR (OCRVQA [42], TextCaps [47]).
A-OKVQA는 객관식 질문으로 변환되며 특정 응답 형식 지정 프롬프트가 사용됩니다: 주어진 선택지에서 옵션의 편지로 직접 답변하세요.
InstructBLIP가 사용하는 데이터셋의 일부만 가지고 있는 상황에서, LLaVA는 이미 표 2의 세 가지 작업 모두에서 이를 능가하고 있으며, 이는 LLaVA의 효과적인 설계를 시사합니다.
또한, 지역 수준의 VQA 데이터셋 (Visual Genome [25], RefCOCO [24, 40])을 추가하면 세밀한 시각적 세부 사항을 파악하는 모델의 기능이 향상된다는 것을 발견했습니다.
Additional scaling.
또한 비전 인코더를 CLIP-ViT-L-336px (CLIP에서 사용할 수 있는 최고 해상도)로 전환하여 LLM이 이미지의 세부 사항을 명확하게 "see" 위해 입력 이미지 해상도를 336^2로 확장했습니다.
또한, 우리는 GQA 데이터셋을 추가적인 시각적 지식 소스로 추가합니다.
또한 ShareGPT [46] 데이터를 통합하여 [3, 8, 39]에서와 같이 LLM을 13B로 확장합니다.
MMVet의 결과는 LLM을 13B로 확장할 때 가장 큰 개선을 보여주며, 이는 시각적 대화를 위한 base LLM의 기능의 중요성을 시사합니다.
LLaVA-1.5.
우리는 이 최종 모델을 모든 수정 사항을 포함하여 LLaVA-1.5 (표 2의 마지막 두 행)로 표시하며, 이는 원래의 LLaVA를 훨씬 능가하는 인상적인 성능을 달성합니다 [36].
Computational cost.
LLaVA-1.5의 경우, 동일한 사전 학습 데이터셋을 사용하며, 학습 반복과 배치 크기는 LLaVA [36]와 거의 동일하게 유지됩니다.
이미지 입력 해상도가 336^2로 증가함에 따라 LLaVA-1.5의 학습 길이는 LLaVA의 약 2배입니다: 8×A100을 사용하여 약 6시간의 사전 학습과 약 20시간의 visual instruction tuning.
3.4. Scaling to Higher Resolutions
섹션 3.3에서는 입력 이미지 해상도를 확장하면 모델의 성능이 향상된다는 장점을 관찰했습니다.
그러나 기존 오픈 소스 CLIP 비전 인코더의 이미지 해상도는 336^2로 제한되어 있어, 섹션 3.3에서와 같이 비전 인코더를 교체하는 것만으로 고해상도 이미지를 지원할 수 없습니다.
이 섹션에서는 LLaVA-1.5의 데이터 효율성을 유지하면서 LMM을 더 높은 해상도로 확장하는 초기 탐구를 제시합니다.
비전 인코더로 ViT [15]를 사용할 때 해상도를 확장하기 위해 이전 접근 방식은 대부분 위치 임베딩 보간 [3, 32]을 수행하고 파인튜닝 중에 ViT 백본을 새로운 해상도에 맞게 조정하는 것을 선택합니다.
그러나 이를 위해서는 일반적으로 대규모 이미지-텍스트 쌍 데이터셋 [3, 32]에서 모델을 파인튜닝해야 하며, 이미지의 해상도는 추론 중에 LMM이 수용할 수 있는 고정된 크기로 제한됩니다.

대신, 그림 2와 같이, 우리는 이미지를 원래 비전 인코더가 학습된 해상도의 작은 이미지 패치로 나누어 독립적으로 인코딩함으로써 이를 극복합니다.
개별 패치의 피쳐 맵을 얻은 후, 이를 하나의 큰 타겟 해상도 피쳐 맵으로 결합하여 LLM에 입력합니다.
LLM에 전역 컨텍스트를 제공하고 분할-인코딩-병합 작업의 아티팩트를 줄이기 위해 다운샘플링된 이미지의 피쳐를 병합된 피쳐 맵에 추가로 연결합니다.
이를 통해 입력을 임의의 해상도로 확장하고 LLaVA-1.5의 데이터 효율성을 유지할 수 있습니다.
우리는 이 결과 모델을 LLaVA-1.5-HD라고 부릅니다.
4. Empirical Evaluation
4.1. Benchmarks
우리는 두 가지 학문적 과제를 모두 수집하여 LLaVA-1.5를 평가합니다.-
지시 기반 LMM을 위해 특별히 제안된 지향성 벤치마크와 최근 벤치마크, 총 12개의 벤치마크.
학업 과제 지향 벤치마크의 경우, VQA-v2 [19]와 GQA [21]는 개방형 단답형 답변에서 모델의 시각적 인식 능력을 평가합니다.
VizWiz [20]에는 시각 장애인이 질문한 시각적 질문에 대한 모델의 제로샷 일반화를 평가하기 위한 8,000개의 이미지가 포함되어 있습니다.
InstructBLIP [14]에 따라 ScienceQA [38]의 이미지 하위 집합을 사용하여 과학적 질문 응답에 대한 제로샷 일반화를 평가합니다.
TextVQA [48]에는 텍스트가 풍부한 시각적 질문 답변이 포함되어 있습니다.
최근에 제안된 명령어-팔로잉 LMM 벤치마크에 대해, POPE [34]는 COCO [35]의 세 가지 샘플링된 하위 집합에 대해 모델의 환각 정도를 평가합니다: 랜덤, 공통, 적대적이며 세 가지 분할 모두에서 F1 점수를 보고합니다.
다른 벤치마크들은 다양한 응답 형식을 가진 다양한 도메인과 애플리케이션에서 모델의 기능을 평가합니다.
MME-Perception [17]은 예/아니오 질문으로 모델의 시각적 인식을 평가합니다.
MMBench [37]는 다중 선택 응답에 대한 종합적인 셔플링을 통해 모델의 응답 견고성을 평가합니다.
MMBench-CN [37]은 MMBench의 중국어 번역 버전입니다.
SEED-Bench [27]는 이미지와 비디오 모두에서 모델의 성능을 객관적으로 평가하며, 비디오의 정확성을 평가하기 위해 중간에 프레임을 샘플링합니다.
LlaVA-Bench-in-the-Wild [36]와 MM-Vet [55]는 다양한 작업에서 시각적 대화에 참여하는 모델의 능력을 평가하고, GPT-4 평가를 통해 응답의 정확성과 유용성을 평가합니다.
4.2. Results
우리는 LLaVA-1.5가 다른 방법들에 비해 크기가 작은 사전 학습 및 명령 튜닝 데이터를 사용함에도 불구하고 12개의 벤치마크에서 최고의 전체 성능을 달성한다는 것을 보여줍니다 [3, 14].
LLaVA-1.5는 명령어-팔로잉 LMM의 모든 벤치마크에서 LLaVA를 크게 능가합니다.
개방형 단답형 답변을 요구하는 VQA-v2 [19]와 같은 학술 데이터셋에서 원본 LLaVA를 평가하는 것은 어렵다는 점에 유의하세요.
LLaVA-1.5-HD를 사용하여 이미지 해상도를 448^2로 계속 확장하면 모든 벤치마크에서 전체 성능이 더욱 향상됩니다, 특히 이미지의 세부 사항을 인식해야 하는 작업 (예: MMVet의 OCR, LLaVA-in-Wild [36]의 상세 설명)에서 그렇습니다.
또한, 전역 컨텍스트를 추가하면 분할-및-병합 아티팩트에서 모델을 효과적으로 복원하고 고해상도 피쳐에서 관련 영역을 더 쉽게 찾을 수 있다는 것을 발견했습니다 (부록 참조).
LLaVA-1.5가 가장 단순한 아키텍처, 학술용 컴퓨팅 및 공개 데이터셋으로 최고의 성능을 달성하고, 향후 연구를 위한 완전 재현 가능하고 합리적인 베이스라인을 제시한다는 점은 고무적입니다.
결과는 시각적 명령 튜닝이 LMM의 능력을 향상시키는 데 중요한 역할을 한다는 것을 시사하며, LMM이 상당한 양의 비전-언어 정렬 사전 학습을 필요로 한다는 일반적인 믿음에 의문을 제기합니다 [3, 14, 32], 비록 비전 인코더 (예: CLIP [44], OpenCLIP [23], EVA-CLIP [16] 등)가 이미 웹 규모의 이미지-텍스트 쌍 데이터에서 사전 학습되어 있음에도 불구하고 말입니다.
LLaVA-1.5 (심지어 7B 모델도)는 크로스 모달 연결을 위한 수십억 개의 학습 가능한 매개변수를 가진 Flamingo-like LMM인 80B IDEFICS [22]를 능가합니다.
이는 또한 비전 샘플러의 이점과 멀티모달 명령어-팔로잉 기능 측면에서 추가적인 대규모 사전 학습의 필요성을 재고하게 만듭니다.
Global context.
고해상도를 위해 이미지를 224^2의 단일 이미지로 패드와 크기 조정하고, 고해상도 기능과 연결하여 전역적인 맥락을 제공합니다.
7B 모델에 대한 ablation은 전역 컨텍스트가 세 가지 검증 벤치마크 모두에서 성능을 효과적으로 향상시킨다는 것을 보여줍니다.
4.3. Emerging Properties
Format instruction generalization.
LLaVA-1.5는 제한된 수의 형식 명령어로만 학습되지만, 다른 형식 명령어로도 일반화됩니다.
먼저, VizWiz [20]은 제공된 콘텐츠가 질문에 답하기에 충분하지 않을 때 모델이 "Unanswerable"을 출력하도록 요구하며, 우리의 응답 형식 프롬프트 (부록 참조)는 모델에게 이를 효과적으로 지시합니다 (답변 불가능한 질문에 대해 11.1% → 67.8%).
우리는 또한 LLaVA-1.5가 까다로운 질문을 검증하고 (그림 5), 제한된 JSON 형식으로 응답하고 (그림 6) 등을 부록에서 설명하는 질적 예제를 제시합니다.

Multilingual multimodal capability.
LLaVA-1.5는 다국어 멀티모달 명령어를 따르는 데 전혀 세밀하지 않지만 (VQA를 포함한 모든 시각적 명령어는 영어로 되어 있습니다), 다국어 명령어를 따를 수 있다는 것을 알게 되었습니다.
이는 부분적으로 ShareGPT [46]의 다국어 언어 지침 때문입니다.
ShareGPT에는 지침에 이미지가 포함되어 있지 않지만, 모델은 이 데이터셋을 통해 사용자의 요청에 해당하는 언어로 적응적으로 응답하는 행동을 학습합니다.
우리는 이 행동이 시각적 대화로 전이된다는 것을 경험적으로 보여줍니다.
우리는 또한 MMBench-CN [37]에서 모델의 중국어에 대한 일반화 능력을 정량적으로 평가합니다, 여기서 MMBench의 질문은 중국어로 변환됩니다.
특히, LLaVA-1.5는 Qwen-VL-Chat보다 +7.3% (56.7% vs. 63.6%) 초과 달성한 반면, Qwen은 중국어 멀티모달 명령어에 대해 파인튜닝되었지만 LLaVA-1.5는 그렇지 않습니다.
4.4. Ablation on LLM Choices
NLP에서 [49] 연구 결과에 따르면 기본 LLM의 기능이 명령어-튜닝 후계자에게 영향을 미칠 수 있습니다.
이 섹션에서는 두 가지 LLM 계열을 탐구하고 최종 모델의 멀티모달 기능에 대한 기여도를 연구합니다: LLaMA 기반 (Vicuna-v1.1, Vicuna-v1.3) 및 LLaMA-2 기반 (Vicuna-v1.5, LLaMA-2-Chat).
Vicuna-v1.3 및 Vicuna-v1.5는 동일한 약 150K ShareGPT [46] 데이터 (v1.1에서 사용된 2배)를 사용합니다.
supervised instruction finetuning (SFT)으로만 학습되는 Vicuna 시리즈와 달리, LLaMA-2-Chat는 reinforcement-learning from human-feedback (RLHF)을 통한 강화 학습으로 더욱 최적화되었습니다.
우리는 그림 3에서 이러한 변형들의 상대적 성능을 시각화합니다.

먼저, Vicuna-v1.5가 전반적으로 최고의 성능을 달성하며, LLaMA-2 기반 모델이 일반적으로 LLaMA-1 기반 모델보다 더 나은 성능을 보인다는 것을 발견했습니다, 이는 base 언어 모델의 중요성을 시사합니다.
이는 MMBench-CN [37]의 결과를 통해 더욱 입증됩니다: Vicuna-v1.3과 v1.5가 명령어 튜닝을 위해 동일한 ShareGPT 데이터를 사용했음에도 불구하고, Vicuna-v1.3의 중국어 일반화 성능은 v1.5보다 현저히 떨어집니다.
둘째, 언어 명령 조정은 각 데이터셋에 필요한 특정 기능에 관한 사항입니다.
예를 들어, LLaMA-2-Chat와 Vicuna-v1.5는 MMBench에서 거의 동일한 성능을 달성하지만, LLaMA-2-Chat의 MMBench-CN [37]로의 일반화는 Vicunav1.5보다 더 나쁩니다, 이는 부분적으로 LLaMA-2-Chat의 대부분의 SFT/RLHF 데이터가 영어로 되어 있고 ShareGPT만큼 많은 다국어 데이터를 포함하지 않기 때문입니다.
또한, TextVQA는 이미지에서 텍스트 문자를 식별하는 모델의 능력과 OCR 엔진의 노이즈 출력을 처리하는 능력을 모두 필요로 합니다; 이러한 노이즈는 일상적인 ChatGPT 사용에서 수집된 ShareGPT 데이터에서 더 흔하게 관찰될 수 있습니다.
5. Open Problems in LMMs
LLaVA-1.5의 성공적인 스케일링을 고려하여, 우리는 LLaVA-1.5의 모델 설계와 데이터 혼합을 사용하여 LMM의 미해결 문제에 대한 추가 연구를 수행합니다.
5.1. Data Efficiency
InstructBLIP [14]와 같은 접근 방식과 비교했을 때 LLaVA-1.5의 데이터 효율성에도 불구하고, LLaVA-1.5의 학습은 여전히 LLaVA와 비교했을 때 두 배로 증가합니다.
이 섹션에서는 LLaVA-1.5의 학습 데이터 혼합물을 랜덤으로 서브샘플링하여 데이터 효율성을 더욱 향상시키기 위한 실험을 수행합니다, 샘플링 비율은 0.1에서 0.5 사이입니다.
우리는 그림 4에서 다양한 샘플링 변형의 상대적 성능을 시각화합니다.

먼저, 전체 데이터 혼합은 최고의 지식 범위를 제공하며, 모델이 최고의 전체 성능을 달성할 수 있도록 합니다.
놀랍게도 샘플의 50%만 사용해도 이 모델은 여전히 전체 데이터셋 성능의 98% 이상을 유지합니다.
이는 데이터 효율성이 더욱 향상될 여지가 있음을 시사합니다.
둘째, 데이터셋을 50%로 다운샘플링할 때 MMBench, ScienceQA, POPE에서 모델의 성능이 전혀 저하되지 않으며, MMBench에서 약간의 성능 향상을 보입니다.
마찬가지로, 데이터를 50%에서 30%로 더 다운스케일링할 때 모델의 성능은 안정적으로 유지됩니다.
이 결과는 멀티모달 모델에서도 적은 혜택을 받을 수 있는 가능성을 보여줍니다 [61].
5.2. Rethinking Halluciantion in LMMs
환각은 LLM과 LMM에서 해결해야 할 중요한 문제입니다.
종종 LMM에서는 모델의 환각을 학습 데이터셋의 오류나 환각으로 간주합니다.
예를 들어, LLaVA-Instruction [36]의 자세한 설명에는 소량의 환각 콘텐츠가 포함될 수 있으며, 이러한 데이터에 대한 학습이 "describe the image in detail"는 요청을 받았을 때 모델이 환각을 느꼈을 수 있다고 믿어집니다.
그러나 모델의 입력을 448^2와 같은 고해상도로 확장하면 이러한 환각이 현저히 줄어든다는 것을 발견했습니다.
이 발견은 LMM이 학습 데이터에서 몇 가지 이러한 오류에 대해 견고할 수 있음을 시사하기 때문에 흥미롭습니다.
그러나 입력 해상도가 모델이 학습 데이터의 모든 세부 사항을 식별하기에 충분하지 않고, 모델의 능력을 넘어서는 수준의 데이터 양이 충분히 많아지면, 모델은 환각을 배우는 법을 배우게 됩니다.
이는 더 많은 세부 사항으로 데이터 주석을 개선하는 것과 이러한 세분화된 정보를 적절히 처리하는 모델의 능력 사이에 균형이 필요하다는 것을 시사합니다.
이 발견이 환각과 모델 및 데이터의 확장을 다루는 데 있어 향후 연구에 참고가 되기를 바랍니다.
5.3. Compositional Capabilities
우리는 LLaVA-1.5에서 흥미로운 구성 능력을 입증합니다: 일련의 작업에 대해 독립적으로 학습된 모델은 명시적인 공동 학습 없이 이러한 기능의 조합이 필요한 작업으로 일반화됩니다.
아래에서 몇 가지 결과를 확인했습니다.
먼저, 섹션 4.3에서 논의된 멀티모달 다국어 기능을 포함하여 ShareGPT [46] 데이터를 포함한 시각적 대화에서 언어 능력이 향상된 것을 관찰했습니다.
게다가, 이 모델은 시각적 대화에서 더 길고 상세한 응답을 제공하는 데 더 능숙합니다.
둘째, 학술 과제 지향 데이터셋에서 얻은 추가적인 시각적 지식은 시각적 대화에서 LLaVA-1.5의 응답의 시각적 기초를 향상시키며, 이는 표 4의 MMVet [55]와 LLaVA-Wild [36]에서 개선된 결과에서 정량적으로 입증됩니다.

그러나 특정 기능 조합이 필요한 일부 작업에서는 여전히 이상적인 성능을 달성하는 데 어려움이 있습니다.
예를 들어, VQA에서 특정 객체의 속성에 올바르게 답할 수 있다고 해서 전체 이미지에 대한 자세한 설명에서 해당 객체 속성을 정확하게 묘사할 수 있는 것은 아닙니다.
게다가, 특정 외국어 (예: 한국어)와의 대화에 참여하는 능력은 여전히 뒤처져 있습니다.
예시는 부록을 참조하세요.
이러한 연구 결과는 LMM의 구성 능력을 활용하여 모든 작업 조합을 철저히 포함함으로써 데이터를 크게 증가시키지 않고도 모델의 성능을 향상시킬 수 있음을 시사합니다.
그러나 이는 추가로 조사할 수 있으며, LMMs의 구성 능력에 대한 메커니즘을 더 깊이 이해하면 LLaVA-1.5의 능력과 데이터 효율성을 더욱 향상시킬 수 있습니다.
6. Conclusion
이 논문에서는 대형 멀티모달 모델의 설계를 명확히 하기 위한 한 걸음을 내딛고, 대형 멀티모달 모델을 위한 간단하고 효과적이며 데이터 효율적인 베이스라인인 LLaVA-1.5를 제안합니다.
또한 시각적 명령 튜닝의 미해결 문제를 탐구하고, LMM을 더 높은 해상도로 확장하며, 모델 환각과 LMM의 구성 능력 측면에서 몇 가지 흥미로운 발견을 제시합니다.
이러한 개선되고 쉽게 재현 가능한 베이스라인과 새로운 발견이 오픈 소스 LMM의 향후 연구에 참고가 되기를 바랍니다.
Limitations.
LLaVA-1.5에 의해 입증된 유망한 결과에도 불구하고, 고해상도 이미지에 대한 장기간의 학습, 다중 이미지 이해 부족, 특정 분야에서의 문제 해결 능력 제한 등의 한계가 여전히 존재합니다.
환각을 일으키는 것도 예외는 아니며, 중요한 용도 (예: 의료용)에서는 주의해서 사용해야 합니다.
자세한 내용은 부록을 참조하세요.
'VLM' 카테고리의 다른 글
| SmolVLM: Redefining small and efficient multimodal models (0) | 2026.05.08 |
|---|---|
| Visual Instruction Tuning (0) | 2026.04.27 |