2025. 6. 16. 10:07ㆍtext-to-3D
3D-LLM: Injecting the 3D World into Large Language Models
Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen
Abstract
Large language models (LLM)과 Vision-Language Models (VLM)은 상식적인 추론과 같은 여러 작업에서 뛰어난 성능을 발휘하는 것으로 입증되었습니다.
이 모델들은 강력할 수 있지만, 공간 관계, 어포던스, 물리학, 레이아웃 등과 같은 더 풍부한 개념을 포함하는 3D 물리적 세계에 기반을 두고 있지 않습니다.
이 연구에서는 대형 언어 모델에 3D 월드를 도입하고 완전히 새로운 3D-LLM 계열을 도입할 것을 제안합니다.
구체적으로, 3D-LLM은 3D 포인트 클라우드와 그 피쳐를 입력으로 받아 캡셔닝, 밀집 캡셔닝, 3D 질문 응답, 작업 분해, 3D 그라운딩, 3D 보조 대화, 내비게이션 등 다양한 3D 관련 작업을 수행할 수 있습니다.
우리가 설계한 세 가지 유형의 프롬프트 메커니즘을 사용하여 이러한 작업을 다루는 300K개 이상의 3D 언어 데이터를 수집할 수 있습니다.
3D-LLM을 효율적으로 학습하기 위해 먼저 렌더링된 멀티뷰 이미지에서 3D 피쳐를 얻는 3D 피쳐 추출기를 활용합니다.
그런 다음 2D VLM을 백본으로 사용하여 3D-LLM을 학습합니다.
3D 로컬라이제이션 메커니즘을 도입함으로써 3D-LLM은 3D 공간 정보를 더 잘 포착할 수 있습니다.
ScanQA에 대한 실험 결과, 우리 모델이 SOTA 베이스라인을 큰 차이로 능가하는 것으로 나타났습니다 (예: BLEU-1 점수가 SOTA 점수를 9% 초과함).
또한, 3D 캡셔닝, 작업 구성 및 3D 보조 대화를 위한 held-in 데이터셋에 대한 실험 결과, 우리 모델이 2D VLM을 능가하는 성능을 보였습니다.
질적 예제는 또한 우리 모델이 기존의 LLM과 VLM의 범위를 넘어 더 많은 작업을 수행할 수 있음을 보여줍니다.
1 Introduction
지난 몇 년 동안 우리는 의사소통과 상식적인 추론과 같은 여러 작업에서 뛰어난 large language models (LLM) (예: GPT4 [33])의 급증을 목격했습니다.
최근 연구들은 LLM에게 2D 이미지를 이해하고 추론할 수 있는 능력을 갖춘 차세대 멀티모달 LLM (예: Flamingo [14], BLIP-2 [30])을 위해 이미지와 비디오를 LLM과 정렬하는 방법을 탐구하고 있습니다.
그러나 모델들이 의사소통과 추론에서 강력할 수 있는 만큼, 공간 관계, 어포던스, 물리학 및 상호작용 등과 같은 더 풍부한 개념을 포함하는 실제 3D 물리 세계에는 기반을 두지 않습니다.
따라서 이러한 LLM은 공상 과학 영화에 묘사된 로봇에 비해 상대적으로 낮습니다 - 3D 환경을 이해하고 3D 이해를 바탕으로 추론과 계획을 수행할 수 있는 보조 인력.
이를 위해, 우리는 대형 언어 모델에 3D 월드를 도입하고, 3D 표현 (즉, 그 피쳐를 가진 3D 포인트 클라우드)을 입력으로 받아 일련의 3D 관련 작업을 수행할 수 있는 완전히 새로운 3D-LLM 계열을 도입할 것을 제안합니다.
장면의 3D 표현을 입력으로 받아들임으로써 LLM은 두 가지 장점을 누릴 수 있습니다:
(1) 전체 장면에 대한 장기 기억은 에피소드적인 부분 관찰 대신 전체적인 3D 표현에 저장할 수 있습니다.
(2) 어포던스와 공간적 관계와 같은 3D 속성은 언어 기반 또는 2D 이미지 기반 LLM의 범위를 훨씬 넘어 3D 표현에서 추론할 수 있습니다.
제안된 3D-LLM을 학습하는 데 있어 주요 과제 중 하나는 데이터 수집입니다.
인터넷에서 짝을 이루는 방대한 양의 2D-images-and-text 데이터와 달리, 3D 데이터의 부족은 3D 기반 파운데이션 모델의 개발을 방해합니다.
언어 설명과 결합된 3D 데이터를 얻는 것은 훨씬 더 어렵습니다.
이 문제를 해결하기 위해, 우리는 언어와 결합된 대규모 3D 데이터를 생성할 수 있는 일련의 고유한 데이터 생성 파이프라인을 제안합니다.
구체적으로, 우리는 ChatGPT [33]을 활용하여 3D 데이터와 언어 간의 통신을 위한 세 가지 효율적인 프롬프트 절차를 고안합니다.
이와 같이, 우리는 그림 1과 같이 3D 캡셔닝, 밀집 캡셔닝, 3D 질문 응답, 3D 작업 분해, 3D 그라운딩, 3D 보조 대화, 내비게이션 등 다양한 작업을 포함하지만 이에 국한되지 않는 300K개의 3D 언어 데이터를 얻을 수 있습니다.

다음 과제는 3D-LLM의 언어 피쳐와 일치할 수 있는 의미 있는 3D 피쳐를 얻는 방법입니다.
한 가지 방법은 2D 이미지와 언어 간의 정렬을 위해 유사한 대조 학습 패러다임을 사용하여 3D 인코더를 처음부터 학습시키는 것입니다 (예: CLIP [37]).
그러나 이 패러다임은 엄청난 데이터, 시간, GPU 자원을 소비합니다.
또 다른 관점에서 보면, 2D 멀티뷰 이미지에서 3D 피쳐를 구축하는 수많은 최근 연구들이 있습니다 (예: concept fusion [26], 3D-CLR [20]).
이에 영감을 받아 렌더링된 멀티뷰 이미지의 2D 사전 학습된 피쳐로부터 3D 피쳐를 구성하는 3D 피쳐 추출기도 활용하고 있습니다.
최근에는 VLM을 학습하기 위해 2D 사전 학습된 CLIP 피쳐를 활용하는 시각-언어 모델 (예: BLIP-2 [30], Flamingo [14])도 꽤 많이 있습니다.
추출된 3D 피쳐는 2D 사전 학습된 피쳐와 동일한 피쳐 공간에 매핑되므로, 2D VLM을 백본으로 원활하게 사용하고 3D 피쳐를 입력하여 효율적인 3D-LLM 학습을 할 수 있습니다.
3D-LLM의 중요한 측면, vanilla LLM 및 2D VLM과는 다른, 중 하나는 3D-LLM이 기본적인 3D 공간 정보 감각을 가질 것으로 기대된다는 점입니다.
따라서 우리는 언어와 공간 위치 간의 격차를 해소하는 3D 위치 파악 메커니즘을 개발합니다.
구체적으로, 우리는 공간 정보를 더 잘 인코딩하기 위해 추출된 3D 피쳐에 3D 위치 임베딩을 추가합니다.
또한, 우리는 3D-LLM에 일련의 위치 토큰을 추가하고, 장면에서 특정 객체의 언어 설명을 바탕으로 위치 토큰을 출력하여 위치를 학습할 수 있습니다.
이러한 방식으로 3D-LLM은 3D 공간 정보를 더 잘 포착할 수 있습니다.
요약하자면, 저희 논문은 다음과 같은 기여를 하고 있습니다:
• 피쳐와 언어 프롬프트를 입력으로 받아 3D 포인트를 입력하고 다양한 3D 관련 작업을 수행할 수 있는 새로운 3D-based Large Language models (3D-LLM) 제품군을 소개합니다.
우리는 전체적인 장면 이해, 3D 공간 관계, 어포던스 및 3D 계획과 같은 기본적인 LLM 또는 2D-LLM의 범위를 넘어서는 작업에 중점을 둡니다.
• 우리는 대규모 3D 언어 데이터를 생성할 수 있는 새로운 데이터 수집 파이프라인을 고안합니다.
파이프라인을 기반으로, 우리는 3D 캡셔닝, 밀집 캡셔닝, 3D 질문 응답, 작업 분해, 3D 그라운딩, 3D 보조 대화, 내비게이션 등 다양한 3D 관련 작업을 포함하지만 이에 국한되지 않는 300K개 이상의 3D 언어 데이터를 포함하는 데이터셋을 수집합니다.
• 렌더링된 멀티뷰 이미지에서 의미 있는 3D 피쳐를 추출하는 3D 피쳐 추출기를 사용합니다.
효율적인 학습을 위해 2D 사전 학습된 VLM을 백본으로 활용합니다.
우리는 3D 공간 정보를 더 잘 포착하기 위해 3D-LLM을 학습시키기 위한 3D 위치 추정 메커니즘을 소개합니다.
• held-out 평가 데이터셋인 ScanQA에 대한 실험은 SOTA 베이스라인을 능가합니다.
특히 3D LLM은 ScanQA에서 베이스라인을 크게 능가합니다 (예: BLEU-1의 경우 9%).
3D 캡셔닝, 작업 구성 및 3D 보조 대화를 위한 held-in 데이터셋에 대한 실험 결과, 우리 모델이 2D VLM을 능가하는 성능을 보였습니다.
질적 연구는 또한 우리 모델이 다양한 작업을 처리할 수 있음을 보여줍니다.
• 향후 연구 개발을 위해 3D-LLM, 3D 언어 데이터셋, 그리고 언어 정렬 3D 피쳐를 출시할 계획입니다.
2 Related Works
Large Language Models.
우리의 연구는 GPT-3 [4] 및 PaLM [9]와 같은 large language models [4, 13, 38, 9, 34] (LLM)과 밀접하게 관련되어 있으며, 이들은 단일 모델로 다양한 언어 작업을 처리할 수 있고 강력한 일반화 능력을 보여줍니다.
이러한 모델은 일반적으로 대규모 텍스트 데이터를 기반으로 학습되며, 다음 토큰을 예측하거나 마스크된 토큰을 재구성하는 것과 같은 self-supervised 학습 타겟을 가지고 있습니다 [4, 38].
이러한 LLM의 예측을 인간의 지시에 더 잘 맞추기 위해, 보이지 않는 작업에서 모델의 일반화 능력을 향상시키기 위해 일련의 지시 튜닝 방법 [35, 44] 및 데이터셋 [10, 12]이 제안되었습니다.
이 연구에서는 공간 관계, 어포던스, 물리학과 같은 풍부한 3D 개념을 이해하고 대형 언어 모델에 3D 월드를 도입하는 것을 목표로 합니다.
Vision-Language Pre-trained Models.
우리의 연구는 이미지와 자연어를 연결하는 비전-언어 사전 학습 모델과도 관련이 있습니다 [31, 32, 17, 37, 27].
일부 연구 [37, 27]는 대규모 이미지-언어 쌍을 사용하여 모델을 처음부터 학습하고 이를 시각적 질문 응답 [18, 51], 캡셔닝 [7], 표현 이해 참조 [50]과 같은 하위 작업에 파인튜닝을 통해 적용합니다.
다른 연구자들은 사전 학습된 비전 모델과 사전 학습된 LLM을 Perceiver [2] 및 QFormers [31]과 같은 추가 학습 가능한 신경망 모듈과 연결하여 사전 학습된 비전 모델의 지각 능력을 활용하고, LLM의 추론 및 일반화 능력을 활용했습니다.
이러한 이전 작업에서 영감을 받아, 우리는 3D 월드를 이해하고 이에 상응하는 3D 추론 및 계획을 수행할 수 있는 AI 어시스턴트를 구축할 계획입니다.
이것은 사소하지 않으며, 데이터 희소성 문제를 어떻게 처리할지, 3D 월드를 2D 이미지와 어떻게 정렬할지, 그리고 3D 공간 정보를 어떻게 포착할지와 같은 장애물을 극복해야 합니다.
3D & Language.
우리와 유사한 또 다른 연구 분야는 3D와 언어입니다 [5, 49, 8, 20, 1, 15, 24, 49, 3, 21, 19].
ScanQA [49]는 3D 월드와 관련된 질문에 답하기 위해 모델이 필요합니다; ScanRefer [5]는 텍스트 표현이 참조하는 영역을 위치시키기 위해 모델에게 요청합니다; 3D 캡셔닝 [8]은 3D 장면을 설명하는 캡션을 생성하는 모델의 능력을 테스트합니다.
그러나 이러한 3D 작업과 해당 모델은 일반적으로 작업별이며 일반화 없이 동일한 학습 세트 분포 내에서만 사례를 처리할 수 있습니다.
그들과는 달리, 우리는 다양한 작업을 동시에 처리할 수 있고 3D 어시스턴트 대화와 작업 분해와 같은 새로운 능력을 가능하게 하는 3D 모델을 구축하는 것을 목표로 하고 있습니다.

3 3D-Language Data Generation
커뮤니티는 인터넷에서 방대한 양의 2D 이미지와 텍스트 쌍에 쉽게 접근할 수 있는 덕분에 멀티모달 데이터의 확산을 목격했습니다.
그러나 3D 관련 데이터의 경우, 3D 자산의 희소성뿐만 아니라 3D 자산에 대한 언어 데이터 제공의 어려움으로 인해 멀티모달 리소스를 확보하는 것이 쉽지 않습니다.
3D-언어 데이터를 포함하는 기존 데이터셋이 있습니다 (예: ScanQA [49], ScanRefer [5]).
그러나 그들은 양과 다양성 측면에서 제한되며, 데이터셋당 하나의 작업으로만 제한됩니다.
모든 종류의 3D 관련 작업에 활용할 수 있는 3D 언어 데이터셋을 생성하는 방법은 충분히 탐구할 가치가 있습니다.

최근 GPT [33]와 같은 대형 언어 모델의 성공에 영감을 받아, 우리는 이러한 모델을 3D 언어 데이터 수집에 활용할 것을 제안합니다.
구체적으로, 그림 7에 나타난 바와 같이, 우리는 데이터를 생성하기 위해 텍스트 전용 GPT를 요청하는 세 가지 방법이 있습니다.
1) boxes-demonstration-instruction 기반 프롬프트.
우리는 3D 장면에서 방과 물체의 축 정렬 바운딩 박스 (AABB)를 입력하여 장면의 의미와 공간적 위치에 대한 정보를 제공합니다.
그런 다음 다양한 데이터를 생성하기 위해 GPT 모델에 구체적인 지침을 제공합니다.
우리는 GPT 모델이 어떤 종류의 데이터를 생성하도록 지시받았는지 보여주는 0-3개의 몇 가지 예시를 제공합니다.
2) ChatCaptioner 기반 프롬프트.
우리는 [52]와 유사한 기법을 사용하여 ChatGPT가 이미지에 대해 일련의 유익한 질문을 하면 BLIP-2 [30]가 그 질문에 답하는 방식을 사용합니다.
3D 관련 데이터를 수집하기 위해 다양한 뷰의 이미지를 BLIP-2에 입력하고, ChatGPT는 질문을 하고 다양한 지역의 정보를 수집하여 전체 장면에 대한 전역 3D 설명을 형성하도록 지시받습니다.
3) 수정 기반 프롬프트. 한 유형의 3D 데이터를 다른 유형으로 전송하는 데 사용할 수 있습니다.
프롬프트 파이프라인이 주어지면 GPT는 그림 1에 요약된 다양한 유형의 3D 언어 데이터를 생성할 수 있습니다.
부록에서 모든 유형의 데이터를 생성하기 위한 자세한 프롬프트를 보여줍니다.
저희는 주로 여러 3D 자산을 기반으로 3D 언어 데이터셋을 구축합니다:
• Objaverse는 800K개의 3D 객체로 이루어진 우주입니다.
그러나 언어 설명은 온라인 소스에서 추출되어 사람이 조사하지 않았기 때문에 대부분의 객체는 매우 노이즈 설명 (예: URL 포함)을 하거나 설명이 없습니다.
우리는 장면에 대한 고품질 3D 관련 설명을 생성하도록 요청하는 ChatCaptioner 기반의 프롬프트를 활용합니다.
• Scannet [11]은 약 1k개의 3D 실내 장면으로 구성된 풍부한 주석이 달린 데이터셋입니다.
장면 속 객체들의 시맨틱과 바운딩 박스를 제공합니다.
• Habitat-Matterport (HM3D) [41]은 구현된 AI의 3D 환경 데이터셋입니다.
HM3DSEM [47]은 200개 이상의 HM3D 장면에 대한 시맨틱 주석과 바운딩 박스를 추가합니다.
4 3D-LLM
4.1 Overview
이 섹션에서는 3D-LLM을 학습하는 방법을 소개합니다.
우리는 수집된 3D 언어 데이터셋이 여전히 2D VLM을 학습하는 데 사용되는 수십억 규모의 이미지 언어 데이터셋의 크기가 아니기 때문에 3D-LLM을 처음부터 학습하는 것이 어렵다고 주장합니다.
또한 3D 장면의 경우 2D 이미지 (예: CLIP ViT 인코더)와 같은 사전 학습된 인코더가 없습니다.
따라서 3D 언어 모델을 처음부터 재학습하는 것은 데이터 비효율적이고 자원이 많이 필요합니다.
최근 연구자들은 2D 멀티뷰 이미지에서 3D 피쳐를 추출할 것을 제안했습니다 [26, 20].
이러한 정렬 방법을 사용하여 사전 학습된 이미지 인코더를 사용하여 이미지 피쳐를 추출한 다음, 그 피쳐를 3D 데이터에 매핑할 수 있습니다.
사전 학습된 이미지 피쳐는 2D VLM의 입력 역할을 하기 때문에 동일한 피쳐 공간의 매핑된 3D 피쳐도 사전 학습된 2D VLM에 원활하게 입력할 수 있으며, 이를 백본으로 사용하여 3D-LLM을 학습합니다.
우리는 또한 모델의 3D 공간 정보 캡처 능력을 향상시키기 위해 3D 위치 추정 메커니즘을 제안합니다.
그림 3은 우리의 프레임워크를 보여줍니다.

4.2 3D Feature Extractor
3D-LLM 학습의 첫 번째 단계는 언어 피쳐와 일치할 수 있는 의미 있는 3D 피쳐를 구축하는 것입니다.
2D 이미지의 경우, 언어 supervision을 통해 시각적 모델을 학습하는 CLIP과 같은 피쳐 추출기가 존재합니다.
모델은 이미지-언어 쌍의 수십억 규모의 인터넷 데이터를 사용하여 사전 학습됩니다.
인터넷 규모의 이미지-언어 쌍에 필적하는 3D 언어 자산이 수량과 다양성 측면에서 없기 때문에 이러한 피쳐 학습자를 처음부터 사전 학습시키는 것은 어렵습니다.
반대로, 2D 멀티뷰 이미지에서 3D 피쳐를 추출하는 수많은 방법들이 제안되었습니다 [26, 20, 16, 23].
이러한 작업에서 영감을 받아, 우리는 다양한 뷰로 3D 장면을 렌더링하여 3D 포인트의 피쳐를 추출하고, 렌더링된 이미지 피쳐로부터 3D 피쳐를 구성합니다.
먼저 [26]에 따라 렌더링된 이미지에 대해 픽셀 정렬 조밀한 피쳐를 추출합니다.
그런 다음 세 가지 방법을 사용하여 렌더링된 이미지 피쳐로 3D 피쳐를 구성합니다.
이 방법들은 다양한 유형의 3D 데이터를 위해 설계되었습니다.
• 직접 재구성.
우리는 ground-truth 카메라 매트릭스를 사용하여 3D 데이터에서 렌더링된 RGBD 이미지로부터 포인트 클라우드를 직접 재구성합니다.
피쳐는 재구성된 3D 포인트에 직접 매핑됩니다.
이 방법은 완벽한 카메라 포즈와 intrinsics를 갖춘 렌더링된 RGBD 데이터에 적합합니다.
• 피쳐 융합.
[26]과 마찬가지로, 우리는 gradslam [28]을 사용하여 2D 피쳐를 3D 맵에 융합합니다.
고밀도 매핑 방법과 달리, 피쳐들은 depth와 색상 외에도 융합되어 있습니다.
이 방법은 노이즈가 있는 depth 맵 렌더링이나 노이즈가 있는 카메라 포즈 및 intrinsics가 있는 3D 데이터에 적합합니다.
• 뉴럴 필드.
우리는 뉴럴 복셀 필드 [43]를 사용하여 3D 컴팩트 표현을 구성하는 [20]을 활용합니다.
특히, 필드의 각 복셀에는 밀도와 색상 외에도 피쳐가 있습니다.
그런 다음 MSE loss를 사용하여 ray의 3D 피쳐와 픽셀의 2D 피쳐를 정렬합니다.
이 방법은 RGB 렌더링은 있지만 depth 데이터가 없고, 노이즈가 있는 카메라 포즈와 intrinsics가 있는 3D 데이터를 위한 것입니다.
이와 같이, 우리는 각 3D 장면의 < N, D_v >-dim 3D 피쳐를 얻을 수 있습니다, 여기서 N은 포인트 클라우드의 포인트 수이고, D_v는 피쳐 차원입니다.
4.3 Training 3D-LLMs
4.3.1 2D VLMs as backbones
피쳐 추출기 외에도 3D-LLM을 처음부터 학습하는 것도 간단하지 않습니다.
실제로 [30, 14]에 따르면 2D VLM의 학습은 5억 장의 이미지를 소비한 후에야 "signs of life"를 보이기 시작합니다.
그들은 보통 2D 이미지의 피쳐를 추출하기 위해 CLIP과 같은 frozen 및 사전 학습된 이미지 인코더를 사용합니다.
3D 피쳐 추출기를 사용하면 3D 피쳐를 2D 이미지와 동일한 피쳐 공간에 매핑할 수 있다는 점을 고려할 때, 이러한 2D VLM을 백본으로 사용하는 것이 합리적입니다.
[25]에서 제안한 퍼시버 아키텍처는 비대칭 어텐션 메커니즘을 활용하여 입력을 타이트한 잠재 병목 현상으로 반복적으로 증류하여 임의의 입력 크기의 매우 큰 입력을 처리할 수 있게 하여 다양한 모달리티를 해결할 수 있습니다.
이 아키텍처는 Flamingo [14]와 같은 VLM에서 활용됩니다.
BLIP-2 [30]도 QFormer라는 유사한 구조를 사용합니다.
frozen 이미지 인코더에서 출력된 2D 이미지 피쳐는 평평하게 되어 퍼시버로 보내져 고정 크기의 입력을 생성합니다.
우리의 3D 피쳐가 3D 피쳐 추출기의 2D 피쳐와 동일한 피쳐 공간에 있고, 퍼시버가 동일한 피쳐 차원의 임의의 입력 크기를 처리할 수 있다는 점을 고려할 때, 임의의 크기를 가진 포인트 클라우드 피쳐도 퍼시버에 입력될 수 있습니다.
따라서 3D 피쳐 추출기를 사용하여 frozen 이미지 인코더의 피쳐와 동일한 피쳐 공간에서 3D 피쳐를 추출합니다.
그런 다음 사전 학습된 2D VLM을 백본으로 사용하여 정렬된 3D 피쳐를 입력하여 수집된 3D 언어 데이터셋으로 3D-LLM을 학습시킵니다.
4.3.2 3D Localization Mechanism
언어 시맨틱과 일치할 수 있는 3D 피쳐를 구축하는 것 외에도 3D 공간 정보를 캡처하는 것도 필수적입니다.
이를 위해, 우리는 3D LLM의 공간 정보 흡수 능력을 향상시키는 3D 위치 추정 메커니즘을 제안합니다.
두 부분으로 구성되어 있습니다:
Augmenting 3D features with position embeddings
2D 멀티뷰 피쳐에서 집계된 3D 피쳐 외에도, 우리는 피쳐에 위치 임베딩도 추가합니다.
피쳐 차원이 D_v라고 가정합니다.
우리는 세 차원의 sin/cos 위치 임베딩을 생성하며, 각각의 임베딩 크기는 D_v/3입니다.
우리는 모든 3차원의 임베딩을 연결하고, 이를 3D 피쳐에 연결합니다.
Augmenting LLM vocabularies with location tokens
3D 공간 위치를 LLM과 일치시키기 위해 [6]과 [45]에 따라 어휘에 3D 위치를 포함할 것을 제안합니다.
구체적으로 말하자면, grounded 영역은 바운딩 박스를 나타내는 일련의 개별 토큰으로 AABB 형태로 표시될 수 있습니다.
바운딩 박스의 연속 코너 좌표는 위치 토큰 ⟨x_min, y_min, z_min, x_max, y_max, z_max ⟩로 균일하게 분리되어 정수를 복셀링합니다.
이러한 추가 위치 토큰을 추가한 후, 언어 모델의 입력 및 출력 임베딩에서 이러한 토큰의 가중치를 해제합니다.
5 Experiments
먼저 아키텍처, 학습 및 평가 프로토콜을 소개합니다.
섹션 5.1에서는 ScanQA 데이터셋에 대한 held-out 실험을 분석합니다.
섹션 5.2에서는 held-in 평가와 정성적 예제에 대한 더 많은 분석을 다룹니다.
페이지 제한으로 인해 다음 내용을 부록에 넣었습니다: 1) 3DMV-VQA 및 객체 탐색에 대한 Held-Out 실험; 2) 그라운딩 및 밀집 캡셔닝에 대한 Held-In 실험; 3) 더 많은 ablation 연구; 4) 더 질적인 예제.
Architecture
우리는 3D-LLM을 위한 세 가지 백본 2D VLM을 실험합니다: Flamingo 9B, BLIP-2 Vit-g Opt2.7B, BLIP-2 Vit-g FlanT5-XL.
BLIP-2의 경우, 3D-LLM을 사전 학습하는 동안 LAVIS 라이브러리 [29]에 공개된 BLIP-2 체크포인트에서 모델을 초기화하고 QFormer의 매개변수를 파인튜닝합니다.
3D 피쳐는 BLIP-2에서 사용되는 EVA_CLIP 히든 피쳐 차원과 동일한 1408차원 피쳐입니다.
우리는 입력 및 출력 임베딩에 새로 추가된 위치 토큰의 가중치를 제외한 대부분의 LLM (즉, Opt 및 FlanT5)을 frozen 상태로 유지합니다.
Flamingo의 경우, OpenFlamingo 저장소에 공개된 Flamingo9B 체크포인트에서 모델을 초기화합니다 [2].
우리는 입력 및 출력 임베딩에서 인식기, 게이트 크로스 어텐션 레이어의 매개변수와 추가 위치 토큰의 가중치를 파인튜닝합니다.
3D 피쳐는 Flamingo에서 사용하는 CLIP 히든 피쳐 차원과 동일한 1024차원 피쳐입니다.
Training & Evaluation Datasets & Protocols
우리는 데이터셋을 held-in 데이터셋과 held-out 데이터셋의 두 가지 장르로 나눕니다.
특히, 우리의 3D 언어 데이터 생성 파이프라인은 여러 작업의 held-in 데이터 세트를 생성합니다.
우리는 데이터셋을 train/val/test 세트 (8:1:1)로 나눕니다.
우리는 파운데이션 3D-LLM을 사전 학습하기 위해 held-in 데이터셋의 학습 세트를 활용하며, 이들의 검증 및 테스트 세트를 held-in 평가에 적용할 수 있습니다.
사전 학습 중에는 모든 작업의 held-in 데이터 세트를 혼합합니다.
모델들은 출력 응답에 대한 표준 언어 모델링 loss로 학습됩니다.
반면에 held-out 데이터셋은 파운데이션 3D-LLM을 학습하는 데 사용되지 않습니다.
held-out 평가를 위해 두 개의 held-out 3D 질문 응답 데이터셋을 사용합니다: ScanQA와 3DMV-VQA.
우리는 3DMV-VQA [20]의 실험 분석을 보충 자료에 넣었습니다.
5.1 Held-Out Evaluation
우리는 ScanQA 데이터셋에서 사전 학습된 3D-LLM을 파인튜닝하고 베이스라인 모델과 비교합니다.
Baselines & Evaluation Metrics
벤치마크에 대표적인 베이스라인 모델을 포함합니다.
특히, ScanQA는 객체 제안을 얻기 위해 VoteNet을 사용하고, 이를 언어 임베딩과 융합하는 벤치마크의 SOTA 방법입니다.
ScanRefer+MCAN은 참조된 객체를 식별하는 베이스라인이며, MCAN 모델은 로컬 객체를 둘러싼 이미지에 적용됩니다.
VoteNet+MCAN은 3D 공간에서 객체를 감지하고, 그 피쳐를 추출하여 표준 VQA 모델에 사용합니다.
특히, 이러한 베이스라인 모델들은 모두 사전 학습된 로컬라이제이션 모듈에서 명시적인 객체 표현을 추출합니다.
이러한 베이스라인 외에도 여러 LLM 기반 베이스라인을 설계합니다.
LLaVA는 범용 시각 및 언어 이해를 위해 비전 인코더와 LLM을 연결하는 시각적 명령어 튜닝입니다.
우리는 사전 학습된 모델을 사용하여 데이터셋에 대해 제로샷 평가를 수행합니다.
우리는 단일 랜덤 이미지를 입력으로 사용합니다.
우리는 LLaVA 13B 모델을 사용합니다.
단일 이미지 + 사전 학습된 VLM은 2D VLM 백본 (예: flamingo 및 BLIP-2)을 사용하여 3D-LLM의 3D 입력을 단일 이미지 피쳐로 대체하여 모델을 학습한 다음 ScanQA 데이터셋에서 파인튜닝합니다.
멀티뷰 이미지 + 사전 학습된 VLM은 2D VLM 백본을 사용하여 3D-LLM의 3D 입력을 멀티뷰 이미지의 연결된 피쳐로 대체하여 모델을 학습한 다음 ScanQA 데이터셋을 파인튜닝합니다.
강력한 답변 매칭을 위해 BLEU, ROUGE-L, METEOR, CIDEER를 보고합니다.
우리는 또한 exact match (EM) 지표를 사용합니다.


Result Analysis
우리는 표 1의 ScanQA 검증 세트에 대한 결과와 표 2의 테스트 세트에 대한 결과를 보고합니다.
평가 지표가 크게 증가한 것을 관찰했습니다.
예를 들어, BLEU-1의 경우, 우리 모델은 검증 세트의 경우 약 9%, 테스트 세트의 경우 약 7%의 SOTA ScanQA 모델을 능가합니다.
CIDER의 경우, ScanQA에 비해 약 5%의 증가를 보고하며, 다른 3D 기반 베이스라인보다 훨씬 높은 증가율을 보입니다.
이 결과는 LLM에 3D를 주입함으로써 모델이 실제 답변과 훨씬 더 유사한 답변을 생성할 수 있음을 보여줍니다.
또한 3D 기반 베이스라인은 VoteNet과 같은 객체 감지기를 사용하여 객체를 세그멘트한 다음 객체별 피쳐를 모델에 전송하는 반면, 입력은 명시적인 객체 표현이 없는 전체적인 3D 피쳐입니다.
이는 우리 모델이 명시적인 객체 표현 없이도 객체와 그 관계에 대한 시각적 추론을 수행할 수 있음을 보여줍니다.
그런 다음 2D VLM이 동일한 능력을 가지고 있는지 검토합니다.
단일 뷰 이미지 또는 멀티뷰 이미지를 입력으로 사용하면 3D-LLM에 비해 성능이 크게 저하된다는 것을 알 수 있습니다.
특히, 멀티뷰 이미지에는 전체 장면에 대한 정보도 포함되어 있습니다.
그러나 그들은 3D-LLM에 비해 성능이 훨씬 낮습니다, 아마도 멀티뷰 이미지의 피쳐가 무질서하여 3D 관련 정보를 잃었기 때문일 것입니다.
5.2 More Extensive Evaluation
Held-In Evaluation
우리는 세 가지 작업의 held-in 데이터셋에 대한 실험을 수행합니다: 3D 캡셔닝, 3D 지원 대화 상자 및 작업 분해.
베이스라인에는 held-out을 위한 2D VLM이 포함됩니다.
언어 전용 베이스라인을 하나 추가합니다: 시각적 입력 없이 이러한 작업을 완료할 수 있는 LLM의 능력을 조사하는 FlanT5.
응답의 품질을 평가하기 위해 BLEU, ROUGEL, METEOR, CIDEr를 지표로 포함시켰습니다.
표 3에 held-in 평가 결과를 보고합니다.
표를 통해 3D-LLM이 2D VLM과 언어 전용 LLM을 모두 능가하는 고품질 응답을 생성할 수 있음을 알 수 있었습니다.


Qualitative Examples
그림 4에서는 3D-LLM의 예측에 대한 정성적인 예를 보여줍니다.
우리의 3D-LLM이 다양한 작업을 수행할 수 있다는 것을 알 수 있습니다.
6 Conclusion
이 논문에서는 3D 표현을 입력으로 받아 응답을 생성할 수 있는 새로운 3D-LLM 제품군을 제안합니다.
우리는 밀집 캡셔닝, 3D 질문 응답, 작업 분해, 3D 그라운딩, 3D 보조 대화, 내비게이션 등을 포함하여 300K 개의 3D 언어 쌍 데이터셋을 생성하기 위해 일련의 3D 언어 데이터 생성 파이프라인을 소개합니다.
우리의 3D-LLM은 2D 사전 학습된 VLM을 백본으로 활용하고 새로운 3D 위치 추정 메커니즘을 제공합니다.
실험 결과, 우리의 3D-LLM은 ScanQA 데이터셋에서 SOTA 베이스라인 모델을 능가하며 다양한 3D 관련 작업을 수행할 수 있는 것으로 나타났습니다.
한계는 3D 피쳐 추출기가 2D 멀티뷰 이미지에 의존하기 때문에 모든 3D 장면을 3D-LLM으로 학습할 수 있도록 렌더링해야 한다는 점입니다, 이 과정에서 추가적인 렌더링 과정이 도입됩니다.