PaLM-E: An Embodied Multimodal Language Model

2025. 3. 20. 16:22Robotics

PaLM-E: An Embodied Multimodal Language Model

 

Robotics at Google

 

Abstract

대규모 언어 모델이 복잡한 작업을 수행하는 것으로 입증되었습니다.
그러나 로봇 문제와 같은 일반적인 추론을 현실 세계에서 가능하게 하는 것은 근거 마련의 어려움을 야기합니다.
우리는 실제 연속 센서 모달리티를 언어 모델에 직접 통합하여 단어와 지각 사이의 연관성을 확립하기 위해 구현된 언어 모델을 제안합니다.
우리의 구현된 언어 모델에 입력되는 것은 시각적, 연속 상태 추정, 그리고 텍스트 입력 인코딩을 포함하는 멀티모달 문장입니다.
우리는 순차적인 로봇 조작 계획, 시각적 질문 응답, 캡셔닝을 포함한 여러 구현 작업을 위해 사전 학습된 대규모 언어 모델과 함께 이러한 인코딩을 종단 간으로 학습합니다.
우리의 평가에 따르면, 단일 대규모 구현된 멀티모달 모델인 PaLM-E는 다양한 관찰 방식에서 다양한 구현된 추론 작업을 여러 구현 방식에서 해결할 수 있으며, 나아가 긍정적인 전이를 나타냅니다: 이 모델은 인터넷 규모의 언어, 시각 및 시각-언어 영역 전반에 걸친 다양한 공동 학습의 이점을 누리고 있습니다.
우리의 가장 큰 모델인 562B 매개변수를 가진 PaLM-E-562B는 로봇 작업에 대한 학습을 받았을 뿐만 아니라 OK-VQA에서 SOTA 성능을 발휘하는 시각-언어 제너럴리스트로, 규모가 커질수록 제너럴리스트의 언어 능력을 유지하고 있습니다.

 

 

 

1. Introduction

Large language models (LLM)은 대화 (Glaese et al., 2022; Thopilan et al., 2022), 단계별 추론 (Wei et al., 2022; Kojima et al., 2022), 수학 문제 해결 (Lewkowycz et al., 2022; Polu et al., 2022), 코드 작성 (Chen et al., 2021a) 등 다양한 분야에서 강력한 추론 능력을 보여줍니다.
그러나 현실 세계에서 추론을 위한 이러한 모델의 한계는 근거 문제입니다: 방대한 텍스트 데이터를 기반으로 LLM을 학습하면 물리적 세계와 관련된 표현이 나올 수 있지만, 이러한 표현을 실제 시각 및 물리적 센서 모달리티와 연결하는 것은 컴퓨터 비전 및 로보틱스의 다양한 실제 문제를 해결하는 데 필수적입니다 (Tellex et al., 2020).
이전 연구 (Ahn et al., 2022)는 LLM의 출력을 학습된 로봇 policy 및 affordance 함수와 인터페이스하여 의사 결정을 내립니다, 그러나 LLM 자체가 텍스트 입력으로만 제공된다는 점에서 한계가 있으며, 이는 장면의 기하학적 구성이 중요한 많은 작업에 충분하지 않습니다.
또한, 실험에서 우리는 visual-question-answering (VQA)과 같은 일반적인 시각-언어 작업으로 학습된 최신 시각-언어 모델로는 로봇 추론 작업을 직접 해결할 수 없음을 보여줍니다.

 

이 논문에서는 임베드된 에이전트의 센서 모달리티로부터 연속적인 입력을 직접 통합하여 언어 모델 자체가 현실 세계에서 순차적인 의사 결정을 위해 보다 근거 있는 추론을 할 수 있도록 하는 임베드된 언어 모델을 제안합니다.
이미지 및 상태 추정치와 같은 입력은 언어 토큰과 동일한 잠재 임베딩에 내장되어 텍스트와 동일한 방식으로 트랜스포머 기반 LLM의 셀프 어텐션 레이어에 의해 처리됩니다.
우리는 인코더를 통해 연속 입력을 주입하는 사전 학습된 LLM에서 시작합니다.
이 인코더들은 저수준 policy를 조건화하거나 임바디드 질문에 대한 답변을 제공함으로써 임바디드 에이전트가 해석할 수 있는 자연스러운 텍스트 측면에서 순차적인 결정을 출력하도록 종단간 학습됩니다.
우리는 다양한 설정에서 접근 방식을 평가하며, 다양한 입력 표현 (예: 시각적 입력을 위한 표준 ViT 인코딩 vs. 객체 중심 ViT 인코딩)을 비교하고, 인코더를 학습하는 동안 언어 모델을 동결하고 파인튜닝하며, 여러 작업에 대한 공동 학습이 전이를 가능하게 하는지 조사합니다.

 

접근 방식의 폭을 조사하기 위해, 우리는 세 가지 로봇 조작 도메인 (그 중 두 개는 실제 세계에서 폐쇄 루프 방식), VQA 및 이미지 캡션과 같은 표준 시각 언어 작업, 그리고 언어 작업을 평가합니다.
우리의 결과는 멀티태스크 학습이 개별 작업에 대한 학습 모델에 비해 성능을 향상시킨다는 것을 나타냅니다.
우리는 이러한 작업 간의 전이가 로봇 작업의 높은 데이터 효율성으로 이어질 수 있음을 보여줍니다, 예를 들어, 소수의 학습 예제를 통해 학습 성공을 크게 높이고, 새로운 객체 또는 보이지 않는 객체 조합에 대한 원샷 또는 제로샷 일반화를 시연할 수도 있습니다.

그림 2: PaLM-E-562B는 제로샷 멀티모달 chain-of-thought 연쇄 추론을 수행할 수 있으며, 이미지가 주어졌을 때 시각적으로 조건화된 농담을 할 수 있으며, 지각, 시각적 기반 대화, 계획 등 로봇과 관련된 다양한 멀티모달 정보 기능을 보여줍니다. PaLM-E는 단일 이미지 프롬프트로만 학습되었음에도 불구하고 제로샷 방식으로 멀 이미지 프롬프트로 일반화합니다. PaLM-E는 텍스트가 섞인 손글씨 숫자로 주어진 이미지를 계산할 수도 있습니다. 또한, 이 모델은 시간적으로 주석이 달린 자기중심적 비전에 대해 제로샷, 질문 및 답변을 수행할 수 있으며, 이는 (Zeng et al., 2022)에서 보여준 것과 유사하지만 모두 하나의 모델에서 끝에서 끝까지 수행할 수 있습니다.

우리는 540B PaLM (Chowdhery et al., 2022) LLM과 22B Vision Transformer (ViT) (Dehhgani et al., 2023)를 통합하여 현재 보고된 가장 큰 비전-언어 모델로 PaLM-E를 최대 562B 매개변수까지 확장했습니다.
PaLM-E-562B는 작업별 파인튜닝에 의존하지 않고 OK-VQA (Marino et al., 2019) 벤치마크에서 SOTA 성능을 달성합니다.
실험의 초점은 아니지만 (그림 2) 우리는 PaLM-E-562B가 단일 이미지 예제로만 학습되었음에도 불구하고 제로샷 멀티모달 chain-of-thought (CoT) 추론, 퓨샷 프롬프트, OCR 없는 수학 추론, 멀티 이미지 추론 등 다양한 기능을 보여준다는 것을 발견했습니다.
원래 언어 전용 개념이었던 제로샷 CoT (Kogima et al., 2022)는 작업별 프로그램이 포함된 멀티모달 데이터 (Zeng et al., 2022)에서 보여졌지만, 우리가 알기로는 종단 간 모델을 통해서가 아닙니다.

 

우리의 주요 기여를 요약하자면, 우리는 (1) 일반론자, 전이 학습, 멀티-임바디드 의사결정 에이전트가 구현된 데이터를 혼합하여 멀티모달 대형 언어 모델의 학습에 사용할 수 있음을 제안하고 시연합니다.
우리는 (2) 현재 SOTA 범용 시각-언어 모델 (제로샷)이 체화된 추론 문제를 잘 해결하지는 못하지만, 효율적인 체화 추론자인 유능한 범용 시각 언어 모델을 학습시키는 것이 가능하다는 것을 보여줍니다.
이러한 모델을 최적으로 학습하는 방법을 연구할 때, 우리는 (3) 신경 장면 표현 및 엔티티 라벨링 멀티모달 토큰과 같은 새로운 아키텍처 아이디어를 소개합니다.
마지막으로, 구현된 추론자로서 PaLM-E에 집중하는 것 외에도, 우리는 (4) PaLM-E가 정량적으로 유능한 비전 및 언어 일반론자임을 보여주고, (5) 언어 모델 크기를 확장하면 치명적인 망각을 덜하면서 멀티모달 파인튜닝이 가능함을 보여줍니다.

 

 

 

2. Related Work

General vision-language modeling.

대형 언어 (Brown et al., 2020; Devlin et al., 2018)와 비전 (Dosovitskii et al., 2020) 모델의 성공을 바탕으로 최근 몇 년간 대형 vision-language models (VLMs) (Li et al., 2019; Lu et al., 2019; Hao et al., 2022; Gan et al., 2022)에 대한 관심이 높아지고 있습니다.
VLM은 이전 모델과 달리 이미지와 텍스트를 동시에 이해할 수 있으며 시각적 질문 응답 (Zhou et al., 2020; Zellers et al., 2021b), 캡셔닝 (Hu et al., 2022), 광학 문자 인식 (Li et al., 2021b), 객체 감지 (Chen et al., 2021b)와 같은 작업에 적용할 수 있습니다.
이미지를 통합하는 방법은 다양합니다.
예를 들어, Alayrac et al. (2022)은 단일 컨텍스트 이미지에 직접적으로 attend하는 메커니즘을 통해 사전 학습된 언어 모델을 증강합니다.
반면, PaLM-E는 이미지와 텍스트를 잠재 벡터의 "multimodal sentences"으로 표현하여 문장의 어느 부분에서든 유연한 방식으로 여러 이미지를 처리할 수 있게 합니다.
우리의 연구와 더 밀접하게 관련된 것은 Frozen (Tsimpoukelli et al., 2021)으로, frozen LLM을 통한 역전파를 통해 비전 인코더 매개변수를 최적화합니다 (Lu et al., 2021).
이 연구에서 영감을 받아, 우리는 대체 입력 방식 (예: 신경 장면 표현)을 도입하여 더 넓은 범위에서 설계를 조사하였으며, 제안된 접근 방식은 VQAv2 벤치마크에서 Frozen보다 45% 이상 높은 성능을 보였습니다.
더 중요한 것은 PaLM-E가 지각적 작업뿐만 아니라 체화된 작업에도 적용될 수 있다는 것을 보여준다는 점입니다.

 

Actions-output models.

이전 연구들은 임바디드 환경에서 비전과 언어 입력을 직접 액션 예측의 목표와 결합하는 데 중점을 둡니다 (Guhur et al., 2022; Shridhar et al., 2022b;a; Zhang & Chai, 2021; Silva et al., 2021; Jang et al., 2022; Nair et al., 2022; Lynch et al., 2022; Brohan et al., 2022).
이러한 방법 중 VIMA (Jiang et al., 2022)는 PaLM-E와 유사한 멀티모달 프롬프트를 탐색합니다.
이 작품들에서 언어의 역할은 아마도 작업 설명으로 가장 적절하게 묘사될 것입니다.
반면, PaLM-E는 텍스트로 고수준의 명령어를 생성합니다, 이를 통해 모델은 자연스럽게 자신의 예측을 기반으로 하고 매개변수에 내재된 세계 지식을 직접 활용할 수 있습니다.
이는 실험에서 입증된 바와 같이 임바디드 추론뿐만 아니라 질문 답변도 가능하게 합니다.
액션을 산출하는 작업 중 가장 유사한 것은 아마도 PaLM-E와 마찬가지로 일반론적 멀티임바디드 에이전트인 Gato (Reed et al., 2022)에서 제안한 접근 방식일 것입니다.
Gato와 달리, 우리는 모델이 여러 도메인에 걸친 다양한 공동 학습을 통해 혜택을 받는 다양한 작업 간에 긍정적인 전이를 보여줍니다.

 

LLMs in embodied task planning.

임바디드 도메인에서 LLM을 활용하기 위한 여러 가지 방법이 제안되었습니다.
많은 연구들이 자연어 목표를 이해하는 데 중점을 두고 있지만 (Lynch & Sermanet, 2020; Shridhar et al., 2022a; Nair et al., 2022; Lynch et al., 2022), 자연어를 계획의 표현으로 간주하는 연구는 거의 없습니다 – 이 작업의 초점.
LLM에는 세계에 대한 방대한 양의 내재화된 지식이 포함되어 있지만 (Bommasani et al., 2021), 근거 없이는 생성된 계획을 실행하는 것이 불가능할 수 있습니다.

한 연구 라인은 LLM의 생성과 적합한 명령어 집합 간의 시맨틱 유사성을 활용하여 (Huang et al., 2022b), 어포던스 함수 (Ahn et al., 2022), 시각적 피드백 (Huang et al., 2022c), 세계 모델 생성 (Nottingham et al., 2023; Zellers et al., 2021a), 그래프와 맵에 대한 계획 (Shah et al., 2022; Huang et al., 2022a), 시각적 설명 (Wang et al., 2023), 프로그램 생성 (Liang et al., 2022; Singh et al., 2022) 또는 프롬프트에 정보를 주입하여 (Zeng et al., 2022) LLM에서 직접 일련의 명령어를 유도하는 프롬프트를 사용했습니다.
반면, PaLM-E는 보조 모델에 의존하지 않고 직접 계획을 생성하도록 학습됩니다.
이를 통해 사전 학습된 LLM에 저장된 풍부한 시맨틱 지식을 계획 과정에 직접 통합할 수 있습니다.

 

몇 가지 예외를 제외하고, 이러한 많은 작업에서 사용된 LLM의 매개변수는 추가 학습 없이 그대로 사용됩니다.
LID (Li et al., 2022)에서는 이 제약 조건을 완화하고 LLM 매개변수를 파인튜닝하여 고급 명령어를 생성하기 위한 계획 네트워크를 생성합니다.

(SL)^3 (Sharma et al., 2021)은 두 개의 LLM을 동시에 파인튜닝하는 더 어려운 작업을 다룹니다: 높은 수준의 지침을 생성하는 계획 네트워크와 액션을 선택하는 낮은 수준의 policy 네트워크.

PaLM-E를 통해 우리의 관심사는 뚜렷하고 상호 보완적입니다: 우리는 여러 모달리티에 걸쳐 일반주의적이고 멀티 임바디드 실험 모델을 조사합니다.

 

 

 

3. PaLM-E: An Embodied Multimodal Language Model

PaLM-E의 주요 아키텍처 아이디어는 이미지, 상태 추정치 또는 기타 센서 모달리티와 같은 연속적이고 임바디드 관찰을 사전 학습된 언어 모델의 언어 임베딩 공간에 주입하는 것입니다.
이는 연속적인 관찰을 언어 토큰의 임베딩 공간과 동일한 차원의 벡터 시퀀스로 인코딩함으로써 실현됩니다.
따라서 연속적인 정보는 언어 토큰과 유사한 방식으로 언어 모델에 주입됩니다.
PaLM-E는 접두사나 프롬프트가 주어지면 자동 회귀적으로 텍스트 완성을 생성하는 디코더 전용 LLM입니다.
우리는 사전 학습된 언어 모델로 PaLM (Chowdhery et al., 2022)을 사용하고 이를 Embodied로 만들기 때문에 우리의 모델을 PaLM-E라고 부릅니다.

 

PaLM-E의 입력은 텍스트와 (여러) 연속적인 관찰로 구성됩니다.
이러한 관찰에 해당하는 다중 모달 토큰은 텍스트와 인터리브되어 다중 모달 문장을 형성합니다.
이러한 다중 모달 문장의 예로는 Q: 다음과 같은 것들이 있습니다: 사이에 일어난 일
<img 1>과 <img 2>? 여기서 <img i>는 이미지의 임베딩을 나타냅니다.
PaLM-E의 출력은 모델에 의해 자동 회귀적으로 생성된 텍스트이며, 이는 질문에 대한 답변일 수도 있고, 로봇이 실행해야 하는 텍스트 형태의 PaLM-E가 생성한 일련의 결정일 수도 있습니다.
PaLM-E가 결정이나 계획을 수립하는 임무를 맡았을 때, 우리는 이러한 결정을 낮은 수준의 행동으로 전환할 수 있는 낮은 수준의 정책이나 계획이 존재한다고 가정합니다.
이전 연구에서는 이러한 저수준 정책을 훈련하는 다양한 방법에 대해 논의했으며(Lynch & Sermanet, 2020; Brohan et al., 2022), 이러한 이전 방법을 수정 없이 직접 사용했습니다.
다음에서는 우리의 접근 방식을 보다 공식적으로 설명합니다.

 

Decoder-only LLMs.

디코더 전용 large language models (LLM)은 토큰 w_i ∈ W의 시퀀스로 표현되는 텍스트 w_(1:L) = (w_1, ..., w_L)의 확률 p(w_(1:L))을 예측하도록 학습된 생성 모델입니다.
일반적인 신경 구조는 p_LM이 대규모 트랜스포머 네트워크인

로 분해하여 이를 실현합니다.

 

Prefix-decoder-only LLMs.

LLM이 자기회귀적이기 때문에, 사전 학습된 모델은 아키텍처

를 변경할 필요 없이 접두사 w_(1:n)로 조건화될 수 있습니다.
접두사 또는 프롬프트 w_(1:n)은 LLM이 후속 토큰 w_(n+1:L)을 계속 예측하는 컨텍스트를 제공합니다.
이것은 종종 모델의 예측을 조정하기 위한 추론에 사용됩니다.
예를 들어, 프롬프트에는 LLM이 해결해야 할 작업에 대한 설명이나 유사한 작업에 대한 원하는 텍스트 완성 예시가 포함될 수 있습니다.

 

Token embedding space.

토큰 w_i는 자연어로 (하위)단어에 해당하는 이산적이고 유한한 집합인 고정 어휘 W의 요소입니다.

내부적으로 LLM은 x_i = γ(w_i) ∈ R^k인 γ : W → X, i.e. p_LM(w_l|x_(1:l-1))를 통해 w_i를 워드 토큰 임베딩 공간 X  R^k 에 임베딩합니다.
매핑 γ은 일반적으로 크기 k x |W|의 큰 임베딩 행렬로 표현되며, 종단 간 학습됩니다.
우리의 경우, |W| = 256 000 (Chowdhery et al., 2022).

 

Multi-modal sentences: injection of continuous observations.

이미지 관찰과 같은 멀티모달 정보는 이산 토큰 레벨을 건너뛰고 연속적인 관찰을 언어 임베딩 공간 X에 직접 매핑하여 LLM에 주입할 수 있습니다.
이를 위해, 우리는 (연속) 관측 공간 O를 X의 q-many 벡터 시퀀스로 매핑하는 인코더 ɸ : O → X^q를 학습합니다 (자세한 내용은 섹션 4 참조).
그런 다음 이러한 벡터는 일반 임베디드 텍스트 토큰과 인터리브되어 LLM의 접두사를 형성합니다.
즉, 접두사의 각 벡터 x_i는 단어 토큰 임베더 γ 또는 인코더 ɸ_i로 구성됩니다:

단일 관측 O_j는 일반적으로 여러 임베딩 벡터로 인코딩됩니다.
접두사의 다른 위치에 서로 다른 인코더 ɸ_i를 삽입하여 서로 다른 관찰 공간의 정보를 결합할 수 있습니다.
이러한 방식으로 연속 정보를 LLM에 주입하면 기존의 위치 인코딩을 재사용할 수 있습니다.
다른 VLM 접근 방식 (예: Chen et al., 2022)과 달리, 관찰 임베딩은 고정된 위치에 삽입되지 않고 주변 텍스트 내에 동적으로 배치됩니다.

 

Embodying the output: PaLM-E in a robot control loop.

PaLM-E는 멀티 모델 문장을 입력으로 받아 텍스트를 생성하는 생성 모델입니다.
모델의 출력을 실시 예와 연결하기 위해 두 가지 경우를 구분합니다.
텍스트를 구체화된 질문 답변이나 장면 설명 작업으로만 출력하여 작업을 수행할 수 있다면, 모델의 출력이 직접적으로 작업의 해결책으로 간주됩니다.

 

대안적으로 PaLM-E를 사용하여 구체화된 계획 또는 제어 작업을 해결하면 저수준 명령을 조건으로 하는 텍스트를 생성합니다.
특히, 우리는 일부 (작은) 어휘에서 낮은 수준의 기술을 수행할 수 있는 정책에 접근할 수 있다고 가정하며, PaLM-E의 성공적인 계획은 그러한 기술들의 연속으로 구성되어야 합니다.
PaLM-E는 학습 데이터와 프롬프트를 기반으로 어떤 기술이 사용 가능한지 스스로 결정해야 하며, 출력을 제한하거나 필터링하는 데 다른 메커니즘을 사용하지 않습니다.
이러한 정책들은 언어 조건을 갖추고 있지만, 장기 과제를 해결하거나 복잡한 지침을 수용할 수는 없습니다.
따라서 PaLM-E는 제어 루프에 통합되어 로봇이 저수준 정책을 통해 예측된 결정을 실행하여 필요한 경우 PaLM-E가 다시 계획할 수 있는 새로운 관찰로 이어집니다.
이러한 의미에서 PaLM-E는 저수준 정책을 순서대로 나열하고 통제하는 고수준 정책으로 이해할 수 있습니다.

 

 

 

4. Input & Scene Representations for Different Sensor Modalities

이 섹션에서는 PaLM-E에 통합한 개별 모달리티와 인코더를 설정하는 방법에 대해 설명합니다.
각 인코더 ɸ: O → X가 해당 모달리티를 언어 임베딩 공간에 매핑하기 위해 다양한 아키텍처 선택을 제안합니다.
우리는 2D 이미지 피쳐에 대한 상태 추정 벡터인 Vision Transformers (ViT) (Dosovitskii et al., 2020; Chen et al., 2022; Ryoo et al., 2021)와 3D 인식 Object Scene Representation Transformer (OSRT) (Sajjadi et al., 2022a)를 조사합니다.
입력 장면을 전역적으로 나타내는 인코더 외에도, 우리는 관찰을 개별 장면을 나타내는 토큰으로 변환하는 객체 중심 표현을 고려합니다.

 

State estimation vectors.

로봇이나 물체의 상태 추정치와 같은 상태 벡터는 아마도 PaLM-E에 가장 간단하게 입력할 수 있을 것입니다.
s ∈ R^S를 장면에서 객체의 상태를 설명하는 벡터라고 합시다.
예를 들어, s는 그 객체들의 포즈, 크기, 색상 등을 포함할 수 있습니다.
그런 다음 MLP ɸ_state는 언어 임베딩 공간에 s를 매핑합니다.

 

Vision Transformer (ViT).

ViT ~ɸ_ViT (Dosovitskii et al., 2020)은 이미지 I를 여러 토큰 임베딩 ~x_(1:m) = ~ɸ_ViT (I) ∈ R^(m x ~k)로 매핑하는 트랜스포머 아키텍처입니다.
우리는 Chen et al. (2022)의 4B개의 매개변수 모델 (ViT-4B)과 유사한 22B개의 매개변수 모델인 ViT-22B (Dehhgani et al., 2023)를 포함한 여러 변형을 고려합니다, 이 모델들은 이미지 분류에 대해 사전 학습된 바 있습니다.
우리는 처음부터 끝까지 학습된 ViT 토큰 학습자 아키텍처 (ViT + TL) (Ryoo et al., 2021)를 추가로 조사합니다.
ViT 임베딩의 차원 ~k가 언어 모델의 차원 ~k와 반드시 동일한 것은 아닙니다.
따라서 우리는 각 임베딩을 x_i = ɸ_ViT (I)_i = ψ (~ ɸ_ViT (I))_i로 투영하며, ψ는 학습된 아핀 변환입니다.

 

Object-centric representations.

언어와 달리 시각적 입력은 의미 있는 개체와 관계로 미리 구성되어 있지 않습니다: ViT는 시맨틱을 포착할 수 있지만, 표현의 구조는 객체 인스턴스의 집합보다는 정적 그리드와 유사합니다.
이는 기호에 대해 사전 학습된 LLM과 인터페이스하는 것뿐만 아니라 물리적 객체와의 상호 작용이 필요한 체화된 추론을 해결하는 데에도 도전 과제를 제기합니다.
따라서 시각적 입력을 LLM에 주입하기 전에 서로 다른 객체로 분리하는 것을 목표로 하는 구조화된 인코더도 살펴봅니다.
실제 객체 인스턴스 마스크 M_j가 주어졌을 때, 객체 j에 대해 ViT의 표현을 x_(1:m)^j = ɸ_ViT(M_j ○ I)로 분해할 수 있습니다.

 

Object Scene Representation Transformer (OSRT).

ground-truth 세그멘테이션이 필요하지 않은 대안으로는 OSRT (Sajjadi et al., 2022a)가 있습니다: 객체에 대한 외부 지식에 의존하기보다는 아키텍처의 귀납적 편향을 통해 비지도 방식으로 발견됩니다 (Locatello et al., 2020).
SRT (Sajjadi et al., 2022b)를 기반으로 OSRT는 새로운 뷰 합성 작업을 통해 도메인 내 데이터에서 3D 중심의 신경 장면 표현을 학습합니다.
장면 표현은 객체 슬롯 o_j = ɸ_OSRT(I_(1:v))_j ∈ R^k로 구성됩니다.
우리는 이 각 슬롯을 MLP ψ를 사용하여 x_(1:m)^j = (ɸ_OSRT(I_(1:v))_j)로 투영합니다.
개별 객체는 항상 여러 임베딩으로 토큰화됩니다, 즉, OSRT 맵의 경우 ψ : R^k → R^(m x k)이 m-many 임베딩으로 변환됩니다.

 

Entity referrals.

구체화된 계획 작업을 위해 PaLM-E는 생성된 계획에서 객체를 참조할 수 있어야 합니다.
대부분의 실험을 포함하여 많은 경우, 장면의 객체는 고유한 속성 중 일부를 통해 자연어로 식별할 수 있습니다.
그러나 같은 색상의 테이블에 여러 블록이 다른 위치에 있는 경우와 같이 몇 단어로 언어로 객체를 쉽게 식별할 수 없는 설정도 존재합니다.
OSRT와 같은 객체 중심 표현의 경우, 입력 프롬프트에서 객체에 해당하는 멀티모달 토큰을 다음과 같이 라벨링합니다: Object 1 is <obj 1>, ... Object j is <obj j>.

이를 통해 PaLM-E는 생성된 출력 문장에서 obj_j 형태의 특수 토큰을 통해 객체를 참조할 수 있습니다.
이 경우 저수준 policy가 이러한 토큰에서도 작동한다고 가정합니다.

 

 

 

5. Training Recipes

PaLM-E는 D = {(I_(1:u_i)^i, w_(1:L_i)^i, n_i)} 형식의 데이터셋으로 학습되며, 각 예제 i는 u_i-다수 연속 관측 I_j^i, 텍스트 w_(1:L_i)^i, 인덱스 n_i로 구성됩니다.
디코더 전용 모델임에도 불구하고 텍스트는 멀티모달 문장으로 구성된 인덱스 n_i까지의 접두사 부분과 텍스트 토큰만 포함된 예측 대상으로 구성됩니다.
따라서 loss 함수는 개별 non-prefix 토큰 w_(n_i+1:L_i)^i에 대해 평균화된 교차 엔트로피 loss니다.
모델 내에서 멀티모달 문장을 형성하기 위해 텍스트에 특수 토큰이 있으며, 이는 해당 토큰의 위치에 있는 인코더의 임베딩 벡터로 대체됩니다.
우리는 입력 인코더를 통해 연속적인 관찰을 주입하는 디코더 전용 LLM으로 PaLM의 사전 학습된 8B, 62B, 540B 매개변수 변형을 기반으로 PaLM-E를 기반으로 합니다.
해당 인코더는 사전 학습되었거나 처음부터 학습된 인코더입니다, 섹션 4 참조.
우리는 8B LLM과 4B ViT를 결합한 것을 PaLM-E-12B라고 부릅니다, 비슷하게 62B LLM + 22B ViT를 PaLM-E-84B, 및 540B LLM + 22B ViT를 PaLM-E-562B로 부릅니다.

 

Variation with Model freezing.

대부분의 아키텍처는 인코더 ~ɸ, 프로젝터 ψ, LLM p_LM의 세 부분으로 구성되어 있습니다.
PaLM-E를 학습할 때, 한 가지 방법은 이러한 모든 구성 요소의 매개변수를 업데이트하는 것입니다.
그러나 LLM은 적절한 프롬프트가 제공되면 인상적인 추론 능력을 보여줍니다 (Wei et al., 2022).
따라서, 우리는 LLM을 동결하고 입력 인코더를 학습시키는 것이 가능한지, 그리고 만약 그렇다면, 다른 모달리티 인코더들이 어떻게 비교되는지 조사합니다.
이 경우 인코더는 고정된 LLM이 관측값을 기반으로 할 수 있도록 임베딩 벡터를 생성해야 하며, 구현 방식의 기능에 대한 정보도 LLM에 전달해야 합니다.

이러한 인코딩을 학습하는 것은 노멀 소프트 프롬프트 (Lester et al., 2021)와 관련하여 입력 조건부 소프트 프롬프트 (Tsimpoukelli et al., 2021)의 한 형태로 이해할 수 있습니다.
ɸ_OSRT 실험에서는 슬롯 표현도 동결합니다, 즉, OSRT와 LLM 간의 인터페이스 역할을 하는 소형 프로젝터 ψ만 업데이트합니다.

 

Co-training across tasks.

실험에서는 다양한 데이터에 대한 모델 공동 학습의 효과를 조사합니다.
"full mixture"은 주로 다양한 작업에서 나온 다양한 인터넷 규모의 비전 및 언어 데이터 세트로 구성되어 있습니다.
샘플링 주파수는 전체 혼합물의 8.9%만이 구현된 데이터로 설정되며, 각 구현 예에는 여러 가지 작업이 있습니다.

 

 

 

6. Experiments

우리의 실험은 시뮬레이션과 두 개의 실제 로봇을 사용하여 세 가지 다른 로봇 embodiments에서 다양한 로봇 (모바일) 조작 작업을 고려합니다.

해당 작업에 대한 PaLM-E의 기능을 보여주는 동영상은 github을 참조합니다.
비록 우리 작업의 초점은 아니지만, 우리는 visual-question-answering (VQA), 이미지 캡션, 그리고 확립된 언어 모델링 작업과 같은 일반적인 비전-언어 작업에서도 PaLM-E를 평가합니다.

 

우리는 실험 조사를 두 가지 큰 범주로 나누었습니다.
먼저, 성능, 일반화 및 데이터 효율성 측면에서 섹션 4와 다른 입력 표현을 비교합니다.
두 번째 실험 스레드는 raw 이미지를 연속 입력으로 사용하는 사전 학습된 ViT와 PaLM 언어 모델로 구성된 주요 PaLM-E 버전인 하나의 아키텍처에 초점을 맞추고 있습니다.
여기서 우리는 다양한 작업과 로봇 embodiments에 걸쳐 다양한 데이터셋을 혼합하여 학습된 단일 모델이 모든 작업에서 동시에 높은 성능을 달성할 수 있음을 보여줍니다.
중요한 것은 이러한 데이터셋에 대한 공동 학습이 전이를 가능하게 하는지 여부를 조사하는 것입니다 (그림 3): 다양한 작업과 embodiments에도 불구하고, 여러 작업을 혼합하여 학습함으로써 개별 작업의 성능이 향상됩니다.
우리는 공동 학습 전략과 모델 매개변수 크기와 관련하여 성능, 일반화 및 데이터 효율성에 미치는 영향을 연구합니다.
마지막으로, LLM을 동결하고 LLM에 비전을 주입하는 ViT를 학습하는 것이 실행 가능한 경로인지 고려합니다.

그림 3: PaLM-E에서 시연한 전이 학습 개요: 세 가지 다른 로봇 분야에서 PaLM 및 ViT 사전 학습과 로봇 공학 및 일반 시각 언어 데이터의 전체 혼합을 사용하면 해당 도메인 내 데이터에 대한 학습만 수행하는 것에 비해 성능이 크게 향상됩니다. 각 도메인의 추가 데이터는 표 1, 그림 4, 표 2, 표 4를 참조하세요.

베이스라인으로, 우리는 embodiment 로봇 데이터에 대해 학습되지 않은 SOTA 시각 언어 모델 PaLI (Chen et al., 2022)와 오라클 어포던스와 함께 제공되는 SayCan 알고리즘 (Ahn et al., 2022)을 고려합니다.

그림 1: PaLM-E는 임바디드 추론 작업, 시각-언어 작업 및 언어 작업을 위한 단일 범용 복합 언어 모델입니다. PaLM-E는 시각-언어 영역에서 임바디드 추론으로 지식을 전달합니다 – 복잡한 역학 및 물리적 제약이 있는 환경에서의 로봇 계획부터 관찰 가능한 세계에 대한 질문에 대한 답변까지. PaLM-E는 멀티모달 문장, 즉 임의의 모달리티 (예: 이미지, 신경 3D 표현 또는 녹색 및 파란색 상태)의 입력이 텍스트 토큰 (오렌지색)과 함께 삽입되어 종단 간 학습된 LLM의 입력으로 사용되는 토큰 시퀀스에서 작동합니다.

6.1. Robot Environments / Tasks

우리의 세 가지 로봇 환경 (그림 1)에는 로봇이 물체를 조작하고 쌓아야 하는 Task and Motion Planning (TAMP) 도메인, 테이블 위에서 밀기 환경, 그리고 모바일 조작 도메인이 포함됩니다.
각 도메인에서 PaLM-E는 해당 도메인의 전문가 데이터를 기반으로 학습됩니다.
많은 경우, 이것은 작업당 드문 양의 데이터입니다.
TAMP 작업은 가능한 계획에 대한 대규모 조합론을 포함하며, 많은 의사 결정 순서가 불가능합니다.
PaLM-E는 복잡한 결정 경계를 가진 여러 단계로 구성된 계획을 수립해야 합니다.
멀티 객체 테이블탑 푸시 환경은 공개된 Language-Table 데이터셋 (Lynch et al., 2022)에서 가져온 것으로, 여러 객체, 언어의 큰 기수성, 복잡한 푸시 역학을 포함하기 때문에 도전적입니다.
TAMP 환경과 언어-테이블 환경 모두에서 PaLM-E는 객체의 자세에 대해 추론해야 합니다.
어떤 물체가 테이블 위에 있는지 또는 그들의 대략적인 관계를 아는 것만으로는 충분하지 않으며, 장면 기하학에 대한 세밀한 세부 사항이 과제를 해결하는 데 중요합니다.
마지막으로, 우리는 로봇이 주방 환경에서 서랍 속 물건을 찾아내고, 집어서 사람에게 가져다주는 등 다양한 작업을 해결해야 하는 SayCan (Ann et al., 2022)과 유사한 모바일 조작 도메인을 고려합니다.
모든 도메인에 대해 우리는 해당 환경에서 계획 작업과 VQA 작업을 모두 고려합니다.
모바일 조작 및 언어 테이블 환경의 경우, PaLM-E는 제어 루프에 통합되어 현실 세계에서 계획을 실행하며, 낮은 수준의 제어 정책의 외부 장애나 실패가 있을 경우 계획을 조정해야 합니다.

표 7: 다양한 입력 표현에 대한 TAMP 환경에서의 성공률. 장면에서 3-5개의 객체가 학습 분포에 해당합니다. OOD 작업은 객체가 색상으로 참조되는 배포 외 작업을 의미하지만, 학습 데이터에서는 객체 중심의 경우 특수 토큰 obj_j에 의해 참조되었습니다. SayCan 베이스라인 (Ahn et al., 2022)은 오라클 원스텝 어포던스 함수를 활용합니다.

6.2. TAMP Environment

표 7 (부록)은 TAMP 환경의 계획 성공률과 VQA 성능을 보여줍니다.
이 실험들 (사전 학습된 LLM의 경우)에서 LLM은 동결됩니다.
표 7에 보고된 결과에 따르면, 입력 표현은 TAMP 환경에서만 96,000개의 학습 장면이 포함된 데이터셋에서 학습됩니다, 즉, 다른 데이터는 혼합물에 포함되지 않습니다.
장면에서 학습 세트와 동일한 숫자인 3-5개의 객체에 대해 대부분의 입력 표현은 유사하게 잘 수행됩니다.
그러나 객체의 수를 늘릴 때, 사전 학습된 LLM을 사용하면 특히 엔티티 추천에서 성능이 상당히 향상되는 것으로 나타났습니다.
또한, 62B LLM은 8B 변형에 비해 더 나은 분포 외 일반화를 보이는 반면, 사전 학습되지 않은 LLM은 기본적으로 분포 외 일반화를 보이지 않는다는 것을 보여줍니다.
SayCan 베이스라인 (Ahn et al., 2022)은 오라클 어포던스 함수를 사용하며, 어포던스 함수가 현재 가능한 것만 제한할 뿐 LLM이 TAMP 환경에서 장기 계획을 수립할 만큼 충분한 정보를 제공하지 못하기 때문에 이 환경을 해결하는 데 어려움을 겪고 있습니다.

표 1: TAMP 환경 (성공률 측면에서)에서 다양한 입력 표현을 비교한 결과, TAMP의 데이터는 전체 학습 데이터 크기의 1% (즉, p1, p2 각각 320개 샘플)에 불과합니다. PaLM-E는 구현된 VQA 및 계획 작업에서 PaLI와 SayCan을 모두 능가합니다. 도메인 간 전이가 관찰되는데, 이는 전체 데이터 혼합물에서 학습된 ViT-4B를 사용한 PaLM-E가 계획 성능을 향상시키기 때문입니다. OSRT는 대규모 데이터를 사용하지 않음에도 불구하고 학습에 가장 효과적인 입력 인코딩을 제공합니다. (GT)는 제공된 실제 객체 중심 정보를 의미합니다. 모든 실험에서 LLM은 고정되어 있습니다. 비객체 중심 ViT-4B 변형은 색상을 사용하여 객체를 참조하므로 q1은 여기서 평가할 수 없습니다. LLM은 이러한 실험에서 동결됩니다 (사전 학습되지 않은 경우 제외). 섹 B.1은 q1-q4, p1, q2 작업을 설명합니다.

표 1은 데이터셋의 1%에 대해 학습할 때 3-5개의 객체에 대한 결과를 보여주며, 이는 두 가지 계획 작업 각각에 대해 320개의 예제에 해당합니다.
여기서 우리는 특히 계획 작업에서 입력된 표현들 사이에 상당한 차이가 있음을 알 수 있습니다.
첫째, LLM을 사전 학습하는 것은 상태 입력에 대한 낮은 데이터 영역에서 유익합니다.

둘째, 두 가지 ViT 변형 (ViT+TL, ViT-4B) 모두 이 작은 데이터에 대한 계획 작업을 잘 해결하지 못합니다.

그러나 다른 모든 로봇 환경과 일반 비전 언어 데이터셋 (ViT-4B 일반)을 함께 학습하면 ViT-4B의 성능이 두 배 이상 향상됩니다.
이는 다양한 로봇 구현과 작업 간에 상당한 전이 효과를 보여줍니다.
마지막으로, OSRT를 입력 표현으로 사용하면 3D 인식 객체 표현의 강점을 보여주며 최고의 성능을 발휘할 수 있습니다.
여기에서도 또 다른 전이 사례를 관찰할 수 있습니다: TAMP VQA 데이터를 제거하고 640개의 계획 작업 예제만 학습하면 성능이 약간 떨어집니다.
로봇 데이터로 학습되지 않은 SOTA 비전-언어 모델 PaLI (Chen et al., 2022)는 이러한 작업을 해결할 수 없습니다.
일반적인 VQA 작업과 가장 유사하기 때문에 q2 (테이블의 왼쪽/오른쪽/가운데 객체)와 q3 (수직 객체 관계)에서만 평가했습니다.

표 2: Lynch et al. (2022)의 시뮬레이션 환경에서의 작업 계획 결과.

6.3. Language-Table Environment

표 2는 언어-테이블 환경의 장기 작업 성공률을 보고합니다 (Lynch et al., 2022).
PaLM-E는 제어 루프에 통합되어 장기 작업과 현재 이미지를 입력으로 받아 저수준 policy에 대한 명령을 출력합니다.
우리는 인터넷 규모의 비전과 언어에 대한 공동 학습이 로봇 계획에 더 효과적인 모델을 제공한다는 것을 알 수 있습니다. 특히 작업당 데모가 10개에 불과한 퓨샷 체제에서는 더욱 그렇습니다.
12B 모델을 84B 모델로 확장하면 3개 작업 중 2개 작업이 개선됩니다.
TAMP 환경과 마찬가지로 SayCan이나 제로샷 PaLI 모두 테스트한 가장 쉬운 작업을 해결할 수 없기 때문에 효과적이지 않습니다.

그림 7: PaLM-E는 언어 테이블에서 장거리 조작 작업을 통해 실제 로봇을 대화형으로 가이드하면서도 적대적 교란에 강건하게 유지합니다. 우리는 PaLM-E가 원샷 및 제로샷 일반화가 가능하다는 증거를 발견했습니다.

Real Robot Results and Few-Shot Generalization.

그림 7, a)에서 우리는 PaLM-E가 다단계 테이블탑 조작 작업을 통해 실제 로봇을 가이드하면서도 적대적 교란에 강건하게 유지할 수 있음을 알 수 있습니다.
관찰된 이미지와 "sort the blocks by colors into corners"하는 장기 목표를 고려할 때, PaLM-E는 1Hz의 언어 하위 목표를 Lynch et al. (2022)의 policy에 출력하여 5Hz의 낮은 수준의 로봇 액션을 출력합니다.
이전 연구 (Lynch et al., 2022)에서는 대신 인간이 루프에 참여하여 하위 목표와 수정 사항을 상호 작용적으로 가이드했습니다.
그림 5, b) PaLM-E는 원샷 및 제로샷 학습이 가능하다는 것을 알 수 있습니다.
여기서 우리는 각각 하나의 학습 예제를 통해 100개의 서로 다른 긴 지평선 작업에 대해 PaLM-E를 파인튜닝했습니다, 예를 들어, "put all the blocks in the center", "remove the blue blocks from the line" 등이 있습니다.
또한 PaLM-E는 제로샷을 새로운 객체 쌍과 관련된 작업 (그림 7, c)과 원래 로봇 데이터셋이나 파인튜닝 데이터셋에서 볼 수 없었던 객체와 관련된 작업 (예: 장난감 거북이)으로 일반화할 수 있음을 확인했습니다 (그림 5, d).

그림 5: 단일 PaLM-E 모델은 두 개의 실제 로봇의 저수준 policy를 지시합니다. 주방에서의 장거리 이동 조작 작업과 테이블탑 조작 로봇을 사용한 원샷/제로샷 일반화가 표시됩니다.

6.4. Mobile Manipulation Environment

우리는 도전적이고 다양한 모바일 조작 작업에서 PaLM-E의 성능을 입증합니다.
우리는 주로 인간의 지시에 따라 로봇이 일련의 내비게이션 및 조작 동작을 계획해야 하는 Ahn et al. (2022)의 설정을 따릅니다.
예를 들어, "I spilled my drink, can you bring me something to clean it up?"라는 지침이 주어지면 로봇은 "1. Find a sponge, 2. Pick up the sponge, 3. Bring it to the user, 4. Put down the sponge."라는 순서를 계획해야 합니다
이러한 작업에서 영감을 받아 PaLM-E의 구체적인 추론 능력을 테스트하기 위한 3가지 사용 사례를 개발했습니다: 어포던스 예측, 장애 감지 및 장기 horizon 계획.
저수준 policy는 RGB 이미지와 자연어 명령을 받아 엔드 이펙터 제어 명령을 출력하는 트랜스포머 모델인 RT-1 (Brohan et al., 2022)에서 나온 것입니다.

 

Affordance prediction.

우리는 어포던스 예측에서 PaLM-E의 성능을 조사합니다, 즉, 현재 환경에서 낮은 수준의 policy skill을 실행할 수 있는지 여부입니다.

이것은 VQA 문제로 공식화할 수 있습니다 Given <img>.
Q: Is it possible to <skill> here?.
PaLM-E는 PaLI (제로샷)를 능가할 뿐만 아니라 QT-OPT로 학습된 값 함수에 대한 임계값 설정 (표 4)을 수행합니다.

표 4: 모바일 조작 환경: 실패 감지 및 어포던스 예측 (F1 score).

Failure detection.

로봇이 폐루프 계획을 수행하기 위해서는 (Huang et al., 2022c)와 같이 고장을 감지하는 것도 중요합니다.
멀티모달 프롬프트는 Given <img>입니다.
Q: Was <skill> successful?.
표 4는 PaLM-E가 이 데이터셋에서 PaLI (제로샷)와 파인튜닝된 버전의 CLIP을 능가한다는 것을 보여줍니다.
PaLM-E는 또한 Xiao et al. (2022)에서 제안한 알고리즘보다 성능이 뛰어납니다, 이 알고리즘은 후방 재라벨 데이터로 학습된 두 개의 CLIP 모델을 활용합니다.
이 방법은 우리 방법보다 더 많은 정보에 접근할 수 있으며, 이 데이터셋에서 장애 감지 문제를 해결하기 위해 특별히 설계되었습니다.

 

Real robot results: Long-horizon planning.

마지막으로, 우리는 PaLM-E를 사용하여 모바일 조작 작업을 위한 종단 간 구체적인 계획을 수행합니다.
이 작업의 프롬프트 구조는 Human: <instruction> Robot: <step history>. I see <img>입니다.
PaLM-E는 취한 단계의 이력과 현재 장면의 이미지 관찰을 바탕으로 계획의 다음 단계를 생성하도록 학습됩니다.
각 단계가 디코딩된 후, 우리는 이를 Ahn et al. (2022)에 정의된 저수준 policy에 매핑합니다.
이 과정은 PaLM-E가 "terminate"를 출력할 때까지 자기회귀 방식으로 수행됩니다.
우리는 2912개의 시퀀스가 포함된 (Ahn et al., 2022)의 실행을 사용하여 모델을 학습시킵니다.
우리는 실제 주방에서 모델을 정성적으로 평가한 결과, 적대적 교란 상황에서도 모델이 장거리 이동 조작 작업을 수행할 수 있다는 것을 발견했습니다 (그림 5).

표 5: 일반적인 시각 언어 작업에 대한 결과. 일반 모델의 경우, 서로 다른 평가에서 동일한 체크포인트를 사용하는 반면, 작업별 파인튜닝 모델은 서로 다른 작업에 대해 서로 다른 파인튜닝 모델을 사용합니다. COCO는 Karpathy 스플릿을 사용합니다. †는 OK-VQA에서 32샷입니다 (파인튜닝되지 않음).

6.5. Performance on General Visual-Language Tasks

비록 우리 연구의 초점은 아니지만, 우리는 OK-VQA (Marino et al., 2019), VQA v2 (Goyal et al., 2017), COCO captioning (Chen et al., 2015)을 포함한 일반적인 비전-언어 작업에 대한 결과를 표 5에 보고합니다.
단일 제너럴리스트 PaLM-E-562B 모델은 OK-VQA에서 보고된 가장 높은 수치를 달성했으며, OK-VQA에서 특별히 파인튜닝된 모델보다 우수한 성능을 보였습니다.
(Tsimpoukelli et al., 2021)와 비교했을 때, PaLM-E는 우리가 아는 한 동결된 LLM을 사용하여 VQA v2에서 가장 높은 성능을 달성했습니다.
이는 PaLM-E가 로봇 작업에 대한 구체적인 추론자일 뿐만 아니라 경쟁력 있는 시각-언어 일반론자임을 입증합니다.

표 8: 원래 PaLM 모델과 관련된 PaLM-E (unfrozen) 모델 모두에 대한 NLU 및 NLG 작업에 대한 전체 언어 평가 작업 결과. frozen LLM을 사용하는 PaLM-E 모델은 해당 기본 PaLM 모델과 동일한 성능을 보입니다.

6.6. Performance on General Language Tasks

표 8은 Natural Language Understanding (NLU) 및 Natural Language Generation (NLG) 작업을 위한 21개의 일반 언어 벤치마크에서 PaLM-E의 평균 성능을 보고합니다.
주목할 만한 추세는 모델 규모가 증가함에 따라 언어 능력에 대한 치명적인 망각이 상당히 줄어든다는 것입니다.
그림 6에서 볼 수 있듯이, 가장 작은 모델 (PaLM-E-12B)의 경우, 멀티모달 학습 중에 NLG 성능의 87.3%가 저하된 반면, 가장 큰 모델 (PaLM-E-562B)의 경우에는 단지 3.9%만이 저하된 것으로 나타났습니다.

그림 6: 일반 언어 작업에 대한 결과 (NLG = natural language generation): 규모가 커지면 해당 PaLM-E 모델과 상속된 PaLM 모델 간의 치명적인 망각이 줄어듭니다. 전체 작업 및 결과 모음은 표 8에서 확인할 수 있습니다.
그림 3: PaLM-E가 시연한 전이 학습 개요: 세 가지 다른 로봇 분야에서 PaLM 및 ViT 사전 학습과 로보틱스 및 일반 시각 언어 데이터의 전체 혼합을 사용하면 해당 도메인 내 데이터에 대한 학습만 수행하는 것에 비해 성능이 크게 향상됩니다. 각 도메인의 추가 데이터는 표 1, 그림 4, 표 2, 표 4를 참조하세요.
그림 4: 계획 성공은 PaLM-E-12B의 TAMP 환경 (1% 데이터)에서 나타났으며, (i) 전체 학습 혼합물을 사용하여 PaLM-E 모델의 효과를 비교한 결과, (ii) 사전 학습 (ViT 및 PaLM), (iii) 언어 모델을 동결하거나 파인튜닝한 결과입니다. 전체 혼합물로부터의 전이는 특히 효과적입니다. 전체 혼합물에는 여기서 평가된 작업에 대한 학습 데이터의 1%(각각 320개의 예제)만 포함되어 있습니다. 작업 p1, p2의 평균이 표시됩니다.

7. Summary of Experiments & Discussion

Generalist vs specialist models – transfer.

그림 3에 요약된 바와 같이, 본 연구에서는 여러 전이 사례를 보여주었으며, 이는 PaLM-E가 서로 다른 작업과 데이터셋에서 동시에 학습됨으로써 서로 다른 작업에서만 별도로 학습된 모델에 비해 성능이 크게 향상된다는 것을 의미합니다.
그림 4에서 "full mixture"에 대한 공동 학습은 두 배 이상의 성능을 달성합니다.
표 9에서 모바일 조작 데이터만 추가하는 대신 LLM/ViT 사전 학습과 전체 혼합에 대한 학습을 추가하면 성능이 크게 향상되는 것을 확인할 수 있습니다.
표 2의 언어-표 실험에서는 유사한 동작을 관찰할 수 있습니다.

표 9: 모바일 조작 환경: 고장 감지, 개별 정밀도 및 리콜 점수 표시.

Data efficiency.

사용 가능한 대규모 언어 또는 비전-언어 데이터셋에 비해 로봇 데이터의 양이 현저히 적습니다.
지난 단락에서 논의한 바와 같이, 우리의 모델은 전이를 나타내며, 이는 PaLM-E가 로봇 분야의 매우 적은 학습 예제에서 로봇 작업을 해결하는 데 도움이 됩니다, 예: 언어 테이블의 경우 10에서 80 사이 또는 TAMP의 경우 320 사이.
OSRT 결과는 기하학적 입력 표현을 사용하여 또 다른 데이터 효율성 사례를 보여줍니다.
향후 연구를 위한 유망한 기회는 이를 대규모 시각 데이터를 활용한 방법과 결합하는 것입니다.

 

Retaining language capabilities.

우리는 멀티모달 학습 동안 모델의 언어 능력을 유지하는 두 가지 경로를 보여주었습니다.
하나의 옵션으로, LLM을 동결하고 입력 인코더만 학습시키는 것이 구현된 언어 모델을 구축하는 데 유효한 방법이지만, 이 접근 방식은 때때로 로봇 작업에서 어려움을 겪기도 합니다 (표 2).
대안적인 경로로, 전체 모델이 엔드투엔드로 학습될 때, 모델 규모가 증가함에 따라 모델은 원래 언어 성능을 훨씬 더 많이 유지하게 됩니다 (그림 6).

 

 

 

8. Conclusion

우리는 사전 학습된 LLM의 임베딩 공간에 이미지와 같은 멀티모달 정보를 주입하여 구현된 언어 모델을 구축할 것을 제안했습니다.
실험 결과, 일반적인 VQA 및 캡셔닝 작업으로 학습된 SOTA 비전-언어 모델만으로는 구체적인 추론 작업에 충분하지 않으며, 어포던스를 통한 언어 모델 기반 제안의 한계가 있는 것으로 나타났습니다.
이러한 한계를 극복하기 위해, 우리는 시뮬레이션과 실제 세계에서 다양한 로봇을 제어할 수 있는 단일 모델인 PaLM-E를 제안했습니다, 동시에 일반적인 VQA 및 캡셔닝 작업에서도 정량적으로 능숙합니다.
특히 신경 장면 표현 (즉, OSRT)을 모델에 도입하는 새로운 아키텍처 아이디어는 대규모 데이터 없이도 특히 효과적입니다.
PaLM-E는 여러 로봇 embodiments뿐만 아니라 일반적인 비전-언어 작업에서도 다양한 작업을 혼합하여 학습됩니다.
중요한 것은 이러한 다양한 학습이 비전-언어 영역에서 구체적인 의사 결정으로 여러 경로를 전환하여 로봇 계획 작업을 효율적으로 수행할 수 있다는 것을 입증했다는 점입니다.
우리의 결과는 frozen 언어 모델이 언어 능력을 완전히 유지하는 범용 임바디드 멀티모달 모델을 향한 실행 가능한 경로임을 나타내지만, 우리는 또한 unfrozen 모델을 사용하는 대체 경로를 제시했습니다: 언어 모델 크기를 확장하면 임바디드 에이전트가 되는 동안 치명적인 망각이 훨씬 줄어듭니다.
우리의 가장 큰 모델인 PaLM-E-562B는 멀티모달 chain of thought 추론과 같은 새로운 기능과 단일 이미지 프롬프트로만 학습되었음에도 불구하고 여러 이미지를 추론할 수 있는 능력을 보여줍니다.