SmolVLA: A vision-language-action model for affordable and efficient robotics
Fuzhou University SmolVLA: A vision-language-action model for affordable and efficient robotics arXiv 2025 6 Mustafa Shukor Dana Aubakirova Francesco Capuano Hugging Face Sorbonne University valeo.ai 2025- 11 - 6 - -
1. 摘要
1. VLM VLM - - VLA VLA —— 亿 —— SmolVLA VLA SmolVLA 10× VLA SmolVLA
2. 引言
2. LLM
2. 引言
2. VLA VLA 广 OpenVLA RT-2 VLA 访
2. 引言
2. SmolVLA VLA VLM 使 token VLM SmolVLA 30k 使
3. 相关工作
- VLMs + LLM VLM LLM LLM VLM LLM 使 3.
3. 相关工作
- - VLAs Transformer RT-2 VLM OpenVLA 7B VLA VLA token token π0 DexVLA 使 VLA TinyVLA sub-1B SmolVLA 3.
4. 方法-模型架构
4. - VLM VLM token
4. 方法-模型架构
4. - VLM 访 N 使 N N = L/2
4. 方法-模型架构
4. - 使 VLM CA VLM SA token SA token token token
4. 方法-模型架构
4. - Flow-matching VLM At transformer 使
4. 方法-模型架构
4. - u= target – x Each step x = x + u * dt target u x t
4. 方法-社区收集的预训练数据
4. -
4. 方法-社区收集的预训练数据
4. - 使 VLM —— 使 VLM Qwen2.5
4. 方法-社区收集的预训练数据
4. - images.laptop” OBS_IMAGE_1 OBS_IMAGE_2 OBS_IMAGE_3 使
4. 方法
4.
4. 方法-异步推理
4. - ∣At∣/n < g
4. 方法-异步推理
4. - g=0 g=1 g ∈ 0 1
4. 方法-异步推理
4. - RobotClient ε PolicyServer
5. 实验-实验设置
5. - LIBERO 使 1,693 episode 4 40 Spatial Object Goal Long Meta-World 50 50 4 SO-100 3 SO-101 1 - 5 10 50
5. 实验-评估
5. -
5. 实验-评估
5. -
5. 实验-评估
5. -
5. 实验-评估
5. -
5. 实验-消融实验
5. -
5. 实验-消融实验
5. - 使 LLM
5. 实验-消融实验
5. -
5. 实验-消融实验
5. -
结论
VLA SmolVLA VLA SmolVLA
局限性
23k VLA 使 使 SO100 SmolVLA 5 亿 VLM SmolVLM OCR VLM SmolVLA
谢谢!
Fuzhou University