SmolVLA: A vision-language-action model for affordable and efficient robotics
计
算
机
与
大
数
据
学
院
Fuzhou University
SmolVLA: A vision-language-action model for affordable
and efficient robotics
论
文
出
处
:
arXiv
发
表
时
间
:
2025
年
6
月
作
者
:
Mustafa Shukor
,
Dana Aubakirova
,
Francesco Capuano
作
者
单
位
:
Hugging Face
,
Sorbonne University
,
valeo.ai
汇
报
人
:
丁
晨
阳
日
期
:
2025-
11
-
6
一
种
视
觉
-
语
言
-
动
作
模
型
,
用
于
经
济
高
效
的
机
器
人
技
术
1. 摘要
1.
摘
要
在
大
规
模
多
模
态
数
据
集
上
预
训
练
的
视
觉
语
言
模
型
(
VLM
)
编
码
了
丰
富
的
视
觉
和
语
言
知
识
,
现
有
的
工
作
大
多
都
是
将
VLM
调
整
为
视
觉
-
语
言
-
动
作
(
VLA
)
模
型
。
然
而
,
现
有
的
VLA
通
常
是
巨
大
的
——
通
常
有
数
十
亿
个
参
数
——
导
致
训
练
成
本
高
昂
,
实
际
可
部
署
性
有
限
。
此
外
,
他
们
依
赖
学
术
和
工
业
数
据
集
,
而
忽
视
了
社
区
从
低
机
器
人
平
台
收
集
的
数
据
的
可
用
性
。
因
此
我
们
提
出
了
SmolVLA
,
这
是
一
种
小
型
、
高
效
且
社
区
驱
动
的
VLA
,
可
大
幅
降
低
训
练
和
推
理
成
本
,
同
时
保
持
有
竞
争
力
的
性
能
。
为
了
进
一
步
提
高
响
应
能
力
,
还
引
入
了
异
步
推
理
,
从
而
通
过
分
块
动
作
生
成
实
现
更
高
的
控
制
率
。
尽
管
尺
寸
紧
凑
,
但
SmolVLA
的
性
能
可
与
大
10×
的
VLA
相
媲
美
。
该
模
型
在
一
系
列
模
拟
和
真
实
世
界
的
机
器
人
基
准
测
试
上
评
估
SmolVLA
。
2. 引言
2.
引
言
近
年
来
,
该
领
域
已
转
向
开
发
基
础
模
型
,
这
一
趋
势
的
一
个
突
出
例
子
是
大
型
语
言
模
型
(
LLM
)
。
因
此
,
基
于
文
本
的
模
型
的
成
功
已
扩
展
到
其
他
模
态
。
虽
然
在
模
态
方
面
是
互
补
的
,
但
开
发
多
模
态
基
础
模
型
的
这
种
进
步
源
于
两
点
:
可
扩
展
架
构
,
互
联
网
规
模
的
训
练
数
据
集
。
尽
管
基
础
模
型
在
数
字
世
界
中
取
得
了
显
着
成
就
,
但
基
础
模
型
在
现
实
世
界
中
的
应
用
仍
然
有
限
。
特
别
是
机
器
人
策
略
在
跨
对
象
类
型
、
位
置
、
环
境
和
任
务
进
行
泛
化
方
面
仍
面
临
挑
战
,
朝
这
个
方
向
的
进
展
似
乎
常
常
受
到
高
质
量
和
多
样
化
数
据
的
可
用
性
的
限
制
。
2. 引言
2.
引
言
VLA
模
型
仍
处
于
开
发
的
早
期
阶
段
。
许
多
有
影
响
力
的
VLA
进
展
仍
然
是
专
有
的
,
但
多
数
模
型
仅
共
享
权
重
却
隐
瞒
完
整
训
练
细
节
。
虽
能
应
对
学
术
基
准
,
但
本
文
认
为
,
要
在
机
器
人
技
术
中
实
现
人
类
水
平
的
能
力
,
需
要
对
开
源
工
作
做
出
更
坚
定
的
承
诺
。
特
别
是
透
明
、
可
重
复
的
开
源
模
型
和
训
练
方
法
对
于
加
速
进
步
和
促
进
机
器
人
研
究
社
区
的
更
广
泛
参
与
至
关
重
要
。
虽
然
OpenVLA
和
RT-2
等
证
明
了
开
放
式
VLA
系
统
的
可
行
性
,
但
它
们
仍
然
庞
大
、
计
算
成
本
高
,
并
且
依
赖
于
昂
贵
的
机
器
人
平
台
,
阻
碍
了
可
访
问
性
。
2. 引言
2.
引
言
在
这
项
工
作
中
,
本
文
介
绍
了
SmolVLA
,
这
是
一
项
开
源
计
划
,
具
有
紧
凑
而
强
大
的
VLA
模
型
,
与
可
重
复
且
高
效
的
训
练
和
推
理
配
方
一
起
发
布
。
贡
献
如
下
:
轻
量
级
架
构
。
关
键
的
设
计
选
择
包
括
:
跳
过
VLM
中
的
层
;
使
用
最
少
数
量
的
视
觉
token
;
利
用
小
型
预
训
练
VLM
;
将
自
注
意
力
层
与
交
叉
注
意
力
层
交
错
。
在
社
区
驱
动
的
数
据
集
上
进
行
预
训
练
。
SmolVLA
在
社
区
数
据
集
中
提
取
的
不
到
30k
个
剧
集
上
进
行
端
到
端
训
练
,
在
使
用
的
数
据
比
现
有
技
术
少
一
个
数
量
级
的
同
时
表
现
出
强
大
的
性
能
。
异
步
推
理
。
将
动
作
执
行
与
模
型
推
理
预
测
分
离
,
从
而
减
少
延
迟
并
实
现
快
速
高
效
推
理
。
3. 相关工作
视
觉
-
语
言
模
型
(
VLMs
)
预
训
练
视
觉
编
码
器
+ LLM
。
VLM
的
最
新
进
展
是
由
LLM
的
成
功
推
动
的
,
许
多
方
法
建
立
在
预
训
练
的
LLM
之
上
并
采
用
类
似
的
训
练
范
式
。
通
常
,
VLM
是
通
过
集
成
预
训
练
的
视
觉
编
码
器
构
建
的
与
预
训
练
的
LLM
。
除
了
传
统
的
模
型
架
构
,
还
有
两
类
非
主
流
但
重
要
的
研
究
方
向
,
不
依
赖
预
训
练
视
觉
编
码
器
和
统
一
多
模
态
架
构
。
还
有
的
工
作
使
用
更
小
,
更
多
样
的
数
据
集
来
降
低
训
练
成
本
,
训
练
小
规
模
模
型
,
或
者
通
过
仅
调
整
一
小
部
分
参
数
来
调
整
预
训
练
的
单
峰
模
型
。
3.
相
关
工
作
3. 相关工作
视
觉
-
语
言
-
动
作
模
型
(
VLAs
)
早
期
努
力
在
大
规
模
机
器
人
演
示
数
据
集
上
从
头
开
始
训
练
基
于
Transformer
的
模
型
。
为
了
提
高
性
能
和
泛
化
能
力
,
RT-2
利
用
预
训
练
的
VLM
在
机
器
人
特
定
数
据
上
进
一
步
训
练
它
们
。
为
了
促
进
开
放
性
和
可
重
复
性
,
OpenVLA
发
布
了
一
个
7B
参
数
VLA
,
该
VLA
根
据
公
开
数
据
进
行
训
练
,
以
生
成
离
散
的
动
作
token
。
由
于
动
作
token
化
对
连
续
控
制
构
成
了
局
限
性
,
π0
和
DexVLA
提
议
使
用
基
于
扩
散
的
解
码
器
进
行
连
续
动
作
生
成
。
为
了
提
高
VLA
的
效
率
,
TinyVLA
在
多
模
态
数
据
上
从
头
开
始
训
练
一
个
轻
量
级
的
sub-1B
模
型
,
然
后
在
机
器
人
数
据
集
上
对
其
进
行
微
调
。
SmolVLA
与
大
多
数
这
些
工
作
有
着
相
似
的
目
标
,
旨
在
开
发
和
发
布
在
训
练
和
推
理
方
面
既
高
性
能
又
高
效
的
开
源
模
型
。
3.
相
关
工
作
4. 方法-模型架构
4.
方
法
-
模
型
架
构
视
觉
语
言
模
型
(
VLM
)
。
采
用
预
训
练
的
VLM
作
为
主
要
骨
干
,
将
视
觉
、
语
言
和
状
态
token
维
度
对
齐
后
拼
接
并
传
递
给
语
言
解
码
器
。
然
后
,
通
过
解
码
器
层
获
得
的
结
果
用
于
调
节
动
作
专
家
。
4. 方法-模型架构
4.
方
法
-
模
型
架
构
通
过
层
跳
跃
加
快
推
理
速
度
。
为
了
获
得
更
快
的
推
理
时
间
,
我
们
跳
过
了
VLM
中
的
计
算
。
我
们
的
动
作
专
家
可
以
访
问
指
定
层
N
之
前
的
所
有
特
征
,
而
不
是
使
用
最
后
一
层
特
征
。
在
实
践
中
,
发
现
将
N
设
置
为
总
层
的
一
半
(
N = L/2
)
可
以
在
速
度
和
性
能
之
间
进
行
良
好
的
权
衡
。
4. 方法-模型架构
4.
方
法
-
模
型
架
构
交
错
使
用
交
叉
注
意
力
层
和
自
注
意
力
层
。
在
动
作
专
家
的
前
向
传
递
中
,
动
作
和
VLM
特
征
之
间
的
交
互
是
通
过
注
意
力
进
行
的
。
CA
层
交
叉
关
注
VLM
的
键
和
值
,
而
SA
层
允
许
vθ
中
的
动
作
token
相
互
关
注
。
其
中
SA
层
采
用
因
果
注
意
力
掩
码
,
确
保
每
个
动
作
token
只
能
关
注
块
内
过
去
的
token
,
从
而
防
止
依
赖
未
来
的
token
。
4. 方法-模型架构
4.
方
法
-
模
型
架
构
Flow-matching
动
作
专
家
。
动
作
专
家
vθ
经
过
训
练
,
可
以
从
VLM
特
征
预
测
动
作
块
At
,
与
之
前
的
工
作
保
持
一
致
,
我
们
对
vθ
的
实
现
依
赖
于
transformer
架
构
。
行
动
专
家
使
用
以
下
定
义
的
目
标
进
行
训
练
:
4. 方法-模型架构
4.
方
法
-
模
型
架
构
假
设
u= target – x
Each step
,
x = x + u * dt
,
最
终
得
到
target
用
一
个
神
经
网
络
来
预
测
u
,
以
x
,
t
等
等
为
条
件
4. 方法-社区收集的预训练数据
4.
方
法
-
社
区
收
集
的
预
训
练
数
据
当
前
机
器
人
中
的
数
据
集
面
临
的
三
个
核
心
数
据
问
题
:
数
据
规
模
小
;
不
同
数
据
集
之
间
差
异
大
;
依
赖
人
类
专
家
采
集
的
数
据
。
在
此
背
景
下
,
低
端
机
器
人
平
台
缓
解
了
这
种
数
据
异
构
性
。
此
外
,
由
个
人
收
集
的
数
据
集
是
在
不
同
的
现
实
环
境
中
收
集
的
。
与
遵
循
标
准
化
协
议
的
学
术
数
据
集
不
同
,
社
区
数
据
集
自
然
跨
越
了
不
同
的
机
器
人
实
施
例
、
控
制
方
案
、
相
机
视
角
和
任
务
。
并
且
,
社
区
数
据
集
通
过
嘈
杂
的
演
示
、
异
构
环
境
和
多
样
化
的
对
象
交
互
来
反
映
现
实
世
界
的
复
杂
性
,
提
供
了
有
价
值
的
预
训
练
数
据
。
4. 方法-社区收集的预训练数据
4.
方
法
-
社
区
收
集
的
预
训
练
数
据
使
用
VLM
进
行
任
务
注
释
。
依
赖
社
区
贡
献
的
数
据
集
会
带
来
标
准
化
挑
战
。
在
任
务
注
释
中
观
察
到
大
量
噪
声
——
例
如
任
务
描
述
、
过
于
模
糊
的
命
令
。
为
了
提
高
标
注
质
量
,
使
用
现
成
的
VLM
(
Qwen2.5
)
自
动
生
成
简
洁
的
任
务
描
述
。
并
对
每
个
数
据
集
的
具
有
代
表
性
的
帧
进
行
了
采
样
,
并
将
它
们
与
原
始
指
令
一
起
提
供
。
提
示
模
型
生
成
一
个
简
短
的
、
面
向
行
动
的
句
子
来
总
结
行
为
。
4. 方法-社区收集的预训练数据
4.
方
法
-
社
区
收
集
的
预
训
练
数
据
相
机
视
点
命
名
标
准
化
。
社
区
数
据
集
的
相
机
命
名
规
则
差
异
大
,
同
一
命
名
(
如
“
images.laptop”
)
可
能
对
应
不
同
视
角
(
顶
部
、
侧
面
、
腕
部
安
装
)
,
这
种
不
一
致
对
预
训
练
不
利
。
本
文
则
手
动
将
每
个
相
机
映
射
到
标
准
化
视
图
类
型
(
顶
部
、
腕
部
、
侧
面
视
角
)
,
重
命
名
为
OBS_IMAGE_1
、
OBS_IMAGE_2
、
OBS_IMAGE_3
,
对
于
额
外
视
图
保
留
顺
序
但
训
练
时
丢
弃
未
使
用
的
。
4. 方法
4.
方
法
同
步
推
理
4. 方法-异步推理
4.
方
法
-
异
步
推
理
当
∣At∣/n < g
时
,
进
行
动
作
预
测
4. 方法-异步推理
4.
方
法
-
异
步
推
理
g=0
存
在
空
闲
期
,
g=1
需
要
大
量
计
算
成
本
选
择
g ∈
(
0
,
1
)
可
以
在
反
应
性
与
资
源
预
算
之
间
取
得
平
衡
。
4. 方法-异步推理
4.
方
法
-
异
步
推
理
观
察
过
滤
在
RobotClient
捕
捉
到
环
境
新
观
测
后
,
会
先
将
该
观
测
与
历
史
观
测
在
关
节
空
间
中
进
行
相
似
度
比
较
,
若
两
者
距
离
小
于
预
设
阈
值
ε
,
则
判
定
为
近
重
复
观
测
并
将
其
丢
弃
,
仅
将
非
重
复
的
观
测
发
送
给
PolicyServer
进
行
推
理
;
仅
当
动
作
队
列
最
终
为
空
时
,
无
论
观
测
是
否
与
历
史
重
复
,
都
会
强
制
处
理
最
新
观
测
,
防
止
机
器
人
因
队
列
空
而
停
滞
。
5. 实验-实验设置
5.
实
验
-
实
验
设
置
模
拟
环
境
数
据
集
LIBERO
:
使
用
含
1,693
个
episode
的
公
开
数
据
集
,
覆
盖
4
类
共
40
个
任
务
(
Spatial
,
Object
,
Goal
,
Long
)
Meta-World
:
包
含
50
个
任
务
(
每
个
任
务
50
条
演
示
)
,
覆
盖
“
简
单
、
中
等
、
困
难
、
极
难
”
4
个
难
度
层
级
;
真
实
世
界
数
据
集
针
对
SO-100
采
集
3
个
数
据
集
,
针
对
SO-101
采
集
1
个
数
据
集
,
每
个
数
据
集
对
应
一
个
特
定
任
务
(
拾
取
-
放
置
、
堆
叠
、
分
类
)
;
每
个
数
据
集
包
含
5
种
不
同
起
始
位
置
的
演
示
,
每
种
位
置
10
条
轨
迹
,
总
计
50
条
演
示
。
5. 实验-评估
5.
实
验
-
评
估
模
拟
评
估
5. 实验-评估
5.
实
验
-
评
估
真
实
世
界
评
估
5. 实验-评估
5.
实
验
-
评
估
预
训
练
和
多
任
务
学
习
的
效
果
5. 实验-评估
5.
实
验
-
评
估
同
步
和
异
步
5. 实验-消融实验
5.
实
验
-
消
融
实
验
交
叉
注
意
力
与
自
注
意
力
双
向
注
意
力
和
因
果
注
意
力
5. 实验-消融实验
5.
实
验
-
消
融
实
验
使
用
早
期
LLM
层
行
动
专
家
的
隐
藏
维
度
大
小
5. 实验-消融实验
5.
实
验
-
消
融
实
验
回
归
与
流
匹
配
训
练
目
标
状
态
信
息
输
入
位
置
5. 实验-消融实验
5.
实
验
-
消
融
实
验
动
作
块
大
小
更
新
观
测
之
前
执
行
的
动
作
数
结论
本
文
推
出
了
一
种
紧
凑
、
高
效
、
轻
量
级
的
VLA
模
型
SmolVLA
,
该
模
型
在
消
费
级
硬
件
上
运
行
,
控
制
低
成
本
机
器
人
,
并
可
与
更
大
的
VLA
相
媲
美
。
SmolVLA
的
架
构
旨
在
在
不
影
响
成
功
率
的
情
况
下
实
现
高
效
的
训
练
和
推
理
。
此
外
,
我
们
还
提
出
了
一
种
异
步
推
理
堆
栈
,
可
以
在
现
实
世
界
的
作
任
务
中
实
现
更
快
的
适
应
和
响
应
能
力
。
此
推
理
策
略
与
模
型
无
关
,
可
以
与
输
出
作
块
的
任
何
策
略
集
成
。
我
们
的
工
作
得
到
了
对
所
提
出
架
构
的
彻
底
消
融
和
分
析
的
支
持
,
这
可
以
指
导
从
业
者
和
研
究
人
员
进
一
步
改
进
模
型
架
构
。
最
后
,
我
们
开
源
了
我
们
的
模
型
、
代
码
库
、
训
练
数
据
集
、
机
器
人
硬
件
,
并
提
供
了
详
细
的
说
明
,
以
促
进
完
全
的
可
重
复
性
。
结
论
局限性
数
据
集
大
小
和
多
样
性
。
数
据
集
包
含
大
约
23k
条
轨
迹
,
比
典
型
VLA
训
练
制
度
中
使
用
的
轨
迹
要
小
得
多
。
并
且
预
训
练
目
前
使
用
从
单
一
机
器
人
类
型
(
SO100
)
收
集
的
数
据
集
。
模
型
大
小
和
硬
件
效
率
。
SmolVLA
的
参
数
不
到
5
亿
个
,
可
以
在
消
费
级
硬
件
上
进
行
快
速
推
理
。
但
模
型
架
构
还
可
以
拓
展
。
VLM
主
干
网
的
选
择
。
本
文
选
择
的
SmolVLM
主
要
针
对
文
档
读
取
和
OCR
任
务
进
行
预
训
练
。
然
而
,
目
前
尚
不
清
楚
这
些
VLM
是
否
适
合
现
实
世
界
的
机
器
人
交
互
场
景
。
任
务
复
杂
性
和
更
长
的
视
野
。
虽
然
SmolVLA
在
相
对
简
单
和
短
期
任
务
上
有
效
竞
争
,
但
扩
展
方
法
以
解
决
长
期
问
题
仍
然
是
一
项
重
要
挑
战
。
纳
入
分
层
政
策
或
多
级
规
划
机
制
可
能
有
助
于
解
决
这
种
复
杂
性
。
局
限
性
谢谢!
计
算
机
与
大
数
据
学
院
Fuzhou University
谢
谢
!