AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models
计
算
机
与
大
数
据
学
院
Fuzhou University
AsyncVLA
: Asynchronous Flow Matching for
Vision-Language-Action Models
论
文
出
处
:
A
rXiv preprint
发
表
时
间
:
2025.11
作
者
: Yuhua Jiang, Shuang Cheng, Yan Ding, Feifei Gao, Biqing
Qi
作
者
单
位
:
清
华
大
学
,
上
海
AI
实
验
室
、
浙
江
大
学
汇
报
人
:
黄
玺
龙
日
期
:
20
26
-
4-1
AsyncVLA
:
视
觉
语
言
动
作
模
型
的
异
步
流
匹
配
1.摘要
1.
摘
要
视
觉
语
言
动
作
(
VLA
)
模
型
最
近
成
为
构
建
多
面
手
机
器
人
的
强
大
范
式
。
然
而
,
通
过
流
匹
配
(
FM
)
生
成
动
作
的
传
统
VLA
模
型
通
常
依
赖
于
严
格
和
统
一
的
时
间
表
,
即
同
步
FM
(
SFM
)
。
如
果
没
有
动
作
上
下
文
感
知
和
异
步
自
校
正
,
SFM
在
长
期
任
务
中
会
变
得
不
稳
定
,
其
中
单
个
动
作
错
误
可
能
会
级
联
为
失
败
。
因
此
本
文
提
出
了
异
步
流
匹
配
VLA
(
AsyncVLA
)
,
这
是
一
种
在
异
步
FM
(
AFM
)
中
引
入
时
间
灵
活
性
并
在
动
作
生
成
中
实
现
自
校
正
的
新
框
架
。
AsyncVLA
通
过
在
具
有
动
作
上
下
文
感
知
的
非
统
一
时
间
表
中
生
成
动
作
token
,
打
破
了
VLA
模
型
中
的
普
通
SFM
。
此
外
,
本
文
的
方
法
引
入
了
置
信
度
评
估
器
来
提
取
初
始
生
成
动
作
的
置
信
度
,
使
模
型
能
够
在
执
行
前
选
择
性
地
细
化
不
准
确
的
动
作
标
记
。
此
外
,
本
文
还
提
出
了
一
种
针
对
SFM
和
AFM
的
统
一
训
练
程
序
,
可
以
让
单
个
模
型
同
时
拥
有
这
两
种
模
式
,
从
而
提
高
了
KV
缓
存
的
利
用
率
。
对
机
器
人
操
纵
基
准
的
广
泛
实
验
表
明
,
AsyncVLA
具
有
数
据
效
率
和
自
校
正
能
力
。
并
且
AsyncVLA
由
于
其
在
AFM
中
的
异
步
生
成
,
在
一
般
体
现
评
估
中
实
现
了
最
先
进
的
结
果
。
2.引言
2.
引
言
训
练
能
够
集
成
感
知
、
语
言
和
低
级
控
制
的
多
面
手
机
器
人
策
略
仍
然
是
具
身
智
能
的
核
心
挑
战
之
一
。
尽
管
目
前
在
提
高
VLA
模
型
的
任
务
成
功
率
和
效
率
取
得
了
一
些
成
功
,
但
主
流
VLA
架
构
存
在
一
个
根
本
的
局
限
性
:
它
们
依
赖
于
僵
化
和
同
步
的
动
作
生
成
过
程
。
基
于
标
准
流
匹
配
(
FM
)
的
VLA
模
型
在
所
有
动
作
token
上
采
用
统
一
的
时
间
表
,
从
噪
声
到
最
终
动
作
同
步
生
成
它
们
,
即
同
步
FM
(
SFM
)
。
SFM
采
用
固
定
的
动
作
生
成
时
间
表
,
而
不
管
任
务
的
当
前
复
杂
性
或
模
型
的
内
部
置
信
度
。
如
果
不
利
用
动
作
上
下
文
信
息
和
自
校
正
机
制
,
单
个
不
准
确
的
动
作
预
测
可
能
会
级
联
成
不
可
恢
复
的
错
误
,
严
重
阻
碍
长
期
或
精
度
要
求
高
的
场
景
中
的
性
能
。
2.引言
2.
引
言
为
了
在
动
作
生
成
中
利
用
动
作
上
下
文
信
息
,
本
文
发
现
时
间
异
步
(
非
均
匀
和
动
态
地
决
定
动
作
生
成
时
间
表
的
能
力
)
是
解
锁
具
有
自
校
正
能
力
的
鲁
棒
机
器
人
控
制
的
关
键
。
异
步
流
匹
配
动
态
分
配
单
个
时
间
步
以
重
新
生
成
动
作
token
。
第
一
轮
生
成
的
动
作
会
提
供
上
下
文
信
息
,
允
许
在
第
二
轮
动
作
生
成
中
进
行
选
择
性
和
非
均
匀
的
自
校
正
,
细
化
可
能
不
准
确
的
动
作
,
从
而
实
现
自
我
纠
正
。
VLA
模
型
中
标
准
流
匹
配
和
异
步
流
匹
配
的
比
较
2.引言
2.
引
言
为
了
解
决
SFM
在
VLA
中
存
在
的
问
题
,
本
文
做
了
以
下
主
要
工
作
:
•
1
)
提
出
了
异
步
流
匹
配
VLA
(
AsyncVLA
)
,
这
是
一
种
新
的
VLA
框
架
,
采
用
初
始
SFM
和
后
续
的
异
步
FM
(
AFM
)
,
将
AFM
引
入
动
作
生
成
过
程
,
打
破
了
普
通
SFM
中
僵
化
和
同
步
的
时
间
表
。
•
2
)
提
出
了
一
种
置
信
度
评
估
器
,
用
于
评
估
SFM
生
成
的
每
个
动
作
token
的
置
信
度
。
AsyncVLA
利
用
这
些
置
信
度
信
号
触
发
异
步
自
校
正
,
使
模
型
能
够
在
执
行
之
前
有
选
择
地
重
新
访
问
和
改
进
其
行
动
计
划
的
低
置
信
度
部
分
。
而
具
有
相
对
较
高
置
信
度
的
动
作
提
供
了
有
助
于
纠
正
具
有
相
对
较
低
置
信
度
的
行
动
的
上
下
文
信
息
•
3
)
通
过
在
模
拟
机
器
人
任
务
中
的
大
量
实
验
证
明
,
AsyncVLA
增
强
了
模
型
对
第
一
轮
大
偏
差
错
误
动
作
的
鲁
棒
性
,
与
最
先
进
的
VLA
模
型
相
比
,
显
著
提
高
了
任
务
成
功
率
3.相关工作
3.
相
关
工
作
(1)VLA
模
型
VLA
模
型
使
视
觉
语
言
模
型
(
VLM
)
主
干
适
应
将
视
觉
输
入
和
自
然
语
言
指
令
映
射
到
低
级
机
器
人
动
作
。
早
期
VLA
模
型
采
用
具
有
离
散
化
动
作
标
记
的
自
回
归
解
码
。
受
VLM
中
CoT
的
启
发
,
CoT
VLA
和
FlowVLA
在
预
测
短
动
作
块
之
前
,
将
未
来
的
子
目
标
图
像
生
成
为
视
觉
CoT
,
这
增
强
了
长
目
标
的
成
功
率
和
可
解
释
性
。
为
了
提
高
推
理
效
率
,
OpenVLA
OFT
引
入
了
并
行
解
码
和
分
块
控
制
,
实
现
了
高
吞
吐
量
和
强
性
能
。
对
于
连
续
动
作
建
模
,
π0
、
π0.5
、
WALL-OSS
和
EO-1
利
用
FM
生
成
动
作
,
但
这
些
模
型
采
用
基
于
SFM
的
同
步
生
成
调
度
。
为
了
超
越
SFM
中
固
定
步
长
和
同
步
调
度
的
限
制
,
本
文
提
出
了
AsyncVLA
,
它
将
AFM
与
置
信
度
驱
动
的
自
校
正
相
结
合
,
仅
在
必
要
时
才
启
用
校
准
动
作
再
生
。
3.相关工作
3.
相
关
工
作
(2)
VLA
模
型
中
的
自
校
正
在
最
近
的
VLA
模
型
中
引
入
了
自
校
正
机
制
,
以
提
高
任
务
成
功
率
。
CollabVLA
将
自
校
正
推
理
与
基
于
扩
散
的
动
作
生
成
相
结
合
,
并
在
不
确
定
性
下
主
动
寻
求
人
类
指
导
。
无
需
人
为
干
预
,
ReflectVLM
结
合
了
基
于
扩
散
的
想
象
测
试
时
间
反
射
,
迭
代
修
改
长
期
计
划
。
SC-VLA
将
快
速
动
作
头
与
慢
速
自
校
正
模
块
相
结
合
,
以
在
一
个
策
略
中
检
测
故
障
并
发
布
修
复
程
序
。
RB-VLA
使
用
双
路
径
回
路
,
即
故
障
驱
动
的
RL
与
成
功
驱
动
的
监
督
微
调
(
SFT
)
相
结
合
,
用
于
自
主
的
原
位
适
应
。
基
于
DLLM
,
离
散
扩
散
VLA
在
单
个
变
换
器
内
应
用
掩
码
令
牌
去
噪
来
生
成
动
作
块
,
这
允
许
自
适
应
解
码
和
二
次
重
映
射
以
进
行
纠
错
。
LLaDA
VLA
、
dVLA
和
UD-VLA
采
用
多
模
态
CoT
,
并
引
入
前
缀
注
意
和
KV
缓
存
等
加
速
技
术
来
实
现
实
时
控
制
。
上
述
工
作
主
要
关
注
离
散
动
作
token
生
成
中
的
自
校
正
。
为
了
在
没
有
人
类
监
督
或
大
型
奖
励
模
型
的
情
况
下
,
在
连
续
动
作
生
成
中
增
强
模
型
的
自
校
正
能
力
,
AsyncVLA
引
入
了
一
个
具
有
SFM
和
AFM
生
成
的
统
一
模
型
,
通
过
置
信
度
引
导
的
再
生
来
增
强
模
型
的
自
我
校
正
能
力
。
4.模型-概述
4.
模
型
-
概
述
SFM
生
成
一
个
完
整
的
动
作
块
--->
Confidence
Rater
评
估
SFM
生
成
的
动
作
块
(
置
信
度
高
标
记
0/
低
标
记
为
1) ---> AFM
局
部
重
新
去
噪
(
标
记
0
作
为
Context
,
标
记
1
重
新
FM
)
4.模型-1
4.
模
型
-1
异
步
流
匹
配
(
Asynchronous Flow Matching
)
本
文
将
机
器
人
策
略
制
定
为
VLM
骨
干
和
FM
动
作
头
协
同
结
构
中
的
VLA
模
型
。
该
模
型
可
以
灵
活
地
生
成
长
度
为
L
的
连
续
动
作
块
。
流
匹
配
中
,
网
络
的
输
出
是
“
速
度
”
(
Velocity
)
动
作
生
成
的
FM
速
度
可
以
表
示
为
:
ot: t
时
刻
观
测
图
像
和
机
器
人
状
态
,
l:
任
务
指
令
:
时
间
τ
处
的
部
分
去
噪
动
作
块
。
V
:
表
示
VLM
模
型
4.模型-1
4.
模
型
-1
异
步
流
匹
配
推
理
(
Asynchronous Flow Matching
)
在
AFM
推
理
过
程
中
,
模
型
屏
蔽
了
SFM
生
成
的
部
分
动
作
标
记
,
其
位
置
由
掩
码
m∈RL
表
示
。
如
果
相
应
的
动
作
标
记
被
屏
蔽
,
则
m
的
元
素
为
1
,
否
则
为
0
。
在
AFM
生
成
中
,
未
屏
蔽
的
令
牌
(
0
)
保
持
不
变
,
而
屏
蔽
的
令
牌
(
1
)
则
使
用
正
向
Euler
规
则
进
行
更
新
:
4.模型-1
4.
模
型
-1
异
步
时
间
嵌
入
模
块
(
Time
Embedding
)
为
了
在
Transformer
区
分
掩
码
和
未
掩
码
的
动
作
token
,
本
文
提
出
了
异
步
时
间
嵌
入
模
块
。
将
VLM
隐
态
的
维
数
表
示
为
d
1.
在
FM
时
间
τ
,
首
先
应
用
正
弦
编
码
函
数
s
(
·
)
将
τ
m
映
射
到
异
步
时
间
嵌
入
矩
阵
2.
沿
着
最
后
一
个
维
度
将
S
(
τ
m
)
和
线
性
投
影
的
噪
声
作
用
P
(
ˆ
a
τ
t:t+L
)
∈
RL×d
连
接
起
来
,
得
到
3.
最
后
,
利
用
多
层
感
知
器
(
MLP
)
将
h
τ
t:t+
投
影
到
异
步
时
间
嵌
入
动
作
隐
藏
状
态
ˆ
x
τ
t:t+L∈RL×d
。
在
与
VLM
相
同
的
隐
藏
维
度
下
,
可
以
将
ˆ
x
τ
t:t+L∈RL×d
发
送
到
VLM
的
transformer
骨
干
中
。
4.
VLM
的
Transformer
骨
干
网
络
在
进
行
全
注
意
力
(
Full
Attention
)
计
算
时
,
能
够
识
别
不
同
动
作
token
之
间
所
处
的
不
同
去
噪
阶
段
。
”
4.模型-1
4.
模
型
-1
SFM
和
AFM
的
统
一
训
练
为
了
使
用
单
个
模
型
来
实
现
SFM
和
AFM
推
理
,
本
文
提
出
了
一
种
统
一
的
训
练
过
程
,
VLM
骨
干
和
FM
头
通
过
最
小
化
以
下
屏
蔽
token
上
的
端
到
端
AFM
速
度
预
测
损
失
来
联
合
训
练
ut:t+L
表
示
高
斯
噪
声
下
的
真
实
速
度
值
,
a
τ
t:t+L
表
示
中
间
异
步
噪
声
作
用
,
4.模型-1
4.
模
型
-1
SFM
和
AFM
的
统
一
训
练
4.模型-2
4.
模
型
-2
置
信
度
评
估
器
(
Confidence
Rater
)
由
于
SFM
生
成
的
动
作
不
提
供
指
示
模
型
置
信
度
的
直
接
信
号
,
因
此
需
要
有
意
设
计
置
信
度
评
估
器
的
伪
标
签
。
本
文
首
先
计
算
SFM
生
成
的
动
作
块
的
均
方
误
差
(
MSE
)
,
记
为
et:t+L
。
其
中
α
和
β
是
控
制
伪
标
签
区
域
的
超
参
数
,
ε
是
一
个
小
标
量
,
防
止
分
母
为
0
,
max{el}
和
min{el}
分
别
表
示
动
作
块
中
的
最
大
和
最
小
MSE
。
在
训
练
置
信
度
评
估
器
时
,
设
置
α=0.01
,
β=0.98
,
ε=1×10−6
,
将
损
失
函
数
设
置
为
置
信
度
评
估
器
输
出
pl:t+l
和
qt:t+L
之
间
的
MSE
。
计
算
Loss
并
反
向
传
播
4.模型-2
4.
模
型
-2
置
信
度
评
估
器
(
Confidence
Rater
)
由
于
AsyncVLA
缺
少
用
于
actiontoken
逻
辑
的
专
用
输
出
头
,
因
此
很
难
根
据
token
概
率
直
接
估
计
模
型
的
置
信
度
因
此
,
本
文
单
独
设
计
了
一
个
置
信
度
评
估
器
来
估
计
动
作
的
置
信
度
。
置
信
度
评
估
器
将
VL
标
记
的
嵌
入
以
及
SFM
生
成
的
第
一
轮
动
作
作
为
输
入
,
并
将
第
L
个
动
作
标
记
的
置
信
度
评
估
为
4.模型-2
4.
模
型
-2
置
信
度
评
估
器
(
Confidence
Rater
)
置
信
度
评
估
器
由
几
个
transformer
层
和
一
个
作
为
其
速
率
头
的
最
终
线
性
层
组
成
。
总
共
有
308
M
个
参
数
,
占
整
个
VLA
模
型
总
4.08
B
个
参
数
的
7.56%
。
使
用
线
性
层
将
动
作
token
投
影
到
VL
token
的
嵌
入
空
间
中
。
transformer
层
应
用
full
attention
,
从
而
可
以
根
据
VL
信
息
和
评
估
的
动
作
token
之
前
或
之
后
的
上
下
文
动
作
来
计
算
置
信
度
。
速
率
头
将
隐
藏
状
态
投
影
到
标
量
上
,
并
使
用
Sigmoid
函
数
生
成
pl
。
使
用
pl
,
我
们
生
成
掩
码
的
第
l
个
元
素
如
下
:
其
中
1{·}
是
指
示
符
函
数
,
T∈
(
0,1
)
是
控
制
掩
码
token
数
量
的
预
定
义
阈
值
,
设
定
为
0.5
。
如
此
就
能
够
根
据
动
作
的
置
信
度
对
自
适
应
数
量
的
动
作
标
记
进
行
掩
码
5.实验
5.
实
验
在
本
节
中
,
本
文
采
用
Qwen2.5-VL-3BInstruct
作
为
VLM
骨
干
,
并
用
FM
动
作
头
和
置
信
度
评
估
器
对
其
进
行
增
强
。
AsyncVLA
在
Open
X-Implementation
数
据
集
上
进
行
了
预
训
练
,
随
后
针
对
相
应
数
据
集
上
的
不
同
评
估
任
务
进
行
了
微
调
,
包
括
LIBERO
、
Bridge-V2
和
Fractal
。
训
练
环
境
:
预
训
练
环
境
:
4
个
H200
GPU
节
点
(
每
个
节
点
8
个
GPU
)
微
调
环
境
:
具
有
8
个
GPU
的
单
个
H200GPU
节
点
5.实验
5.
实
验
Libero
基
准
上
的
四
个
任
务
5.实验
5.
实
验
在
Bridge-
V2
数
据
集
微
调
后
WidowX
基
准
上
的
四
个
任
务
在
Fractal
数
据
集
上
进
一
步
微
调
后
,
Google
Robot
基
准
上
的
四
个
任
务
5.消融实验
5.
消
融
实
验
在
WidowX
基
准
上
的
四
个
任
务
进
行
了
消
融
研
究
w/o
Unified
Training:
意
味
着
在
算
法
2
中
没
有
统
一
训
练
阶
段
,
并
以
与
普
通
SFM
模
型
相
同
的
方
式
训
练
统
一
的
AFM
和
SFM
模
型
w/o AFM Inference:
是
指
没
有
AFM
的
自
校
正
阶
段
,
仅
使
用
SFM
生
成
预
测
动
作
;
w/o
Confidence
Rater:
在
没
有
置
信
度
评
估
器
的
情
况
下
,
随
机
生
成
AFM
的
掩
码
,
其
中
每
个
动
作
标
记
被
掩
码
的
概
率
等
于
0.5
;
6.结论
6.
结
论
本
文
介
绍
了
AsyncVLA
,
这
是
一
个
新
的
框
架
,
它
将
动
作
生
成
重
新
定
义
为
一
个
两
阶
段
的
、
有
信
心
的
过
程
。
AsyncVLA
在
AFM
中
自
适
应
地
调
度
时
间
步
长
,
而
不
是
使
用
固
定
数
量
的
统
一
去
噪
步
骤
。
此
外
,
我
们
提
出
了
AsyncVLA
中
的
置
信
度
评
估
器
,
用
于
估
计
每
个
动
作
token
的
相
对
置
信
度
。
此
外
,
本
文
提
出
了
一
种
针
对
SFM
和
AFM
的
统
一
训
练
过
程
,
该
过
程
赋
予
单
个
模
型
两
种
模
式
,
并
提
高
了
KV
-
cache
的
利
用
率
。
通
过
上
述
改
进
,
AsyncVLA
可
以
动
态
地
重
新
考
虑
其
最
初
生
成
的
动
作
token
,
将
额
外
的
再
生
和
异
步
自
校
正
集
中
在
每
个
动
作
块
的
低
置
信
度
组
件
上
。
并
且
本
文
广
泛
的
实
验
表
明
,
AsyncVLA
在
一
般
的
具
体
化
评
估
中
实
现
了
最
先
进
的
性
能
。
谢谢!
谢
谢
!
此站点暂不提示
近期不再提示