Efficient Decision-based Black-box Patch Attacks on Video Recognition
计
算
机
与
大
数
据
学
院
Fuzhou University
Efficient Decision-based Black-box Patch
Attacks on Video Recognition
论
文
出
处
:IEEE International Conference on Computer Vision(ICCV)
发
表
时
间
:2023
年
8
月
作
者
:Kaixun Jiang, Zhaoyu Chen,Hao Huang,Jiafeng Wang
Dingkang Yang, Bo Li, Yan Wang, Wenqiang Zhang
作
者
单
位
:Academy for Engineering and Technology, Fudan University
汇
报
人
:
谢
颖
波
日
期
:
2025-12-11
视
频
识
别
中
高
效
的
基
于
决
策
的
黑
盒
补
丁
攻
击
1.摘要
1.
摘
要
尽
管
深
度
神
经
网
络
(DNN)
表
现
出
了
很
好
的
性
能
,
但
它
们
很
容
易
受
到
敌
意
扰
动
的
攻
击
,
但
是
我
们
寻
找
扰
动
一
般
需
要
获
得
模
型
的
梯
度
,
特
征
,
置
信
度
,
概
率
分
布
,
日
志
等
信
息
来
进
行
方
向
的
引
导
,
对
于
基
于
决
策
的
攻
击
(
攻
击
者
仅
通
过
查
询
威
胁
模
型
来
访
问
预
测
的
硬
标
签
)
在
视
频
模
型
上
也
没
有
得
到
很
好
的
探
索
,
即
使
它
们
在
现
实
世
界
的
视
频
识
别
场
景
中
是
实
用
的
。
为
此
作
者
提
出
了
一
种
时
空
差
异
进
化
(STDE)
框
架
来
添
加
补
丁
。
实
验
表
明
,
STDE
在
威
胁
、
效
率
和
不
可
见
性
方
面
都
表
现
出
了
最
先
进
的
性
能
。
2.相关工作
2.
相
关
工
作
在
基
于
决
策
的
攻
击
中
,
我
们
只
能
访
问
模
型
最
终
的
输
出
标
签
来
判
断
是
否
攻
击
成
功
,
所
以
一
般
我
们
攻
击
的
起
点
是
一
个
能
够
100%
成
功
的
样
本
,
再
逐
渐
优
化
不
可
见
性
3.符号定义
3.
符
号
定
义
我
们
将
干
净
视
频
表
示
为
x∈R
T
×
H
×
W
×
C
,
其
对
应
的
标
签
y∈Y={1
,
2
,
···
,
K}
,
其
中
T
、
H
、
W
、
C
、
K
分
别
表
示
帧
的
长
度
、
高
度
、
宽
度
、
通
道
、
类
数
。
我
们
将
视
频
识
别
模
型
表
示
为
F(·)
。
在
基
于
决
策
的
环
境
下
,
我
们
不
能
得
到
F(·)
的
内
部
信
息
,
F(·)
只
输
出
第
一
类
y
˜
∈Y
,
即
F(x)=y
˜
。
在
补
丁
攻
击
环
境
中
,
我
们
引
入
了
添
加
在
干
净
视
频
帧
上
的
视
频
对
抗
性
补
丁
来
欺
骗
视
频
识
别
模
型
。
它
由
扰
动
δ∈R
T
×
H
×
W
×
C
和
掩
码
矩
阵
M∈{0
,
1}
T
×
H
×
W
组
成
。
δ
决
定
补
丁
的
纹
理
,
M
决
定
视
频
补
丁
的
数
量
、
形
状
和
位
置
。
对
抗
性
视
频
x
adv
表
示
:
3.符号定义
3.
符
号
定
义
结
合
基
于
补
丁
的
攻
击
和
基
于
决
策
的
设
置
,
我
们
的
攻
击
目
标
考
虑
了
两
个
优
化
问
题
。
一
方
面
,
我
们
希
望
xadv
能
够
成
功
地
欺
骗
视
频
识
别
模
型
F(·)
,
即
对
于
非
目
标
攻
击
,
F(X
adv
)≠y
;
对
于
目
标
攻
击
,
F(X
adv
)=y
adv
,
其
中
y
adv
表
示
我
们
分
配
的
目
标
标
签
,
而
不
等
于
y
。
另
一
方
面
,
我
们
优
化
了
对
抗
性
补
丁
面
积
,
使
其
尽
可
能
小
。
面
片
面
积
受
l0
范
数
的
约
束
。
我
们
的
攻
击
(
例
如
,
有
针
对
性
的
攻
击
)
可
以
表
述
如
下
4.模型-概述
4.
模
型
-
概
述
给
出
一
段
标
记
为
冲
浪
的
干
净
视
频
和
一
段
标
记
为
台
球
的
目
标
视
频
。
STDE
通
过
种
群
初
始
化
产
生
N
个
种
群
。
每
个
种
群
v
由
面
片
的
位
置
集
合
P
和
关
键
帧
二
进
制
序
列
Fk
组
成
。
然
后
,
在
空
域
和
时
间
域
上
,
通
过
变
异
和
交
叉
,
随
机
选
择
vi
、
vj
和
最
佳
种
群
vBest
来
生
成
新
的
种
群
vnew
。
然
后
,
我
们
使
用
适
应
度
函
数
来
判
断
是
否
引
入
vnew
。
最
终
的
对
抗
性
视
频
可
以
预
测
为
具
有
最
小
补
丁
面
积
的
台
球
视
频
。
4.稀疏空间与时间
4.
稀
疏
空
间
与
时
间
将
一
个
与
x
不
同
标
签
的
视
频
(
如
果
是
目
标
攻
击
则
是
目
标
标
签
对
应
的
视
频
)
作
为
我
们
的
补
丁
选
择
,
我
们
通
过
M
这
个
掩
码
矩
阵
,
从
x
tar
中
选
择
部
分
区
域
P
加
入
到
原
视
频
中
为
了
进
一
步
减
少
参
数
,
作
者
在
时
间
域
选
择
关
键
帧
,
只
在
关
键
帧
上
添
加
对
抗
性
补
丁
。
具
体
地
说
,
我
们
对
视
频
序
列
进
行
二
进
制
编
码
FK
,
关
键
帧
向
量
FK
与
贴
片
位
置
区
域
P
一
样
,
是
每
个
个
体
v
的
一
部
分
,
共
同
参
与
进
化
过
程
至
此
,
生
成
一
个
对
抗
视
频
的
问
题
,
被
转
化
为
寻
找
一
组
最
优
的
参
数
组
合
:
(
矩
形
框
坐
标
P((p0,p1),(p2,p3))
,
关
键
帧
序
列
FK)
4.进化算法-初始
4.
进
化
算
法
-
初
始
初
始
化
:
建
立
一
个
“
成
功
的
攻
击
者
”
种
群
这
是
整
个
攻
击
的
起
点
。
算
法
随
机
生
成
N
组
不
同
的
(
矩
形
框
坐
标
,
关
键
帧
序
列
)
参
数
。
初
始
补
丁
大
小
(
0.4
)
,
初
始
关
键
帧
比
例
(
0.6
非
目
标
,
0.7
目
标
)
,
N
为
15
对
每
一
组
参
数
,
将
其
应
用
到
原
始
视
频
上
生
成
候
选
对
抗
视
频
,
并
向
黑
盒
模
型
查
询
结
果
。
关
键
:
只
保
留
那
些
已
经
能
够
成
功
欺
骗
模
型
的
参
数
组
(
即
模
型
分
类
错
误
)
,
构
成
初
始
“
种
群
”
,
失
败
的
种
群
不
会
参
与
后
面
的
进
化
。
这
些
初
始
贴
片
可
能
面
积
大
、
位
置
差
,
但
它
们
都
满
足
了
攻
击
成
功
的
首
要
条
件
。
4.进化算法-进化
4.
进
化
算
法
-
进
化
a.
评
估
适
应
度
:
为
种
群
中
的
每
个
个
体
(
即
每
组
参
数
)
计
算
一
个
“
适
应
度
”
分
数
。
这
个
分
数
由
适
应
度
函
数
给
出
。
4.进化算法-进化
4.
进
化
算
法
-
进
化
b.
变
异
:
从
种
群
中
随
机
挑
选
两
个
个
体
A
和
B
,
再
选
出
当
前
适
应
度
最
好
的
个
体
Best
。
生
成
一
个
新
个
体
的
“
基
因
”
:
新
坐
标
= Best
的
坐
标
+
缩
放
系
数
* (A
的
坐
标
- B
的
坐
标
),γ = 1
新
关
键
帧
序
列
= Best
的
序
列
交
上
(A
的
序
列
与
B
的
序
列
的
并
集
)
4.进化算法-进化
4.
进
化
算
法
-
进
化
c.
交
叉
:
对
变
异
产
生
的
新
个
体
参
数
进
行
随
机
微
扰
。
空
间
交
叉
:
对
矩
形
坐
标
进
行
±1
像
素
的
随
机
抖
动
,
增
加
探
索
性
。
时
间
交
叉
:
随
机
翻
转
新
关
键
帧
序
列
中
的
α
帧
(
如
将
某
帧
从
贴
片
改
为
不
贴
片
,
或
反
之
)
。
非
目
标
:
α
=1
,
目
标
:
α
=2
目
的
:
防
止
算
法
过
早
陷
入
局
部
最
优
解
,
帮
助
跳
出
当
前
的
优
化
“
舒
适
区
”
。
d.
选
择
:
用
“
优
胜
劣
汰
”
规
则
更
新
种
群
。
计
算
新
生
成
个
体
的
适
应
度
。
如
果
它
比
当
前
种
群
中
最
差
的
个
体
更
好
,
则
用
这
个
新
个
体
替
换
掉
最
差
个
体
;
否
则
,
种
群
保
持
不
变
。
我
们
进
化
算
法
需
要
访
问
模
型
,
访
问
预
算
为
非
目
标
:
10000
,
目
标
50000
。
如
果
长
时
间
没
有
改
进
,
则
可
以
提
前
退
出
5.实验-数据集
5.
实
验
-
数
据
集
数
据
集
。
我
们
选
择
了
两
个
流
行
的
数
据
集
进
行
视
频
识
别
:
UCF-101
和
Kinetics-400
。
UCF-101
包
含
101
个
类
别
的
13,320
个
视
频
剪
辑
。
Kinetics-400
包
括
400
个
类
别
,
其
中
约
24
万
个
视
频
片
段
用
于
训
练
,
约
2
万
个
视
频
片
段
用
于
验
证
。
视
频
识
别
模
型
。
我
们
选
择
了
三
个
流
行
的
模
型
作
为
我
们
的
威
胁
模
型
,
C3D
、
NL
和
TPN
。
在
UCF-101
上
,
C3D
、
NL
和
TPN
的
准
确
率
分
别
为
86.3%
、
74.4%
和
84.1%
,
而
在
Kinetics-400
上
,
准
确
率
分
别
为
54.3%
、
74.8%
和
77.3%
。
指
标
。
1)
成
功
率
(FR)
:
视
频
被
攻
击
成
功
的
比
例
(%)
。
2)
平
均
遮
挡
面
积
(AOA)
:
补
丁
遮
挡
的
面
积
占
视
频
总
面
积
的
百
分
比
。
3)
显
著
区
域
的
平
均
遮
挡
面
积
(AOA*)
:
显
著
区
域
内
斑
块
遮
挡
的
百
分
比
(%)
。
4)
平
均
查
询
次
数
(AQN)
:
所
有
视
频
的
平
均
查
询
次
数
。
5.实验-对比方法
5.
实
验
-
对
比
方
法
TPA (Texture-based Patch Attack)
:
使
用
强
化
学
习
(
RL
)
框
架
来
优
化
补
丁
的
位
置
和
形
状
。
代
理
(
Agent
)
根
据
模
型
反
馈
的
置
信
度
分
数
(
如
目
标
类
的
概
率
)
来
获
得
奖
励
,
并
学
习
如
何
放
置
补
丁
。
(
文
章
改
为
只
使
用
硬
标
签
)
Patch-RS (Patch Random Search)
:
在
每
一
轮
迭
代
中
,
随
机
提
议
对
当
前
补
丁
进
行
一
个
小
的
修
改
(
例
如
,
移
动
一
个
角
点
、
改
变
颜
色
)
。
如
果
这
个
修
改
提
高
了
攻
击
目
标
(
例
如
,
降
低
了
真
实
类
的
置
信
度
或
提
高
了
目
标
类
的
置
信
度
)
,
则
接
受
该
修
改
;
否
则
,
以
一
定
概
率
拒
绝
。
(
文
章
改
为
只
使
用
硬
标
签
)
5.实验-对比方法
5.
实
验
-
对
比
方
法
AdvW (Adversarial Watermark)
:
Bash Hopping
Evolution
这
是
一
种
启
发
式
全
局
优
化
算
法
,
旨
在
跳
出
局
部
最
优
。
它
通
过
在
不
同
“
盆
地
”
(
即
局
部
最
优
区
域
)
之
间
进
行
随
机
“
跳
跃
”
,
并
结
合
局
部
搜
索
来
寻
找
全
局
最
优
解
。
(
文
章
改
为
只
使
用
硬
标
签
)
BSCA (Bullet-Screen Comments Attack)
补
丁
被
建
模
为
若
干
条
半
透
明
的
、
带
有
文
字
或
颜
色
的
弹
幕
条
,
强
化
学
习
框
架
:
使
用
一
个
复
杂
的
强
化
学
习
框
架
来
训
练
一
个
代
理
,
该
代
理
学
习
如
何
投
放
弹
幕
。
奖
励
信
号
基
于
模
型
预
测
置
信
度
的
变
化
。
(
文
章
同
时
使
用
硬
标
签
BSCA
和
置
信
度
BSCA*
)
5.实验-结果对比
5.
实
验
-
结
果
对
比
5.实验-消融实验
5.
实
验
-
消
融
实
验
使
用
l0
还
是
l2
范
数
是
否
进
行
交
叉
操
作
使
用
目
标
视
频
,
高
斯
噪
音
,
单
色
色
块
作
为
补
丁
5
个
不
同
的
目
标
视
频
进
行
攻
击
6.结论
6.
结
论
本
文
研
究
了
视
频
识
别
模
型
在
一
种
新
的
攻
击
环
境
--
基
于
决
策
的
补
丁
攻
击
环
境
下
的
脆
弱
性
。
为
了
在
这
种
新
的
攻
击
环
境
下
实
现
查
询
高
效
的
攻
击
,
我
们
提
出
了
一
种
简
单
而
有
效
的
时
空
差
异
进
化
算
法
(STDE)
框
架
。
大
量
的
实
验
表
明
,
STDE
在
威
胁
和
不
可
感
知
性
方
面
达
到
了
最
好
的
性
能
,
而
且
代
价
低
,
查
询
效
率
高
。
谢谢!
计
算
机
与
大
数
据
学
院
Fuzhou University
谢
谢
!