SVRG-AALR: Stochastic Variance-Reduced Gradient Methodwith Adaptive Alternating Learning Rate for Training DeepNeural Networks
计
算
机
与
大
数
据
学
院
Fuzhou University
SVRG-AALR: Stochastic Variance-Reduced Gradient Method
with Adaptive Alternating Learning Rate for Training Deep
Neural Networks
SVRG-AALR
:
用
于
训
练
深
度
神
经
网
络
的
自
适
应
交
替
学
习
率
随
机
方
差
梯
度
降
低
方
法
论
文
出
处
:
Electronics
发
表
时
间
:
2025
年
7
月
作
者
:
Shiyun Zou , Hua Qin , Guolin Yang
,
Pengfei Wang
作
者
单
位
:
广
西
大
学
计
算
机
电
子
信
息
学
院
汇
报
人
:
林
哲
日
期
:
2025-9-1
1.摘要
1.
摘
要
随
机
方
差
缩
减
梯
度
(
SVRG
)
理
论
特
别
适
用
于
解
决
深
度
神
经
网
络
(
DNN
)
训
练
中
的
梯
度
方
差
问
题
,
但
其
在
DNN
训
练
中
的
直
接
应
用
受
限
于
适
应
性
挑
战
。
为
解
决
这
一
问
题
,
提
出
了
一
系
列
以
自
适
应
交
替
学
习
率
为
核
心
的
策
略
,
有
效
实
现
SVRG
在
DNN
训
练
中
的
适
应
性
改
进
。
首
先
,
在
SVRG
的
外
层
循
环
中
,
同
步
计
算
完
整
梯
度
和
DNN
训
练
专
用
学
习
率
。
针
对
两
种
不
同
的
学
习
率
计
算
公
式
,
引
入
交
替
策
略
在
迭
代
过
程
中
轮
换
使
用
,
从
而
在
DNN
权
重
更
新
时
同
步
提
供
参
数
变
化
率
与
梯
度
变
化
率
的
差
异
化
指
导
信
息
。
此
外
,
采
用
阈
值
方
法
将
学
习
率
校
正
至
合
适
区
间
,
从
而
加
速
收
敛
。
其
次
,
在
SVRG
的
内
层
循
环
中
,
采
用
小
批
量
平
均
梯
度
与
所
提
学
习
率
更
新
DNN
权
重
,
同
时
通
过
惯
性
策
略
将
内
层
循
环
每
次
迭
代
产
生
的
小
批
量
平
均
梯
度
精
炼
聚
合
为
单
一
方
差
缩
减
梯
度
,
并
将
其
反
馈
至
外
层
循
环
以
重
新
计
算
新
学
习
率
。
通
过
在
LeNet
、
VGG11
、
ResNet34
和
DenseNet121
等
模
型
上
的
实
验
验
证
,
并
与
多
种
经
典
及
先
进
优
化
器
对
比
表
明
:
所
提
出
算
法
在
不
同
特
性
的
DNN
模
型
中
均
展
现
出
卓
越
的
表
现
。
在
训
练
收
敛
性
方
面
,
与
谷
歌
大
脑
团
队
开
发
的
Lion
等
前
沿
算
法
相
比
具
有
显
著
竞
争
力
。
2.引言
2.
引
言
深
度
学
习
在
计
算
机
视
觉
、
自
然
语
言
处
理
、
医
疗
健
康
、
建
筑
、
机
械
、
农
业
以
及
电
力
系
统
等
多
个
领
域
具
有
广
泛
应
用
。
深
度
神
经
网
络
(
DNN
)
的
训
练
过
程
涉
及
利
用
训
练
样
本
和
优
化
方
法
,
以
确
定
DNN
模
型
的
最
优
参
数
。
这
一
过
程
使
模
型
能
够
有
效
捕
捉
训
练
集
的
特
征
,
最
终
得
到
一
个
适
用
于
预
测
和
分
类
等
任
务
的
经
过
训
练
后
的
DNN
。
为
适
应
大
规
模
数
据
集
,
DNN
训
练
通
常
采
用
随
机
优
化
算
法
,
例
如
随
机
梯
度
下
降
(
SGD
)
和
Adam
。
这
些
算
法
通
过
每
次
迭
代
中
随
机
抽
取
一
个
或
一
个
小
批
量
样
本
更
新
DNN
模
型
,
从
而
提
高
训
练
效
率
。
然
而
,
这
种
随
机
采
样
可
能
导
致
训
练
算
法
在
迭
代
过
程
中
产
生
显
著
的
梯
度
方
差
。
此
类
方
差
会
导
致
训
练
过
程
中
的
振
荡
,
并
降
低
解
的
质
量
,
从
而
对
DNN
模
型
的
性
能
产
生
不
利
影
响
。
因
此
,
减
少
DNN
训
练
中
的
梯
度
方
差
仍
是
当
前
深
度
学
习
研
究
的
重
要
方
向
。
2.引言
2.
引
言
近
年
来
,
已
开
发
出
多
种
旨
在
减
少
梯
度
方
差
的
算
法
,
其
中
随
机
平
均
梯
度
(
SAG
)
和
随
机
方
差
缩
减
梯
度
(
SVRG
)
是
突
出
代
表
。
SAG
方
法
保
留
每
个
样
本
的
最
新
梯
度
,
随
后
通
过
平
均
所
有
样
本
的
梯
度
来
更
新
权
重
参
数
,
从
而
减
轻
梯
度
估
计
的
方
差
。
但
该
方
法
需
要
存
储
每
个
样
本
的
梯
度
,
在
处
理
大
规
模
数
据
集
时
可
能
导
致
显
著
的
内
存
开
销
。
相
反
,
SVRG
算
法
在
外
层
循
环
迭
代
中
计
算
一
次
完
整
梯
度
,
并
在
内
层
循
环
中
利
用
该
完
整
梯
度
调
整
并
随
机
选
取
样
本
的
当
前
梯
度
。
这
一
过
程
有
效
减
少
了
随
机
样
本
梯
度
的
方
差
。
值
得
注
意
的
是
,
SVRG
仅
需
存
储
当
前
完
整
梯
度
的
值
,
与
SAG
相
比
内
存
开
销
更
小
,
使
其
更
适
用
于
大
规
模
问
题
。
SVRG
及
其
变
体
在
机
器
学
习
领
域
的
应
用
已
有
记
录
。
然
而
,
现
有
研
究
主
要
集
中
于
逻
辑
回
归
(
LR
)
和
支
持
向
量
机
(
SVM
)
模
型
。
这
些
研
究
的
结
果
表
明
,
使
用
SVRG
训
练
的
机
器
学
习
模
型
表
现
出
显
著
的
训
练
收
敛
性
和
分
类
性
能
。
相
反
,
直
接
将
SVRG
应
用
于
DNN
训
练
效
果
不
佳
,
其
性
能
甚
至
不
如
SGD
。
SVRG
的
理
论
优
势
在
DNN
训
练
中
尚
未
得
到
充
分
发
挥
。
显
然
,
SVRG
理
论
在
深
度
学
习
领
域
面
临
的
主
要
挑
战
在
于
如
何
适
应
这
些
复
杂
性
。
2.引言
2.
引
言
这
是
一
套
以
自
适
应
交
替
学
习
率
(
AALR
)
为
核
心
的
策
略
,
使
SVRG
适
应
DNN
训
练
,
最
终
开
发
出
SVRG-
AALR
算
法
。
主
要
贡
献
包
括
以
下
方
面
:
(
i
)
在
SVRG
的
外
层
循
环
中
,
计
算
DNN
训
练
的
学
习
率
以
确
保
其
全
局
适
用
性
。
用
于
计
算
学
习
率
的
两
个
公
式
源
自
拟
牛
顿
法
和
Barzilai-Borwein
方
法
,
从
而
将
二
阶
信
息
融
入
学
习
率
。
通
过
在
迭
代
中
以
相
等
概
率
交
替
使
用
这
两
种
计
算
公
式
,
参
数
变
化
率
和
梯
度
变
化
率
可
以
同
时
为
DNN
权
重
的
更
新
提
供
指
导
。
此
外
,
采
用
阈
值
方
法
将
学
习
率
调
整
到
适
当
范
围
内
,
确
保
其
在
迭
代
过
程
中
获
得
令
人
满
意
的
收
敛
速
度
。
(
ii
)
在
SVRG
的
内
层
循
环
中
,
利
用
全
局
梯
度
计
算
小
批
量
平
均
梯
度
,
从
而
有
效
减
少
方
差
。
该
平
均
梯
度
随
后
用
于
更
新
DNN
的
权
重
。
内
层
循
环
每
次
迭
代
获
得
的
小
批
量
平
均
梯
度
经
过
惯
性
校
正
后
聚
合
成
一
个
方
差
缩
减
的
梯
度
。
最
终
,
该
优
化
后
的
梯
度
传
回
外
层
循
环
以
计
算
更
新
新
的
学
习
率
。
(
iii
)
在
LeNet
、
VGG11
、
ResNet34
和
DenseNet121
模
型
上
评
估
了
SVRG-AALR
算
法
,
并
与
多
种
经
典
和
先
进
优
化
器
进
行
了
比
较
。
结
果
表
明
,
SVRG-AALR
算
法
在
不
同
特
性
和
规
模
的
DNN
模
型
上
均
表
现
出
优
异
的
训
练
收
敛
性
和
强
大
的
泛
化
能
力
。
此
外
,
其
整
体
训
练
性
能
优
于
AdamW
、
AdaBound
和
Lion
等
先
进
优
化
器
。
3.相关工作
3.
相
关
工
作
1. SVRG
算
法
基
本
框
架
:
在
算
法
1
中
,
w
表
示
待
优
化
参
数
;
f(w)
代
表
连
续
可
微
损
失
函
数
,
其
一
阶
导
数
记
为
∇
f(w)
。
该
算
法
包
含
两
层
嵌
套
循
环
:
始
于
第
2
行
的
外
层
循
环
主
要
计
算
完
整
梯
度
μ
,
该
梯
度
随
后
被
内
层
循
环
用
于
降
低
梯
度
方
差
;
始
于
第
6
行
的
内
层
循
环
则
基
于
随
机
样
本
it
计
算
方
差
缩
减
梯
度
,
并
利
用
该
信
息
更
新
参
数
wt
。
当
内
层
循
环
完
成
T
次
迭
代
后
,
新
获
得
的
参
数
wT
将
被
外
层
循
环
在
下
一
轮
中
用
于
重
新
计
算
完
整
梯
度
。
3.相关工作
3.
相
关
工
作
1. SVRG
算
法
基
本
框
架
:
在
算
法
1
第
7
行
中
,
内
层
循
环
随
机
选
取
样
本
it
计
算
梯
度
,
这
种
随
机
性
会
引
入
梯
度
估
计
方
差
。
为
缓
解
该
问
题
,
主
张
采
用
小
批
量
样
本
替
代
it
以
降
低
梯
度
方
差
。
其
核
心
思
想
是
:
从
训
练
集
J={1,2,...,N}
中
随
机
选
取
b
个
样
本
构
成
小
批
量
样
本
集
Jb={j1,j2,...,jb}
(
Jb
⊆
J
)
,
随
后
按
式
(1)
计
算
小
批
量
平
均
梯
度
υt
:
式
(1)
通
过
计
算
小
批
量
梯
度
的
平
均
值
,
旨
在
削
弱
梯
度
总
和
与
小
批
量
规
模
b
之
间
的
正
相
关
性
,
避
免
梯
度
总
和
随
b
变
化
而
产
生
过
大
波
动
。
梯
度
υt
可
作
为
全
数
据
集
梯
度
的
无
偏
估
计
——
当
小
批
量
数
据
来
自
随
机
且
有
代
表
性
的
子
集
时
,
υt
能
较
好
逼
近
全
局
梯
度
,
因
此
相
比
单
样
本
梯
度
具
有
更
低
的
方
差
。
根
据
式
(1)
,
算
法
1
第
8
行
的
权
重
更
新
公
式
修
正
为
:
3.相关工作
3.
相
关
工
作
1. SVRG
算
法
基
本
框
架
:
在
算
法
1
第
8
行
中
,
学
习
率
α
对
权
重
更
新
至
关
重
要
。
通
常
有
三
种
确
定
α
的
方
法
:
第
一
种
采
用
固
定
常
数
,
但
针
对
具
体
应
用
需
通
过
重
复
实
验
寻
找
合
适
值
,
耗
时
较
多
;
第
二
种
将
学
习
率
设
计
为
随
迭
代
次
数
增
加
逐
渐
衰
减
的
因
子
,
例
如
将
α
构
造
为
递
减
常
数
序
列
作
为
SVRG
迭
代
的
初
始
参
数
,
实
验
表
明
该
策
略
能
有
效
降
低
梯
度
方
差
并
使
DNN
训
练
获
得
更
小
的
损
失
函
数
值
;
第
三
种
将
学
习
率
设
计
为
动
态
自
适
应
系
数
,
当
前
较
普
遍
的
技
术
是
采
用
Barzilai-Borwein
方
法
构
建
自
适
应
学
习
率
,
其
优
势
在
于
能
根
据
当
前
迭
代
信
息
调
整
学
习
率
,
通
常
可
获
得
更
好
的
收
敛
性
能
。
然
而
,
将
SVRG
与
Barzilai-Borwein
方
法
结
合
应
用
于
DNN
训
练
的
研
究
相
对
较
少
,
某
些
实
现
细
节
和
效
果
有
待
深
入
探
索
。
3.相关工作
3.
相
关
工
作
2.
用
于
DNN
训
练
的
SVRG-AALR
算
法
:
该
框
架
保
留
传
统
SVRG
的
双
循
环
结
构
:
外
层
循
环
主
要
计
算
全
局
梯
度
μ
和
AALR
学
习
率
α_k
,
内
层
循
环
计
算
小
批
量
平
均
梯
度
并
相
应
更
新
权
重
。
输
入
:
N
个
训
练
样
本
;
外
层
循
环
最
大
迭
代
次
数
M
(
最
大
epoch
)
;
内
层
循
环
最
大
迭
代
次
数
T
;
学
习
率
参
数
φ
₀
, α
₀
, α
₁
=α
₀
;
组
合
系
数
γ∈(0,1]
;
小
批
量
规
模
b
输
出
:
DNN
最
优
权
重
w_out
3.相关工作
3.
相
关
工
作
算
法
2
的
细
节
说
明
如
下
:
(
i
)
输
入
参
数
中
,
α
₀
和
α
₁
表
示
外
层
循
环
前
两
次
迭
代
使
用
的
学
习
率
,
设
为
常
数
值
。
初
始
值
从
(0,1]
区
间
选
择
,
例
如
设
α
₀
=0.01
。
后
续
迭
代
中
α_k
值
在
第
7
行
更
新
(
ii
)
第
2
行
定
义
SVRG
的
外
层
循
环
,
实
现
DNN
训
练
中
的
epoch
循
环
(
iii
)
第
3
行
计
算
SVRG
的
完
整
梯
度
μ
(
iv
)
第
5-7
行
详
细
说
明
AALR
学
习
率
α_k
的
计
算
。
需
要
强
调
的
是
,
α_k
在
外
层
循
环
确
定
且
具
有
全
局
特
性
。
计
算
α_k
所
需
的
参
数
(
特
别
是
g_{k-1,T}
和
w_{k-1,T}
)
来
自
内
层
循
环
T
次
迭
代
的
结
果
。
因
此
计
算
α_k
后
通
过
公
式
α_k=α_k/T
进
行
平
均
校
正
,
以
减
弱
α_k
与
T
之
间
的
正
相
关
性
3.相关工作
3.
相
关
工
作
(
viii
)
第
14
行
对
小
批
量
平
均
梯
度
进
行
校
正
聚
合
,
得
到
方
差
缩
减
的
梯
度
g_{k,T}
并
反
馈
至
外
层
循
环
用
于
计
算
新
学
习
率
。
小
批
量
样
本
的
随
机
选
择
会
引
入
梯
度
波
动
,
为
减
弱
随
机
性
带
来
的
不
利
影
响
,
第
14
行
采
用
惯
性
校
正
策
略
对
υ_t
进
行
线
性
组
合
调
整
。
该
策
略
利
用
历
史
梯
度
g_{k,t}
作
为
惯
性
分
量
,
有
效
降
低
小
批
量
随
机
性
引
起
的
梯
度
方
差
。
当
g_{k,t}
与
υ_t
同
向
时
,
线
性
组
合
可
增
强
梯
度
并
加
速
收
敛
;
当
二
者
反
向
时
,
可
减
弱
υ_t
中
反
向
梯
度
的
影
响
从
而
减
少
振
荡
。
组
合
系
数
γ
为
(0,1]
区
间
内
的
标
量
值
,
建
议
设
置
为
4/T
(
T≥4
)
。
内
层
循
环
迭
代
完
成
后
,
聚
合
梯
度
g_{k,T}
将
被
反
馈
至
外
层
循
环
(
ix
)
第
16-17
行
将
内
层
循
环
新
获
得
的
权
重
w_{k,T}
传
回
外
层
循
环
对
应
变
量
,
使
外
层
循
环
能
计
算
完
整
梯
度
μ
并
确
定
学
习
率
α_k
4. 实验结果
4.
实
验
结
果
4.1
数
据
集
为
评
估
DNN
算
法
与
模
型
性
能
,
采
用
图
像
分
类
领
域
常
用
数
据
集
CIFAR10
、
CIFAR100
和
CINIC10
。
CIFAR10
包
含
6
万
张
32
×
32
像
素
的
彩
色
图
像
,
分
为
10
个
粗
粒
度
类
别
,
其
中
训
练
集
5
万
张
(
每
类
5000
张
)
,
测
试
集
1
万
张
(
每
类
1000
张
)
。
CIFAR100
则
包
含
60
万
张
同
等
尺
寸
的
彩
色
图
像
,
但
细
分
为
100
个
类
别
,
其
训
练
集
含
5
万
张
图
像
(
每
类
约
500
张
)
,
测
试
集
含
1
万
张
图
像
(
每
类
约
100
张
)
。
相
比
CIFAR10
,
CIFAR100
每
类
训
练
样
本
更
少
,
常
被
用
于
检
验
DNN
模
型
的
泛
化
能
力
。
CINIC10
由
CIFAR10
与
ImageNet[35,36]
下
采
样
图
像
构
成
,
包
含
27
万
张
32
×
32
像
素
的
彩
色
图
像
,
共
10
个
类
别
。
其
训
练
集
与
测
试
集
各
含
9
万
张
图
像
(
每
类
9000
张
)
。
4.2 DNN
模
型
为
评
估
SVRG-AALR
算
法
的
实
际
性
能
,
对
LeNet
、
VGG11
、
ResNet34
和
DenseNet121
等
经
典
DNN
模
型
进
行
训
练
。
4. 实验结果
4.
实
验
结
果
LeNet
作
为
轻
量
级
DNN
模
型
,
因
其
网
络
深
度
有
限
,
在
复
杂
场
景
识
别
能
力
上
相
对
较
弱
,
故
仅
在
使
用
难
度
较
低
的
CIFAR10
数
据
集
上
对
其
进
行
了
评
估
。
VGG11
首
次
提
出
模
块
化
设
计
理
念
,
对
后
续
DNN
架
构
发
展
产
生
深
远
影
响
。
ResNet
通
过
残
差
学
习
突
破
深
度
限
制
,
成
为
DNN
模
型
发
展
史
上
的
里
程
碑
——
在
多
种
ResNet
变
体
中
,
ResNet34
展
现
出
最
佳
的
综
合
性
能
,
常
被
用
于
研
究
中
验
证
相
关
算
法
及
领
域
应
用
的
有
效
性
。
相
较
于
VGG
、
ResNet
等
网
络
,
DenseNet121
通
过
特
征
重
用
在
保
持
甚
至
超
越
同
类
模
型
性
能
的
同
时
,
有
效
减
少
了
参
数
量
,
这
种
架
构
特
别
适
合
资
源
受
限
的
环
境
,
并
能
实
现
较
高
的
准
确
率
。
4. 实验结果
4.
实
验
结
果
4.3
对
比
DNN
优
化
器
将
SVRG-AALR
算
法
与
多
种
经
典
以
及
近
期
高
性
能
DNN
优
化
器
进
行
对
比
评
估
,
包
括
SGD
、
Adam
和
AdamW
等
等
。
所
有
优
化
器
的
初
始
学
习
率
设
为
0.001
,
SGD
的
动
量
参
数
设
为
0.9
,
其
他
参
数
按
默
认
值
配
置
。
4.4
评
估
指
标
由
于
实
验
所
用
数
据
集
均
为
多
分
类
任
务
,
采
用
准
确
率
(
Acc
)
和
宏
平
均
指
标
——
精
确
率
(
Prec
)
、
召
回
率
(
Recall
)
和
F1
分
数
(
F1
)
来
评
估
DNN
模
型
性
能
。
计
算
公
式
如
下
:
其
中
q′
表
示
数
据
集
总
类
别
数
,
q
代
表
第
q
个
类
别
。
对
于
第
q
类
样
本
:
TP_q
表
示
模
型
正
确
预
测
的
正
样
本
数
;
TN_q
表
示
模
型
正
确
预
测
的
负
样
本
数
;
FP_q
表
示
模
型
错
误
预
测
的
正
样
本
数
;
FN_q
表
示
模
型
错
误
预
测
的
负
样
本
数
。
4. 实验结果
4.
实
验
结
果
4.5
实
验
结
果
与
分
析
下
面
仅
展
示
在
LeNet
上
的
训
练
结
果
:
(
a
)
各
算
法
在
CIFAR10
上
的
训
练
损
失
曲
线
(
b
)
各
算
法
在
CIFAR10
上
的
测
试
准
确
率
曲
线
4. 实验结果
4.
实
验
结
果
(
i
)
在
图
a
中
,
SVRG-AALR
展
现
出
最
快
的
收
敛
速
度
,
在
第
40
轮
epoch
时
损
失
值
已
达
0.8
左
右
。
相
比
之
下
,
Lion
、
AdamW
和
AdaBelief
直
到
第
100
轮
epoch
才
达
到
相
近
水
平
。
这
四
种
算
法
的
损
失
函
数
值
显
著
低
于
其
他
方
法
,
凸
显
了
其
卓
越
的
收
敛
性
能
。
(
ii
)
在
图
b
中
,
SVRG-AALR
的
测
试
准
确
率
最
高
,
其
曲
线
在
第
40
轮
迭
代
后
开
始
进
入
平
稳
区
域
。
相
比
之
下
,
Lion
、
AdamW
和
AdaBelief
直
到
第
100
轮
迭
代
才
接
近
SVRG-AALR
的
准
确
率
水
平
。
这
表
明
SVRG-AALR
具
有
更
优
的
优
化
能
力
,
能
找
到
更
有
效
的
权
重
来
提
升
LeNet
模
型
的
测
试
准
确
率
。
此
外
,
除
SVRG-AALR
外
,
其
他
算
法
的
测
试
准
确
率
曲
线
均
呈
现
明
显
锯
齿
波
动
,
说
明
SVRG-AALR
具
有
更
出
色
的
稳
定
性
。
5.结论
5.
结
论
SVRG
的
理
论
优
势
使
其
特
别
适
合
解
决
DNN
训
练
中
的
梯
度
方
差
问
题
。
然
而
,
该
算
法
存
在
适
应
性
挑
战
,
直
接
应
用
于
DNN
训
练
场
景
时
效
果
会
显
著
下
降
。
为
突
破
这
一
局
限
,
提
出
一
套
完
整
策
略
以
扩
展
SVRG
的
应
用
:
SVRG
的
外
层
循
环
主
要
计
算
完
整
梯
度
和
确
定
学
习
率
——
完
整
梯
度
计
算
遵
循
传
统
SVRG
方
法
,
而
学
习
率
计
算
则
是
为
DNN
训
练
量
身
定
制
的
新
贡
献
。
学
习
率
计
算
公
式
结
合
拟
牛
顿
法
和
Barzilai-Borwein
技
术
,
从
而
将
二
阶
信
息
融
入
计
算
过
程
。
通
过
采
用
交
替
策
略
同
时
利
用
两
种
不
同
的
学
习
率
计
算
公
式
,
确
保
参
数
变
化
率
和
梯
度
变
化
率
以
同
等
概
率
融
入
权
重
更
新
过
程
。
此
外
,
内
层
循
环
每
次
迭
代
计
算
的
小
批
量
平
均
梯
度
经
过
惯
性
校
正
后
聚
合
成
方
差
缩
减
的
梯
度
,
该
优
化
后
的
梯
度
被
反
馈
至
外
层
循
环
用
于
计
算
新
学
习
率
。
尽
管
取
得
上
述
成
果
,
仍
存
在
若
干
不
足
:
(
i
)
SVRG-AALR
在
DNN
其
他
领
域
的
有
效
性
需
进
一
步
验
证
,
例
如
其
在
医
疗
图
像
识
别
、
电
力
系
统
负
荷
预
测
等
大
规
模
DNN
应
用
中
能
否
取
得
更
优
效
果
尚
待
探
究
;
(
ii
)
SVRG-AALR
的
梯
度
加
速
能
力
存
在
提
升
空
间
,
AdamW
、
AdaBound
和
Lion
等
先
进
优
化
器
中
的
许
多
成
功
梯
度
加
速
技
术
经
适
配
后
兼
具
理
论
意
义
和
实
用
价
值
,
且
许
多
实
现
细
节
需
在
实
践
中
进
一
步
探
索
;
(
iii
)
SVRG-
AALR
算
法
需
计
算
所
有
训
练
样
本
的
完
整
梯
度
,
显
著
增
加
计
算
时
间
并
阻
碍
其
在
大
规
模
训
练
数
据
集
中
的
应
用
。
因
此
未
来
研
究
应
优
先
探
索
计
算
成
本
更
低
的
完
整
梯
度
计
算
方
法
,
这
是
有
待
解
决
的
关
键
挑
战
。
谢谢!
计
算
机
与
大
数
据
学
院
Fuzhou University
谢
谢
!