Memory Decoder: A Pretrained, Plug-and-PlayMemory for Large Language Models
计
算
机
与
大
数
据
学
院
Fuzhou University
Memory Decoder: A Pretrained, Plug-and-Play
Memory for Large Language Models
论
文
出
处
:
arXiv
发
表
时
间
:
2025
年
8
月
作
者
:
Jiaqi Cao, Jiarui Wang, Rubin Wei, Qipeng Guo, Kai Chen
作
者
单
位
:
上
海
交
通
大
学
上
海
AI Lab
汇
报
人
:
郭
嘉
睿
日
期
:
2025-9-1
记
忆
解
码
器
:
面
向
大
型
语
言
模
型
的
预
训
练
即
插
即
用
记
忆
模
块
1. 摘要
1.
摘
要
大
型
语
言
模
型
(
LLMs
)
在
通
用
语
言
任
务
中
展
现
出
强
大
能
力
,
但
其
在
特
定
领
域
的
适
应
仍
面
临
挑
战
。
现
有
方
法
如
领
域
自
适
应
预
训
练
(
DAPT
)
需
要
昂
贵
的
全
参
数
训
练
且
存
在
灾
难
性
遗
忘
问
题
,
而
检
索
增
强
生
成
(
RAG
)
因
高
成
本
的
最
近
邻
搜
索
和
长
上
下
文
处
理
导
致
显
著
的
推
理
延
迟
。
本
文
提
出
的
记
忆
解
码
器
是
一
种
即
插
即
用
的
预
训
练
记
忆
模
块
,
通
过
小
型
Transformer
解
码
器
学
习
模
仿
外
部
非
参
数
检
索
器
的
行
为
模
式
,
训
练
完
成
后
可
与
任
何
共
享
相
同
分
词
器
的
预
训
练
语
言
模
型
无
缝
集
成
,
无
需
修
改
原
始
参
数
或
进
行
模
型
特
异
性
调
整
。
1. 摘要
1.
摘
要
实
验
结
果
表
明
,
该
方
法
在
生
物
医
学
(
平
均
困
惑
度
降
低
8.02
)
、
金
融
(
降
低
5.31
)
和
法
律
(
降
低
5.18
)
三
个
专
业
领
域
有
效
提
升
了
Qwen
和
Llama
系
列
模
型
的
性
能
,
整
体
平
均
困
惑
度
下
降
6.17
个
点
,
其
中
Qwen-7B
模
型
在
生
物
医
学
测
试
集
上
达
到
最
高
9.15
的
困
惑
度
降
幅
。
该
研
究
开
创
了
以
专
用
预
训
练
记
忆
组
件
为
核
心
的
领
域
适
应
新
范
式
,
其
架
构
仅
需
训
练
1.2%
的
额
外
参
数
,
跨
模
型
兼
容
性
强
,
相
比
传
统
RAG
方
法
减
少
83%
的
响
应
时
间
,
实
现
了
零
推
理
延
迟
的
领
域
增
强
。
2. 引言
2.
引
言
大
型
语
言
模
型
(
LLM
)
在
通
用
任
务
上
表
现
出
色
,
但
难
以
高
效
适
配
到
生
物
医
学
、
金
融
、
法
律
等
专
业
领
域
。
现
有
主
流
方
法
各
有
严
重
缺
陷
:
·
领
域
自
适
应
预
训
练
(
DAPT
)
:
需
要
对
整
个
模
型
进
行
全
参
数
训
练
,
计
算
成
本
极
高
,
且
会
导
致
模
型
遗
忘
原
有
的
通
用
知
识
(
灾
难
性
遗
忘
)
。
·
检
索
增
强
生
成
(
RAG
)
:
虽
然
不
修
改
模
型
参
数
,
但
需
要
在
推
理
时
进
行
昂
贵
的
实
时
检
索
,
引
入
显
著
延
迟
,
拖
慢
响
应
速
度
。
为
此
,
我
们
提
出
了
Memory Decoder (MemDec)
。
它
的
核
心
思
想
是
:
训
练
一
个
小
型
、
独
立
的
解
码
器
来
模
仿
一
个
“
理
想
”
检
索
器
的
行
为
。
这
个
检
索
器
知
道
该
从
领
域
知
识
库
中
找
出
什
么
答
案
。
2. 引言
2.
引
言
一
旦
训
练
完
成
,
这
个
MemDec
模
块
就
成
为
一
个
即
插
即
用
的
“
知
识
外
挂
”
。
它
可
以
直
接
附
加
到
任
何
使
用
相
同
分
词
器
的
LLM
上
,
无
需
对
其
做
任
何
改
动
。
在
推
理
时
,
只
需
将
MemDec
和
原
始
LLM
的
输
出
简
单
结
合
,
即
可
获
得
领
域
专
家
级
的
回
答
,
同
时
避
免
了
DAPT
的
遗
忘
问
题
和
RAG
的
延
迟
问
题
。
实
验
证
明
,
同
一
个
MemDec
能
显
著
提
升
从
0.5B
到
72B
不
同
规
模
模
型
的
领
域
性
能
,
在
多
个
专
业
领
域
平
均
降
低
困
惑
度
6.17
点
,
实
现
了
高
效
、
通
用
且
高
性
能
的
领
域
适
配
。
3. 相关工作
1.
检
索
增
强
生
成
(
Retrieval-Augmented Generation, RAG
)
检
索
增
强
生
成
技
术
通
过
整
合
外
部
知
识
源
增
强
语
言
模
型
性
能
,
其
检
索
粒
度
涵
盖
文
档
级
(
Chen et al., 2017
)
、
段
落
级
(
Guu et al., 2020; Lewis et al., 2020b; Izacard et
al., 2023b
)
至
词
元
级
(
Khandelwal et al., 2019b; He et al., 2021b; Min et al., 2022;
Yogatama et al., 2021
)
。
词
元
级
检
索
在
罕
见
模
式
识
别
和
跨
域
场
景
中
表
现
卓
越
,
但
会
引
入
显
著
的
推
理
计
算
开
销
。
传
统
不
可
微
检
索
机
制
阻
碍
端
到
端
优
化
,
而
记
忆
词
元
方
法
(
Chevalier et al., 2023
)
虽
支
持
可
微
访
问
,
却
受
限
于
局
部
上
下
文
。
记
忆
解
码
器
(
Memory Decoder
)
突
破
性
地
同
时
实
现
可
微
优
化
与
全
数
据
集
知
识
访
问
,
无
需
昂
贵
检
索
操
作
或
模
型
专
用
数
据
库
。
3.
相
关
工
作
3. 相关工作
2.
领
域
适
应
(
Domain Adaptation
)
领
域
适
应
技
术
从
领
域
专
用
预
训
练
模
型
(
如
SciBERT (Beltagy et al., 2019)
、
BioBERT (Lee et al., 2020)
、
ClinicalBERT (Huang et al., 2019)
)
演
进
至
参
数
高
效
方
法
(
如
LoRA (Hu et al., 2022)
和
适
配
器
(adapters) (Wang et al., 2020; Diao
et al., 2021, 2023)
)
。
然
而
,
这
些
方
法
需
针
对
特
定
模
型
修
改
架
构
,
难
以
实
现
跨
模
型
泛
化
。
记
忆
解
码
器
通
过
提
供
领
域
专
用
记
忆
模
块
,
无
需
修
改
参
数
即
可
增
强
多
种
冻
结
语
言
模
型
,
支
持
同
分
词
器
家
族
的
跨
模
型
适
应
,
并
通
过
极
少
量
训
练
实
现
跨
分
词
器
的
高
效
迁
移
。
3.
相
关
工
作
4. 研究方法
4.
研
究
方
法
如
图
所
示
,
该
架
构
的
工
作
流
程
分
为
两
个
阶
段
:
预
训
练
阶
段
:
记
忆
解
码
器
学
习
模
拟
非
参
数
化
检
索
器
的
分
布
特
性
(
上
图
)
推
理
阶
段
:
模
块
与
任
意
兼
容
语
言
模
型
无
缝
集
成
(
下
图
)
,
彻
底
消
除
传
统
检
索
方
案
所
需
的
数
据
库
维
护
与
最
近
邻
搜
索
计
算
负
担
4. 研究方法
4.
研
究
方
法
预
训
练
我
们
的
核
心
预
训
练
目
标
是
使
记
忆
解
码
器
(
MMem
)
能
够
生
成
与
非
参
数
化
检
索
器
在
相
同
上
下
文
情
境
下
高
度
相
似
的
概
率
分
布
。
该
方
法
通
过
将
大
规
模
键
值
数
据
库
中
捕
获
的
领
域
知
识
编
码
至
紧
凑
模
型
参
数
中
,
实
现
知
识
的
高
效
压
缩
存
储
。
预
训
练
目
标
:
与
传
统
单
标
签
语
言
建
模
不
同
,
kNN
分
布
通
过
捕
捉
领
域
内
合
理
续
写
的
多
样
性
提
供
更
丰
富
的
监
督
信
号
经
大
量
实
验
验
证
,
采
用
KL
散
度
最
小
化
的
混
合
目
标
函
数
效
果
最
优
4. 研究方法
领
域
适
应
方
法
的
推
理
延
迟
对
比
(
基
于
Qwen2.5-1.5B
模
型
在
生
物
医
学
文
本
的
测
试
,
搭
配
0.5B
记
忆
解
码
器
)
。
对
每
个
样
本
的
损
失
函
数
定
义
为
:
为
防
止
过
度
偏
离
底
层
语
料
库
分
布
,
引
入
标
准
语
言
建
模
目
标
最
终
损
失
通
过
超
参
数
β
平
衡
两
项
:
4.
研
究
方
法
4. 研究方法
4.
研
究
方
法
推
理
机
制
完
成
预
训
练
后
,
记
忆
解
码
器
展
现
出
关
键
的
即
插
即
用
能
力
,
可
通
过
简
单
的
概
率
插
值
使
任
何
具
有
兼
容
分
词
器
的
语
言
模
型
适
应
目
标
领
域
。
在
推
理
阶
段
,
预
训
练
语
言
模
型
Mplm
与
记
忆
解
码
器
Mmem
并
行
处
理
相
同
输
入
上
下
文
,
其
输
出
分
布
通
过
加
权
插
值
融
合
:
其
中
α ∈ [0, 1]
控
制
领
域
知
识
的
注
入
强
度
。
当
为
更
大
规
模
的
基
础
模
型
(
配
备
5
亿
条
目
数
据
库
)
进
行
增
强
时
,
本
方
法
实
现
高
达
10
倍
的
相
对
加
速
。
这
是
由
于
记
忆
解
码
器
与
LLM
间
的
进
程
间
通
信
开
销
被
更
长
的
推
理
时
间
均
摊
,
而
传
统
kNN
搜
索
的
计
算
复
杂
度
与
数
据
库
规
模
呈
线
性
增
长
。
这
种
计
算
优
势
结
合
模
型
无
关
设
计
,
使
该
方
法
在
性
能
与
效
率
同
等
关
键
的
生
产
环
境
中
(
如
实
时
医
疗
诊
断
系
统
、
高
频
交
易
引
擎
)
具
有
突
出
应
用
价
值
。
5. 实验
评
估
框
架
本
研
究
通
过
六
类
互
补
实
验
验
证
记
忆
解
码
器
性
能
:
(1) WikiText-103
语
言
建
模
,
证
明
其
对
GPT-2
多
尺
度
模
型
的
有
效
性
;
(2)
下
游
任
务
测
试
,
验
证
领
域
适
应
中
通
用
能
力
的
保
留
;
(3)
跨
模
型
适
应
,
展
示
单
一
记
忆
解
码
器
增
强
0.5B
至
72B
参
数
Qwen
模
型
的
能
力
;
(4)
跨
分
词
器
适
应
,
实
现
分
词
器
家
族
间
高
效
迁
移
;
(5)
知
识
密
集
型
QA
,
证
实
该
方
法
在
增
强
事
实
召
回
率
的
同
时
保
持
推
理
能
力
——
此
乃
检
索
方
法
的
固
有
缺
陷
;
(6)
领
域
专
用
下
游
任
务
,
在
13
个
现
实
基
准
中
验
证
上
下
文
学
习
能
力
的
保
留
。
这
些
实
验
确
立
了
记
忆
解
码
器
作
为
跨
架
构
、
跨
应
用
的
通
用
即
插
即
用
领
域
适
应
方
案
。
5.
实
验
5. 实验
5.
实
验
Wikitext-103
语
言
建
模
如
表
所
示
,
记
忆
解
码
器
在
所
有
GPT2
模
型
规
模
上
均
展
现
出
卓
越
效
能
。
仅
含
124M
参
数
的
单
一
记
忆
解
码
器
持
续
增
强
整
个
GPT2
系
列
,
无
论
基
础
模
型
规
模
大
小
均
体
现
其
即
插
即
用
能
力
。
对
于
较
小
模
型
(
如
GPT2-small
)
,
本
方
法
优
于
所
有
适
应
方
案
——
显
著
超
越
DAPT
达
15.1%
;
在
GPT2-medium
上
虽
仅
使
用
少
量
参
数
仍
保
持
优
势
。
即
使
应
用
于
更
大
模
型
(
DAPT
因
全
参
数
更
新
具
固
有
优
势
)
,
记
忆
解
码
器
仍
具
高
度
竞
争
力
,
持
续
优
于
其
他
参
数
高
效
方
法
且
无
需
修
改
任
何
原
始
参
数
。
这
些
结
果
验
证
了
小
型
参
数
化
解
码
器
可
有
效
捕
获
非
参
数
检
索
优
势
,
同
时
消
除
计
算
开
销
。
5. 实验
5.
实
验
下
游
任
务
性
能
上
表
揭
示
记
忆
解
码
器
在
零
样
本
评
估
中
增
强
领
域
适
应
能
力
的
同
时
保
留
通
用
语
言
能
力
。
与
DAPT
在
多
项
任
务
遭
遇
灾
难
性
遗
忘
不
同
,
记
忆
解
码
器
在
所
有
评
估
任
务
中
保
持
或
提
升
性
能
。
本
方
法
在
九
项
任
务
平
均
得
分
最
高
,
超
越
基
础
模
型
、
kNN
-LM
和
LoRA
,
在
文
本
蕴
含
任
务
(
如
CB
和
RTE
)
表
现
尤
为
突
出
。
这
些
结
果
验
证
了
即
插
即
用
架
构
的
核
心
优
势
:
通
过
保
持
原
始
参
数
完
整
并
注
入
领
域
知
识
,
实
现
不
牺
牲
通
用
能
力
的
领
域
适
应
。
需
强
调
所
有
实
验
均
在
零
样
本
环
境
下
进
行
,
本
方
法
应
视
为
与
上
下
文
学
习
方
法
正
交
5. 实验
5.
实
验
跨
模
型
适
应
上
表
展
示
了
记
忆
解
码
器
(
Memory Decoder
)
在
不
同
模
型
规
模
和
架
构
中
卓
越
的
即
插
即
用
能
力
。
单
个
记
忆
解
码
器
(
5
亿
参
数
)
可
一
致
提
升
Qwen2
与
Qwen2.5
系
列
模
型
(
规
模
从
5
亿
至
720
亿
参
数
)
的
性
能
。
对
于
小
型
模
型
(
如
Qwen2-0.5B
)
,
该
方
法
实
现
显
著
的
困
惑
度
下
降
——
在
生
物
医
学
和
金
融
文
本
上
将
领
域
特
定
性
能
从
接
近
基
线
水
平
提
升
至
顶
尖
水
平
。
这
些
结
果
验
证
了
记
忆
解
码
器
的
核
心
优
势
:
单
个
预
训
练
记
忆
组
件
可
增
强
共
享
相
同
分
词
器
的
多
种
模
型
,
提
供
从
小
型
到
超
大
规
模
模
型
的
高
效
领
域
适
应
方
案
,
且
性
能
持
续
优
于
现
有
方
法
。
5. 实验
5.
实
验
跨
分
词
器
适
应
上
表
展
示
了
记
忆
解
码
器
在
不
同
分
词
器
与
模
型
架
构
间
的
泛
化
能
力
。
通
过
仅
重
新
初
始
化
基
于
Qwen2.5
训
练
的
记
忆
解
码
器
的
嵌
入
层
和
语
言
模
型
头
,
我
们
以
10%
原
始
训
练
成
本
成
功
将
其
适
配
至
Llama
模
型
家
族
。
这
种
高
效
迁
移
使
所
有
Llama
变
体
性
能
显
著
提
升
:
Llama3-8B
模
型
在
生
物
医
学
和
金
融
领
域
的
困
惑
度
均
降
低
约
50%
Llama3.1/Llama3.2
系
列
在
生
物
医
学
与
金
融
领
域
持
续
优
于
LoRA
方
法
5. 实验
5.
实
验
知
识
密
集
型
推
理
任
务
尽
管
检
索
增
强
方
法
在
提
升
事
实
召
回
率
方
面
表
现
优
异
,
但
其
在
处
理
需
要
同
时
结
合
知
识
检
索
与
复
杂
推
理
的
任
务
时
往
往
存
在
局
限
。
先
前
研
究
(
Geng et al.,
2024
)
表
明
,
即
使
从
相
关
维
基
百
科
语
料
库
中
检
索
,
kNN-LM
方
法
也
可
能
损
害
知
识
密
集
型
QA
任
务
的
性
能
。
结
果
显
示
,
记
忆
解
码
器
在
TriviaQA
上
准
确
率
提
升
7.2%
(
从
68.1%
至
75.3%
)
,
在
WebQuestions
上
提
升
4.8%
(
从
62.9%
至
67.7%
)
,
显
著
优
于
kNN-LM
(
两
项
任
务
分
别
下
降
3.1%
和
5.4%
)
。
这
表
明
通
过
参
数
化
建
模
而
非
实
时
检
索
,
记
忆
解
码
器
既
能
继
承
非
参
数
化
方
法
的
知
识
密
度
优
势
,
又
可
避
免
检
索
开
销
对
推
理
链
的
干
扰
(
如
逻
辑
推
导
中
断
或
语
义
偏
移
)
。
6. 结论
6.
结
论
本
文
提
出
的
记
忆
解
码
器
(
Memory Decoder
)
是
一
种
创
新
的
即
插
即
用
式
大
型
语
言
模
型
领
域
适
应
方
法
。
该
方
法
通
过
预
训
练
小
型
Transformer
解
码
器
模
拟
非
参
数
检
索
器
的
行
为
,
无
需
修
改
原
始
模
型
参
数
即
可
使
兼
容
语
言
模
型
高
效
适
应
特
定
领
域
。
我
们
在
多
模
型
架
构
与
专
业
领
域
的
综
合
实
验
表
明
,
记
忆
解
码
器
在
性
能
上
持
续
优
于
参
数
化
适
应
方
法
和
传
统
检
索
增
强
方
案
。
其
核
心
创
新
在
于
通
用
性
与
高
效
性
的
统
一
:
单
个
预
训
练
记
忆
解
码
器
可
无
缝
增
强
任
何
共
享
相
同
分
词
器
的
模
型
,
经
极
少
量
训
练
后
还
能
适
配
不
同
分
词
器
与
架
构
的
模
型
。
这
种
能
力
实
现
了
跨
模
型
家
族
的
高
效
领
域
适
应
,
显
著
降
低
了
专
业
模
型
开
发
所
需
的
资
源
消
耗
。
实
验
结
果
证
实
,
该
方
法
在
保
留
检
索
增
强
技
术
性
能
优
势
的
同
时
,
维
持
了
基
础
模
型
的
通
用
能
力
,
有
效
规
避
了
参
数
微
调
中
常
见
的
灾
难
性
遗
忘
问
题
。
谢谢!
计
算
机
与
大
数
据
学
院
Fuzhou University
谢
谢
!