EdgeShard: Efficient LLM Inference via Collaborative Edge Computing
EdgeShard: Efficient LLM Inference via Collaborative Edge Computing EdgeShard: LLM arXiv 2024-05-23 Zhang Mingjin, Cao Jiannong, Shen Xiaoming, Cui zeyang 2024-10-24
摘要
LLMs LLMs LLMs 使 LLM EdgeShard LLM EdgeShard LLM LLM Llama2 EdgeShard 线 50% 2
引言
1. 2. - 1. 2. 使 3. 使 线 Gpipe 4. 线
背景知识
Edge Service Cloud Service model partition LLM large language model
框架结构----考虑在一个具有异构设备和带宽连接的通用协作边缘网络
---- Device and Modle Profile Inference Task Scheduling Collaborative inference
框架结构:预处理阶段
线 token dynamic model loading technology
框架结构----考虑在一个具有异构设备和带宽连接的通用协作边缘网络
---- Device and Modle Profile Inference Task Scheduling Collaborative inference
框架结构:生成调度策略阶段
针对延迟的动态规划算法
X i,j binary variable i j 1 0
针对延迟的动态规划算法
DP(i,j) i j i i 0
针对吞吐量的动态规划算法
g(i, S, k) S i first i layers 使 k 13 0 0
框架结构----考虑在一个具有异构设备和带宽连接的通用协作边缘网络
---- Device and Modle Profile Inference Task Scheduling Collaborative inference
模型部署和推理阶段
使 Gpipe 线 Gpipe batch batch batch layer LLM LLM token token token token token // // 线 线 EdgeShard-NoBubble NoBubble
实验部分
12 Jetson AGX Orin 2 Jetson Orin NX 1 RTX 3090 1000Mbps 使 Linux TC tool Llama2-7B, Llama2-13B, Llama2-70B Edge-Sole Cloud-Edge-Even Cloud-Edge-Opt EdgeShard 使 EdgeShard 使
实验部分----指定带宽
---- 使 1Mbps 50Mbps 20% 40Mbps - 60Mbps OOM out-of-memory
实验部分----带宽变化
---- 1Mbps -> 50Mbps
实验部分----带宽变化
---- Llama2-13B 10M EdgeShard 使 -8 KV -4 使 batch 使 batch EdgeShard Cloud-Edge-Opt 10Mbps EdgeShard Cloud-Edge-Opt Llama2-70B label EdgeShard-Even Cloud-Edge-Even
实验部分----边端节点配置不同
---- 使 AGX Orin Orin NX Latency EdgeShard EdgeShard ThroughPut EdgeShard Cloud-Edge-Opt EdgeShard EdgeShard EdgeShard
谢谢!