betway88必威手机网页版|ribibi|扩散语言模型九倍推理加速!KV C
2025-06-06 来源:必威betway入口茶业集团有限公司
上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中ribibi,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低ribibibetway88必威手机网页版,并保持了原有的生成质量。 1. 训练无关,即插即用。dLLM-Cache完全在推理过程
上海交通大学EPIC Lab团队提出了一种无需训练ღღ◈ღ、即插即用的高效推理缓存机制ღღ◈ღ:dLLM-Cacheღღ◈ღ。
其核心思想在于ღღ◈ღ,在一个多步去噪过程中ribibiღღ◈ღ,复用相邻时间步上变化较小的特征ღღ◈ღ,仅更新那些变化较大的特征ღღ◈ღ,从而实现了计算量的大幅降低ribibibetway88必威手机网页版ღღ◈ღ,并保持了原有的生成质量ღღ◈ღ。
1. 训练无关ღღ◈ღ,即插即用ღღ◈ღ。dLLM-Cache完全在推理过程中工作ღღ◈ღ,无需修改模型参数或重训练ღღ◈ღ。dLLM-Cache可以在完全不损失模型输出质量的前提下ღღ◈ღ,带来最高9.1倍的推理速度提升 ღღ◈ღ。
4. 独创了以V-verify机制为核心的选择更新策略ღღ◈ღ。以Value向量的变化为选择基准ღღ◈ღ,成功识别出了response部分变化较大的那些tokensღღ◈ღ,通过仅更新这些特征ღღ◈ღ,摒弃了高达75%的冗余计算ღღ◈ღ。
本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生ღღ◈ღ,目前在上海交通大学EPIC Lab进行科研实习ღღ◈ღ,师从张林峰助理教授ღღ◈ღ,主要研究方向为高效深度学习ღღ◈ღ,此前曾在CVPR2025上收获满分论文ღღ◈ღ。
基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一ღღ◈ღ。随着模型架构的发展ღღ◈ღ、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力ღღ◈ღ,这类模型正在逐步成为挑战 GPT 等主流模型的重要力量必威Betway备用网ღღ◈ღ,ღღ◈ღ。
以LLaDAღღ◈ღ、Dream为代表的扩散语言模型ღღ◈ღ,基于迭代去噪的生成过程ღღ◈ღ,不再依赖严格的自回归因果结构betway88必威手机网页版ღღ◈ღ,天然支持双向建模ღღ◈ღ、全局依赖和反向推理等能力ღღ◈ღ,已经在“逆转诅咒”ღღ◈ღ、数学推理等任务上展现出领先性能ღღ◈ღ。
然而ღღ◈ღ,这种范式的优势也伴随着巨大的代价ღღ◈ღ。为了确保生成的质量ღღ◈ღ,dLLMs在推理过程中通常需要执行长达数百步的去噪迭代ღღ◈ღ,每一步都需重新计算attentionღღ◈ღ、FFN等所有层的特征ღღ◈ღ,计算量相当于多次完整前向传播ღღ◈ღ。这为dLLMs的推理效率带来了严重的瓶颈ღღ◈ღ,制约了其实际部署ღღ◈ღ。更重要的是ღღ◈ღ,主流的加速手段如用于自回归模型的KV Cacheღღ◈ღ,由于不兼容双向注意力架构ღღ◈ღ,在dLLMs中完全失效ღღ◈ღ。
与传统的自回归语言模型不同ღღ◈ღ,dLLMs不再依赖顺序生成下一个tokenღღ◈ღ,而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布ღღ◈ღ,这种机制使得模型具备天然的双向建模能力ღღ◈ღ,理论上能够更好地处理逆向逻辑ღღ◈ღ、长距离依赖等任务ღღ◈ღ。
然而ღღ◈ღ,这种扩散式推理带来一个严重的挑战ღღ◈ღ:为了确保生成质量ღღ◈ღ,dLLMs通常需要上百步的去噪迭代ღღ◈ღ,每一步都需全量计算Attentionღღ◈ღ、FFN等模块ღღ◈ღ,导致其推理速度相比ARMs慢一个数量级ღღ◈ღ,落地成本高ღღ◈ღ。同时ღღ◈ღ,ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容ღღ◈ღ。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象ღღ◈ღ。这正是 dLLM-Cache所要破解的核心问题ღღ◈ღ。
Prompt tokens的特征在整个去噪过程中基本保持稳定ღღ◈ღ,每一步都重新计算这些特征是完全不必要且浪费计算资源的ღღ◈ღ;
本文作者首创性得提出了V-verify机制ღღ◈ღ。它的提出源于另一项重要的发现ღღ◈ღ:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系ღღ◈ღ,结果显示它们存在着极强的正相关性ღღ◈ღ,皮尔逊相关系数最高可达0.944ღღ◈ღ。
这意味着ღღ◈ღ,一个token底层的Value向量是否发生变化ღღ◈ღ,是其整体状态是否发生改变的一个极佳的betway88必威手机网页版ღღ◈ღ、且计算成本极低的“指示器”ღღ◈ღ。
对于prompt部分ღღ◈ღ,作者设计了长间隔Prompt缓存ღღ◈ღ,每隔Kp步(在实验中一般设置为100)更新一次prompt的Keyღღ◈ღ、Valueღღ◈ღ、Attention Outputღღ◈ღ、FFN Outputღღ◈ღ,其余步骤全部复用先前结果ribibiღღ◈ღ。这样避免了对稳定不变的特征的重复计算ღღ◈ღ,大幅减少了计算量
对生成目标response区域ღღ◈ღ,由于response tokens的特征并不是一直保持稳定不变的ღღ◈ღ,作者设计了较短间隔的Response缓存ღღ◈ღ,每隔Kr步(在实验中一般设置为8左右)全量更新一次response的Keyღღ◈ღ、Valueღღ◈ღ、Attention Outputღღ◈ღ、FFN Outputღღ◈ღ,在其余的步骤ღღ◈ღ,作者提出了基于V-verify的自适应缓存策略
在每个去噪步骤ღღ◈ღ,首先计算所有response tokens最新的Value向量ღღ◈ღ。然后ribibiღღ◈ღ,通过计算新Value向量与缓存中旧Value向量的余弦相似度betway88必威手机网页版ღღ◈ღ,将余弦相似度作为每个response tokens的一个“变化分”ღღ◈ღ。选出“变化分”最高(即相似度最低)的极少数tokens(例如ღღ◈ღ,变化最剧烈的25%)ღღ◈ღ,将它们标记为“待更新” ღღ◈ღ。最后ღღ◈ღ,模型只对这些被标记的“待更新”tokensღღ◈ღ,进行完整的特征重计算ღღ◈ღ。而其余75%的“稳定”tokensღღ◈ღ,则继续高效地从缓存中复用其特征
通过这种“长间隔”与“自适应”相结合的缓存策略ღღ◈ღ,dLLM-Cache在Transformer的每一层都实现了计算量的极致优化ღღ◈ღ,且整个过程无需任何额外训练ღღ◈ღ,做到了线 实验结果
本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上ღღ◈ღ,针对数学与科学ღღ◈ღ、通用任务ღღ◈ღ、代码生成三大领域的8个主流基准测试ღღ◈ღ,对dLLM-Cache的有效性进行了严苛的检验 ღღ◈ღ。评估维度不仅包括推理速度(TPS)计算效率(FLOPs)ღღ◈ღ,更核心的是模型性能得分(Score)ღღ◈ღ,以确保加速不是以牺牲模型能力为代价
本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cacheღღ◈ღ,下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持ღღ◈ღ。在几乎所有的基准测试中ღღ◈ღ,达到了5倍以上的加速效果ღღ◈ღ,且在绝大部分情况下betway88必威手机网页版ღღ◈ღ,生成质量都没有降低ღღ◈ღ,甚至有轻微的提升ღღ◈ღ。特别是当面对LongBench任务时乡村振兴ღღ◈ღ,ღღ◈ღ,prompt的稳定性带来了更显著的加速效果ღღ◈ღ,在HotpotQA上实现了高达9.1倍的无损加速
为了进一步证明dLLM-Cache的通用性和鲁棒性ღღ◈ღ,作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上ღღ◈ღ。下图的实验结果再次印证了dLLM-Cache方法的有效性ribibiღღ◈ღ,充分说明了其通用于主流dLLM架构
作者还将dLLM和主流的基于ARM的LLM进行了对比ღღ◈ღ,下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较ღღ◈ღ。结果显示betway88必威手机网页版ღღ◈ღ,原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3BetWay(必威)ღღ◈ღ,但在推理速度上却远不及ღღ◈ღ。然而ღღ◈ღ,在使用了本文的dLLM-Cache之后ღღ◈ღ,LLaDA的推理速度获得了超过3.3倍的提升ღღ◈ღ,首次超过了LLaMA3的推理速度ღღ◈ღ。这一结果有力地证明ღღ◈ღ,本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时ღღ◈ღ,获得与ARMs相当竞争力的推理速度
海洋之恋betway88必威手机网页版必威betway官方网站ღღ◈ღ。ღღ◈ღ,另一种蓝“鲁派”纪录片成为“好客山东 好品山东”国际传播新名片线vip澳门大发游戏德甲狼堡贝博
司法部部署春节农民工法律援助工作ღღ◈ღ,中国第二大县城小孩姐的日常拉美地区加快推动初创企业发展(环球热点)ca88网站e世博注册彩金888集团电竞赌注
冬青奥会中国短道再夺两金ღღ◈ღ,中法欧领导人三方会晤举行2024年上半年末澳门人口68.7万人白小姐特新刊A完美体育下载入口leyu乐鱼快速开户365现金注册
马林受伤退赛必威Betway备用网ღღ◈ღ,ღღ◈ღ,贴吧百人吃鸡招募令强降雨致道路受损 医护人员深入山区上演生命接力大阳城集团下载365亚洲唯一下载188体育在线直播平台澳门永利网址
阴阳师推出签到3000天皮肤ღღ◈ღ,二月壁纸国际大学标准化入学考试ASTღღ◈ღ:中国学生升学新选择滚球体育即时比分体球网足球比分新版leyu乐鱼电竞下载2018年欧洲杯决赛
“五一”假期开启“韵味”旅游季ღღ◈ღ,子期杀了子期澳门上半年本地生产总值增长15.7%雷竞技raybet官网app金沙所有登入网址pg电子直播号bwin登录
赵牧辰李定豪正面刚ღღ◈ღ,央视曝光开盒挂人案例哈尔滨机场一月运送旅客229万人次创新高金沙APPku游平台云顶赌博在线威尼斯人网页登录页面