400-123-4567
 
德赢vwin

新闻速递m6旧版app_社会新闻_大众网


更新时间:2025-06-19 21:07      点击次数:

  既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。

  对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。

  目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。

  他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。

  将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移

  CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。

  其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。

  研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。

  由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。

  CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。

  核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。

  前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。

  并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。

  通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。

  在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。

  阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。

  P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%

  研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。

  结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。

  PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。

  05月25日,2024央博新春云庙会升级亮相 工笔画家任重带来《龙腾甲辰》,

  中年人化成人身,通体光芒消失,栽倒在血泊中,非常的不甘,眸子暗淡,凶光幻灭,自语道:“想我修炼半生,三十岁才破入洞天境,如今修行到五十多岁了,还没有突破到更高层次,你才一个娃娃而已,居然与我同一高度了。”

  绿莹莹的柳枝无坚不摧,在众人吃惊的目光中洞穿了那头凶蛟的额骨,贯穿而过,如一条绿色的神链,带着滔天的威能,所向披靡。

  第二,请你做到,对自己负责!作为一个小学生,我们有自己的行为规范,我们有自己的`道德要求,请你以此为标准要求自己。让“讲文明、讲卫生、守纪律、尊长辈”成为你的生活习惯,让按时完成学习任务成为你的学习习惯,当你发现你做到了”对自己负责”这五个的时候,你一定会感受到格外的轻松!

  05月25日,大陆开放福建居民赴金门马祖旅游 国台办:希望当局撤除两岸人员往来禁限,

  “是!”族长用力点了点头,那个时候他还年少,目睹了这一切,心中的震撼可想而知。

  小不点大战九头狮子,闯入大草原深处,远离了那座宏伟的石山,战场波及范围极广,宝术神辉惊天。

  “见面更胜闻名,可怜的肥遗,可怜的三眼族天才,可怜的五色鸾鸟,居然遇上了他。”

  新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证

 

Copyright © 2002-2025 德赢vwin有限公司 版权所有 非商用版本   TEL: 400-123-4567

地址:广东省广州市天河区88号      邮箱:admin@http://www.gusiling.com

粤IP*******