完全开源的语言模型学习记录--80/20法则，LLM只需20%token学会Reasoning

张开发

• 2026/4/17 7:20:42 • 15 分钟阅读

分享文章

完全开源的语言模型学习记录--80/20法则，LLM只需20%token学会Reasoning

文章目录文档总结基于RLVR与高熵少数Token论文一、一段话简要总结二、思维导图三、详细总结1. 研究背景与动机2. 核心概念定义3. 关键实证发现1CoT的Token熵分布规律2RLVR训练的熵模式演化3高熵Token驱动RLVR效果4. 实验配置5. 核心实验结果6. 机制分析与讨论四、关键问题与答案问题1为什么仅用20%高熵Token就能让RLVR达到全Token训练效果问题2RLVR训练过程中模型的Token熵分布会发生什么变化问题3该研究对LLM推理强化学习有哪些实际应用价值https://github.com/Shenzhi-Wang/Beyond-the-80-20-Rule-RLVRhttps://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning文档总结基于RLVR与高熵少数Token论文一、一段话简要总结本文从Token熵视角全新解析RLVR可验证奖励强化学习提升大模型推理的机制发现思维链CoT中仅20%高熵少数Token充当推理路径“分叉点”RLVR主要优化这类Token仅用前20%高熵Token更新策略梯度即可在Qwen3系列模型上达到甚至超越全Token训练效果模型越大增益越显著32B模型在AIME’24/25分别提升7.71/11.04分。二、思维导图## **研究核心** - 视角Token熵模式 - 目标解析RLVR推理机制 - 方法仅用高熵Token做策略梯度更新 ## **关键发现** - CoT少数高熵Token推理分叉点多数低熵Token无关键作用 - RLVR保留基座熵模式仅调整高熵Token - 效果20%高熵Token≈全Token性能大模型增益更强 ## **实验设置** - 模型Qwen3-8B/14B/32B、Llama-3.1-8B - 算法DAPO基线 - 数据集DAPO-Math-17K、AIME等6大数学基准 - 比例仅保留Top20%高熵Token ## **实验结果** - 32BAIME’247.71、AIME’2511.04SOTA 63.5/56.7 - 14BAIME’245.21、AIME’254.79 - 8B性能持平 - 长文本32B扩长度至29kAIME’24达68.1 ## **价值与讨论** - 解释RL泛化、SFT记忆的原因 - 熵奖励不如clip-higher适配LLM推理 - 可优化RLVR、SFT、蒸馏等算法三、详细总结1. 研究背景与动机RLVR是提升LLM数学/编程推理的核心技术但作用机制不明确。现有RLVR全Token训练未区分Token在推理中的不同作用效率与效果存在瓶颈。本文首次从Token熵分布视角拆解RLVR提升推理的底层逻辑。2. 核心概念定义Token熵衡量模型生成该Token时的不确定性熵越高代表选择越多样、越关键。分叉TokenForking TokensCoT中高熵少数Token决定推理路径走向如逻辑连接词、假设定义词。RLVR基于可自动验证结果的奖励做强化学习本文以DAPO为基线算法。3. 关键实证发现1CoT的Token熵分布规律约50.64%Token熵低于10⁻²仅20%Token熵大于0.67280分位数。高熵Token承担逻辑转折、定义假设等推理决策功能。低熵Token仅完成语句、公式拼接无决策价值。2RLVR训练的熵模式演化RLVR高度保留基座模型的熵分布训练收敛时与基座高熵Token重叠率仍**86%**。RLVR仅显著调整高熵Token熵值低熵Token熵几乎无变化。3高熵Token驱动RLVR效果仅用Top20%高熵Token更新梯度效果优于/持平全Token训练。仅用Bottom80%低熵Token训练推理性能大幅下降。4. 实验配置项目详情基座模型Qwen3-8B/14B/32B、Llama-3.1-8B基线算法DAPO无价值网络SOTA RLVR训练数据DAPO-Math-17K评估基准AIME’24/25、AMC’23、MATH500、Minerva、OlympiadBench关键参数仅保留Top20%高熵Token最大生成长度20k/29k5. 核心实验结果模型AIME’24提升AIME’25提升关键结论Qwen3-32B7.7111.04刷新600B内基座RLVR SOTAQwen3-14B5.214.79中等模型显著增益Qwen3-8B1.250.83性能持平扩展生成长度至29kQwen3-32B AIME’24达68.1。跨域验证编程基准LiveCodeBench上Top20%高熵Token仍优于全Token。6. 机制分析与讨论RL泛化、SFT记忆RL保留/提升分叉Token熵保持推理灵活性SFT降低熵导致记忆化。熵奖励缺陷全局提升熵会破坏低熵Token的语言流畅性clip-higher更适配LLM。** scaling规律**模型越大聚焦高熵Token的增益越明显。四、关键问题与答案问题1为什么仅用20%高熵Token就能让RLVR达到全Token训练效果答案因为CoT推理中仅20%高熵Token是“分叉点”决定推理路径方向是RLVR学习的核心剩余80%低熵Token仅完成语言/公式拼接对推理决策无贡献甚至会干扰训练因此剔除后不影响性能大模型下还能进一步提升。问题2RLVR训练过程中模型的Token熵分布会发生什么变化答案RLVR会高度保留基座模型的熵分布模式训练收敛时与基座高熵Token位置重叠率仍超86%且仅显著调整高熵Token的熵值低熵Token的熵在训练中几乎无波动保持稳定。问题3该研究对LLM推理强化学习有哪些实际应用价值答案1. 提出高效RLVR训练策略仅用20%高熵Token更新梯度降低计算成本2.模型越大增益越强适合大模型推理优化3. 解释RL泛化、SFT记忆的底层原因为对齐训练提供理论指导4. 证明clip-higher优于全局熵奖励可直接优化现有RLVR算法。

完全开源的语言模型学习记录--80/20法则，LLM只需20%token学会Reasoning

最新文章

GOOSE报文深度解析：从ASN.1结构到网络抓包实践

2026-03-18(周三) - 郭老师-软，是最高级的硬：清醒者的五重选择

远程诊断DoIP（笔记二）实战：从协议栈到车载网络部署

PptxGenJS高级技巧：掌握幻灯片母版和主题定制终极指南

终极数据科学竞赛实战指南：12大平台完整解决方案合集

告别sudo！用udev规则为ESP32/Arduino设备固定串口名并自动赋权（Ubuntu/树莓派教程）

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

构建基于GTE-Base-ZH的.NET企业级文档智能中台

从医学影像到自动驾驶：U-Net的‘跳跃连接’如何成为分割任务的万金油？

React Hook 状态同步策略

如何快速掌握暗黑破坏神2存档编辑器：新手完整使用指南

酒业行业自动化平台选型，渠道与财务全流程管控：2026年企业级智能体落地实测与架构深度解析

FLUX.1-dev像素艺术终端参数详解：CFG值对像素颗粒感影响深度分析

【计算机组成原理】总线（二）—— 总线性能优化与多总线架构设计

Scarab模组管理器：空洞骑士模组安装的终极解决方案

技术面试官喜欢问什么问题？

发散创新：基于Python的情感计算实战——从文本到情绪的智能识别在人工智能与人机交互日益融合

VMware虚拟机扩容

从卫星天线到光纤收发器：拆解Bias Tee在5大热门场景中的“隐形”工作