完全开源的语言模型学习记录--80/20法则,LLM只需20%token学会Reasoning

张开发
2026/4/17 7:20:42 15 分钟阅读

分享文章

完全开源的语言模型学习记录--80/20法则,LLM只需20%token学会Reasoning
文章目录文档总结基于RLVR与高熵少数Token论文一、一段话简要总结二、思维导图三、详细总结1. 研究背景与动机2. 核心概念定义3. 关键实证发现1CoT的Token熵分布规律2RLVR训练的熵模式演化3高熵Token驱动RLVR效果4. 实验配置5. 核心实验结果6. 机制分析与讨论四、关键问题与答案问题1为什么仅用20%高熵Token就能让RLVR达到全Token训练效果问题2RLVR训练过程中模型的Token熵分布会发生什么变化问题3该研究对LLM推理强化学习有哪些实际应用价值https://github.com/Shenzhi-Wang/Beyond-the-80-20-Rule-RLVRhttps://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning文档总结基于RLVR与高熵少数Token论文一、一段话简要总结本文从Token熵视角全新解析RLVR可验证奖励强化学习提升大模型推理的机制发现思维链CoT中仅20%高熵少数Token充当推理路径“分叉点”RLVR主要优化这类Token仅用前20%高熵Token更新策略梯度即可在Qwen3系列模型上达到甚至超越全Token训练效果模型越大增益越显著32B模型在AIME’24/25分别提升7.71/11.04分。二、思维导图## **研究核心** - 视角Token熵模式 - 目标解析RLVR推理机制 - 方法仅用高熵Token做策略梯度更新 ## **关键发现** - CoT少数高熵Token推理分叉点多数低熵Token无关键作用 - RLVR保留基座熵模式仅调整高熵Token - 效果20%高熵Token≈全Token性能大模型增益更强 ## **实验设置** - 模型Qwen3-8B/14B/32B、Llama-3.1-8B - 算法DAPO基线 - 数据集DAPO-Math-17K、AIME等6大数学基准 - 比例仅保留Top20%高熵Token ## **实验结果** - 32BAIME’247.71、AIME’2511.04SOTA 63.5/56.7 - 14BAIME’245.21、AIME’254.79 - 8B性能持平 - 长文本32B扩长度至29kAIME’24达68.1 ## **价值与讨论** - 解释RL泛化、SFT记忆的原因 - 熵奖励不如clip-higher适配LLM推理 - 可优化RLVR、SFT、蒸馏等算法三、详细总结1. 研究背景与动机RLVR是提升LLM数学/编程推理的核心技术但作用机制不明确。现有RLVR全Token训练未区分Token在推理中的不同作用效率与效果存在瓶颈。本文首次从Token熵分布视角拆解RLVR提升推理的底层逻辑。2. 核心概念定义Token熵衡量模型生成该Token时的不确定性熵越高代表选择越多样、越关键。分叉TokenForking TokensCoT中高熵少数Token决定推理路径走向如逻辑连接词、假设定义词。RLVR基于可自动验证结果的奖励做强化学习本文以DAPO为基线算法。3. 关键实证发现1CoT的Token熵分布规律约50.64%Token熵低于10⁻²仅20%Token熵大于0.67280分位数。高熵Token承担逻辑转折、定义假设等推理决策功能。低熵Token仅完成语句、公式拼接无决策价值。2RLVR训练的熵模式演化RLVR高度保留基座模型的熵分布训练收敛时与基座高熵Token重叠率仍**86%**。RLVR仅显著调整高熵Token熵值低熵Token熵几乎无变化。3高熵Token驱动RLVR效果仅用Top20%高熵Token更新梯度效果优于/持平全Token训练。仅用Bottom80%低熵Token训练推理性能大幅下降。4. 实验配置项目详情基座模型Qwen3-8B/14B/32B、Llama-3.1-8B基线算法DAPO无价值网络SOTA RLVR训练数据DAPO-Math-17K评估基准AIME’24/25、AMC’23、MATH500、Minerva、OlympiadBench关键参数仅保留Top20%高熵Token最大生成长度20k/29k5. 核心实验结果模型AIME’24提升AIME’25提升关键结论Qwen3-32B7.7111.04刷新600B内基座RLVR SOTAQwen3-14B5.214.79中等模型显著增益Qwen3-8B1.250.83性能持平扩展生成长度至29kQwen3-32B AIME’24达68.1。跨域验证编程基准LiveCodeBench上Top20%高熵Token仍优于全Token。6. 机制分析与讨论RL泛化、SFT记忆RL保留/提升分叉Token熵保持推理灵活性SFT降低熵导致记忆化。熵奖励缺陷全局提升熵会破坏低熵Token的语言流畅性clip-higher更适配LLM。** scaling规律**模型越大聚焦高熵Token的增益越明显。四、关键问题与答案问题1为什么仅用20%高熵Token就能让RLVR达到全Token训练效果答案因为CoT推理中仅20%高熵Token是“分叉点”决定推理路径方向是RLVR学习的核心剩余80%低熵Token仅完成语言/公式拼接对推理决策无贡献甚至会干扰训练因此剔除后不影响性能大模型下还能进一步提升。问题2RLVR训练过程中模型的Token熵分布会发生什么变化答案RLVR会高度保留基座模型的熵分布模式训练收敛时与基座高熵Token位置重叠率仍超86%且仅显著调整高熵Token的熵值低熵Token的熵在训练中几乎无波动保持稳定。问题3该研究对LLM推理强化学习有哪些实际应用价值答案1. 提出高效RLVR训练策略仅用20%高熵Token更新梯度降低计算成本2.模型越大增益越强适合大模型推理优化3. 解释RL泛化、SFT记忆的底层原因为对齐训练提供理论指导4. 证明clip-higher优于全局熵奖励可直接优化现有RLVR算法。

更多文章