强化学习3.1:表格求解法——动态规划方法

张开发
2026/4/9 3:40:10 15 分钟阅读

分享文章

强化学习3.1:表格求解法——动态规划方法
定义环境模型完全已知即状态转移概率和奖励函数已知的情况下利用动态规划的思想来解决马尔可夫决策过程的最优策略问题核心概念基于模型 意味着智能体拥有一个对环境的“内部模拟器”。它知道在任何一个状态 s下执行任何一个动作 a 后会转移到哪个状态s概率P(s|s, a)以及能获得多少即时奖励R(s, a, s)。动态规划 是一种通过把复杂问题分解为重叠子问题并存储子问题的解记忆化来高效解决原问题的算法思想。在这里核心是利用了贝尔曼方程的递归结构。核心思想该方法的核心思想是“规划”而非“学习”。它不通过与真实环境的交互试错来学习而是在内部模型上进行“思想实验”通过迭代计算来评估和改进策略最终找到最优策略。两种主要算法1. 策略迭代一个“评估-改进”的循环过程它直接搜索最优策略步骤1策略评估给定一个当前策略 π计算该策略下的状态值函数 vπ(s)通过反复应用贝尔曼期望方程进行迭代直到值函数收敛步骤2策略改进根据评估出的值函数 vπ在每个状态贪婪地选择能使得行动值最大的动作从而生成一个更好的新策略 π′循环 用新策略 π’ 替换旧策略 π重复评估和改进过程。由于策略总数有限且每次改进都保证更优这个过程最终会收敛到最优策略π∗.2. 值迭代:将策略评估和策略改进的过程合二为一直接寻找最优值函数核心操作反复应用贝尔曼最优方程作为更新规则过程 从任意的初始值函数 v0开始持续进行上述更新。当值函数的变化小于某个阈值时即可认为收敛到了最优值函数 v∗提取策略 一旦获得 v∗​可以通过一次“策略改进”步骤提取出最优确定性策略

更多文章