wap html网站模板wordpress汉化主题下载
wap html网站模板,wordpress汉化主题下载,如何做自己的淘宝优惠券网站,上网服务更一期草履虫强化学习系列#xff08;书稿#xff09;1.2.3 蒙特卡罗树搜索算法原理在强化学习#xff08;Reinforcement Learning, RL#xff09;的语境下#xff0c;蒙特卡洛#xff08;Monte Carlo, MC#xff09;方法通常被归类为无模型#xff08;Model-Free…更一期草履虫强化学习系列书稿1.2.3 蒙特卡罗树搜索算法原理在强化学习Reinforcement Learning, RL的语境下蒙特卡洛Monte Carlo, MC方法通常被归类为无模型Model-Free方法。但是我们也可以在基于模型Model-Based的框架下使用蒙特卡洛的思想。1. 无模型Model-Free蒙特卡洛方法这是最常见的用法核心思想直接从与环境交互获得的完整经验片段episodes中学习价值函数Value Function或策略Policy而不需要学习或了解环境的动态模型即状态转移概率 P(s|s,a) 和奖励函数 R(s,a,s)。这俩举2个无模型的蒙特卡洛法的例子MC Prediction (预测):估计给定策略 π 下的状态价值 Vπ(s) 或动作价值 Qπ(s,a)。它通过在一个完整的 episode 结束后计算从状态 s (或状态-动作对 (s,a)) 开始直到结束所获得的累积回报ReturnGₜ然后将多次 episode 中观测到的回报进行平均作为价值的估计。例如V(s) ≈ average(Gₜ | Sₜs) 经过若干轮MC Control (控制):在估计动作价值 Qπ(s,a) 的基础上通过不断改进策略来找到最优策略 π*。这通常涉及到广义策略迭代Generalized Policy Iteration, GPI的思想根据当前的 Q 值贪婪地或 ε-greedy地更新策略然后用新策略产生新的 episodes 来重新估计 Q 值。REINFORCE这个在下一章节详细展开讲。特点不依赖环境模型。只能从完整的 episodes 中学习必须等到一个 episode 结束才能更新。对于非马尔可夫环境non-Markovian environments也可能有效因为它不依赖于单步转移。方差通常较高因为回报依赖于整个 episode 的随机性。2. 基于模型Model-Based方法中使用蒙特卡洛思想虽然标准的 MC 方法是无模型的但我们可以在基于模型的框架下利用蒙特卡洛采样的思想核心思想首先从与环境的交互中学习一个环境模型估计 P 和 R。然后利用这个学习到的模型来模拟simulate大量的经验片段再将无模型的蒙特卡洛方法或其他方法如动态规划、时序差分应用于这些模拟出的经验上进行规划Planning或学习。工作方式步骤 1: 模型学习Model Learning通过与真实环境交互收集数据 (s, a, r, s)并使用这些数据来估计状态转移概率 P̂(s|s,a) 和奖励函数 R̂(s,a)。步骤 2: 规划/学习Planning/Learning using the Model蒙特卡洛规划 (Monte Carlo Planning / Simulation-Based Planning):使用学习到的模型 P̂ 和 R̂ 来生成大量的模拟 episodes。然后对这些模拟的 episodes 应用标准的蒙特卡洛预测或控制方法来估计价值函数或优化策略。例如从某个状态 s 开始根据 P̂ 和 R̂ 模拟多条完整的轨迹计算平均回报来估计 V(s)。这种方法有时被称为基于模拟的规划Simulation-Based Planning。著名的例子是蒙特卡洛树搜索Monte Carlo Tree Search, MCTS虽然它结合了树搜索和蒙特卡洛模拟但其核心思想是在一个隐式或显式的模型或模拟器中通过采样来评估动作的好坏。特点依赖于学习到的环境模型。可以通过模拟产生大量经验可能提高样本效率Sample Efficiency即用较少的真实环境交互达到好的效果。学习效果受限于模型的准确性。如果模型不准确规划/学习的结果可能会很差。本节我们讨论有模型的蒙特卡洛方法所以我们重点讲一下蒙特卡洛树搜索Monte Carlo Tree Search, MCTS。首先我们先看一个概念前向最大搜索树Forward Search Expectimax Tree那么什么是前向搜索呢简单来说前向搜索是一种在线规划Online Planning或决策时规划Decision-Time Planning的技术。它的核心思想是当你需要决定在当前状态下采取哪个动作时你才开始思考搜索未来的可能性而不是提前计算好所有状态下的最优动作。想象一下你在下棋你不会在棋局开始前就计算出后面几百步所有可能局面下的最佳应对这通常是不可能的。相反轮到你走棋时即你在当前状态下你会向前思考几步向前搜索评估各种可能的走法动作会导致什么样的局面未来状态以及这些局面最终可能带来的结果价值/奖励然后选择当前看起来最好的一步棋。这就是前向搜索的基本思路。那么前向搜索树呢前向搜索算法通过“向前看”Lookahead来选择最佳动作 (Forward search algorithms select the best action by lookahead):与动态规划如价值迭代或策略迭代等计算整个 MDP 所有状态的值或策略不同前向搜索算法只关注当前状态 (s_t)。它从当前状态出发模拟或者说“搜索”未来可能发生的一系列状态和动作评估不同初始动作可能带来的长期收益然后选择当前看起来最好的那个动作。它们构建一个以当前状态s_t 为根的搜索树。这个搜索过程的可视化就是一棵树。树的根节点就是当前的实际状态 s_t。树的后续节点和分支代表了从s_t 开始采取不同动作后可能遇到的后续状态以及在那些状态下可以采取的进一步动作。使用 MDP 的模型进行向前看:这是关键点表明前向搜索是基于模型的Model-Based方法。为了能够预测采取某个动作后会发生什么即会转移到哪个或哪些后续状态以及获得什么奖励算法必须知道 MDP 的模型。这个模型通常包括状态转移概率 (Transition Probability):P(s | s, a) - 在状态 s 采取动作 a 后转移到状态 s 的概率。奖励函数 (Reward Function):R(s, a, s) - 在状态 s 采取动作 a 并转移到状态 s 后获得的即时奖励。图示期望最大树 (Expectimax Tree):根节点 (s_t):代表当前状态通常是一个“状态节点”State Node由代理Agent做决策。在图中用空心圆圈表示。分支:从 s_t 出发的每个分支代表一个可行的动作。黑色实心圆圈:代表“机会节点”Chance Node。当代理采取一个动作后环境根据其内在的随机性由转移概率 P(s|s,a) 决定选择下一个状态。可能有多个可能的后续状态每个状态以一定的概率出现。下一层的空心圆圈:代表采取动作并经过环境随机转移后到达的后续状态。在这些状态节点代理又需要做决策。树的结构:树通常是交替出现的状态节点代理选择动作通常是最大化 Maximize 期望收益 - 机会节点环境根据概率决定结果计算期望 Expectation 收益。这就是“Expecti-Max”名字的由来。叶子节点 (T):标记为 T 的绿色方块代表搜索达到的终止状态Terminal state或者预设的搜索深度限制。这些叶子节点有一个估计的价值Utility可能是终止奖励或者是在达到最大深度时对该状态价值的一个估计比如用一个启发式函数评估。回溯计算:期望最大算法通过从叶子节点向上回溯计算节点的价值在状态节点空心圆其价值是其所有子节点机会节点价值中的最大值(Max)。在机会节点实心圆其价值是其所有子节点状态节点价值的期望值(Expectation)即根据转移概率对子节点价值进行加权平均。最终根节点s_t 下每个动作对应的第一个机会节点的价值会被计算出来代理选择那个具有最高价值的动作。无需解决整个 MDP只需解决从现在开始的子 MDP 。这是前向搜索的一个主要优点尤其是在状态空间非常大的情况下。算法不需要计算所有可能状态的最优策略或价值函数。它只在需要做决策时针对当前状态s_t 构建一个有限深度的局部搜索树解决这个“以 s_t 为根的子问题”。这使得它在计算资源有限或状态空间过大而无法完全求解的情况下非常实用。前向搜索 (Forward Search) 是一个更广泛的概念/框架:它指的是一种在线规划Online Planning的策略当需要做决策时从当前状态出发利用一个环境模型来模拟“向前看”未来的可能性构建一个局部的搜索树评估不同初始动作的价值然后选择最好的那个动作。它强调的是“在决策时、从当前状态向前看、使用模型”这个基本思想。很多算法都可以归入前向搜索的范畴比如期望最大搜索 (Expectimax Search):在树中显式地计算期望值和最大值如上张幻灯片所示。有限深度 Minimax/Alpha-Beta 剪枝:在博弈论中常用也是从当前状态向前看。我更完了MCTS估计还更几期再回头一期更 价值迭代和策略迭代还有mcts的代码nested learning 下一次更