做网站后面加什么高端网站建设搭建-Seo优化-定安县网站建设公司

做网站后面加什么,高端网站建设搭建,怀柔广州网站建设,郑州品牌网站建设费用摘要#xff1a; 如果你尝试把标准的 DQN 扔到一个静态数据集上训练#xff0c;你通常会得到一个在训练集上 Q 值高得离谱、但在实际环境里一跑就“暴毙”的策略。这种现象被称为 Extrapolation Error (外推误差)。本文将带你像侦探一样拆解这个灾难的发生过程#xff1a;从…摘要如果你尝试把标准的 DQN 扔到一个静态数据集上训练你通常会得到一个在训练集上 Q 值高得离谱、但在实际环境里一跑就“暴毙”的策略。这种现象被称为Extrapolation Error (外推误差)。本文将带你像侦探一样拆解这个灾难的发生过程从数据分布的偏移Distribution Shift到神经网络的“幻觉”再到 Bootstrapping 机制如何将这些错误无限放大。目录 (Table of Contents)问题的根源数据分布 vs 策略分布“反事实查询” (Counterfactual Queries)缺失的反馈回路Extrapolation Error神经网络的“幻觉”未见区域的预测是随机的Maximization Bias 的推波助澜致命组合Bootstrapping Function Approximation误差传播螺旋为什么 Supervised Learning 没有这个问题一个失败案例讲清原理自动驾驶的惨剧图解Q 值的真实面貌 vs 想象面貌总结与预告1. 问题的根源数据分布 vs 策略分布在 Offline RL 中我们面临两个分布的博弈行为策略分布 (Behavior Policy,π β \pi_\betaπβ)这是产生数据集D \mathcal{D}D的分布。比如人类司机他们很少会逆行也很少冲出悬崖。目标策略分布 (Target Policy,π θ \pi_\thetaπθ)这是我们正在训练的 Agent。1.1 “反事实查询” (Counterfactual Queries)Q-Learning 的核心在于 Bellman Optimality OperatorT Q ( s , a ) r ( s , a ) γ max ⁡ a ′ Q ( s ′ , a ′ ) \mathcal{T}Q(s, a) r(s,a) \gamma \max_{a} Q(s, a)TQ(s,a)r(s,a)γa′maxQ(s′,a′)注意这个max ⁡ a ′ \max_{a}maxa′或者 Actor-Critic 中的a ′ ∼ π θ ( s ′ ) a \sim \pi_\theta(s)a′∼πθ(s′)。在更新Q ( s , a ) Q(s, a)Q(s,a)时我们需要询问 Q 网络“如果我在下一时刻s ′ ss′采取了动作a ′ aa′我也许能拿多少分”问题在于这个a ′ aa′是由当前策略π θ \pi_\thetaπθ计算出来的很可能从未出现在数据集D \mathcal{D}D中。这就是OOD (Out-of-Distribution) 动作。我们迫使 Q 网络去评估一个它从未见过的动作的价值。2. Extrapolation Error神经网络的“幻觉”既然动作没见过Q 网络会输出什么0 吗不它会输出噪声。2.1 泛化的代价深度神经网络具有强大的泛化能力。对于训练集中未包含的数据点OOD 区域网络的输出取决于初始化参数、激活函数以及训练数据的偶然相关性。简单来说对于没见过的动作Q 网络的打分是不可控的可能是 -100也可能是 1000。2.2 Maximization Bias (极大化偏差)如果 Q 值只是随机噪声均值为 0那问题还不大。但 RL 的更新公式里有一个max操作。Q t a r g e t r γ max ⁡ a ′ Q ( s ′ , a ′ ) Q_{target} r \gamma \max_{a} Q(s, a)Qtargetrγa′maxQ(s′,a′)假设对于某个状态s ′ ss′真实的 OOD 动作价值很低比如撞墙。Q 网络由于估算错误对 10 个 OOD 动作的估值分别是[ − 5 , − 10 , 2 , − 50 , 100 , − 3 , . . . ] [-5, -10, 2, -50, \mathbf{100}, -3, ...][−5,−10,2,−50,100,−3,...]。其中那个100是完全错误的“幻觉”。但是max操作符专门挑选最大的值。它会精准地选中这个错误的 100并认为这是“最优策略”。结论OOD 区域的估计误差本身可能是正态分布的但max操作起到了过滤器的作用只保留了正向误差 (Overestimation)。3. 致命组合Bootstrapping Function Approximation如果只是偶尔估错一次也许还能忍。但在 RL 中我们有Bootstrapping (自举)。3.1 误差传播螺旋Bootstrapping 意味着我们是用“对未来的估计”来更新“现在的估计”。Step 1: 在状态s t 1 s_{t1}st1Agent 误以为一个 OOD 动作a b a d ′ a_{bad}abad′能得高分比如Q ( s t 1 , a b a d ′ ) 100 Q(s_{t1}, a_{bad}) 100Q(st1,abad′)100。Step 2: 根据 Bellman 方程这个错误的高分会回传给状态s t s_tstQ ( s t , a t ) ← r t γ ⋅ 100 Q(s_t, a_t) \leftarrow r_t \gamma \cdot 100Q(st,at)←rtγ⋅100现在Q ( s t , a t ) Q(s_t, a_t)Q(st,at)也被高估了。Step 3: 随着训练进行这个高估的Q ( s t , a t ) Q(s_t, a_t)Q(st,at)又会作为 Target 传播给s t − 1 s_{t-1}st−1…结果Q 值像滚雪球一样爆炸。在很多 Offline RL 实验中你会看到 Q 值迅速飙升到天文数字而真实的 Test Reward 却是地板价。4. 一个失败案例讲清原理为了让这个抽象概念具象化我们来看一个经典的自动驾驶案例。4.1 场景设置任务高速公路驾驶。数据集D \mathcal{D}D人类专家数据。人类总是保持在车道中间偶尔变道。数据集中从未包含“冲出护栏”的数据。4.2 训练过程中的悲剧步骤这里的“内心戏” (Q-Network)真实世界 (Environment)1. 初始化网络随机初始化。对于动作“猛打方向盘冲出护栏”Q 值随机输出为50这是幻觉因为没见过这数据。实际上冲出护栏 Reward -1000。2. 策略查询算法计算max Q。它发现“保持车道”的 Q 值是 10基于数据学到的但“冲出护栏”的 Q 值是 50。-3. 误判算法欢呼“发现新大陆了原来冲出护栏才是捷径”-4. Online vs OfflineOnline RL: 会试一次撞车拿回 -1000修正 Q 值为低分。不再犯错。Offline RL:不能试只能相信那个 50。5. 策略更新Agent 将策略π \piπ更新为在任何时候都倾向于“冲出护栏”。-6. 最终测试模型上线。第一秒钟车子直接冲出悬崖。GG (Game Over)这就是Extrapolation Error。因为缺少环境的负反馈Agent 对未知世界的乐观想象最终害死了它。5. 总结与预告Offline RL 的核心难点总结数据覆盖不足数据集无法覆盖所有可能的(state, action)。OOD 幻觉对于未覆盖的动作Q 网络会输出不可控的数值。最大化偏差RL 算法倾向于选择那些被高估的 OOD 动作。无法证伪因为不能与环境交互Agent 永远无法发现自己错了。怎么办既然 Agent 容易“白日做梦”那我们就必须让它变得保守 (Conservative)甚至悲观 (Pessimistic)。策略约束 (Policy Constraint)强迫π θ \pi_\thetaπθ必须和行为策略π β \pi_\betaπβ长得像比如 BCQ。价值惩罚 (Value Regularization)对于 OOD 动作强行把它的 Q 值压低比如 CQL。下一篇我们将详解Conservative Q-Learning (CQL)看看它是如何通过数学上的魔法给狂妄的 Q 网络泼上一盆冷水的。原创文章欢迎转载。想看下一篇 CQL 解析的请点赞

做网站后面加什么高端网站建设搭建

怎么让同一个局域网上的计算机看到我做的网站wordpress侧边栏工具

个人网站上线流程教育网站集群建设申请

能进外国网站看视频的浏览器企业网站的作用和目的

电子商务网站建设交印花税吗wordpress安装 503

做彩投网站犯法吗天眼查企业查询app

佛山网站建设与设计天津百度seo排名优化软件