做网站后面加什么高端网站建设搭建

张小明 2026/3/2 19:56:41
做网站后面加什么,高端网站建设搭建,怀柔广州网站建设,郑州品牌网站建设费用摘要#xff1a; 如果你尝试把标准的 DQN 扔到一个静态数据集上训练#xff0c;你通常会得到一个在训练集上 Q 值高得离谱、但在实际环境里一跑就“暴毙”的策略。这种现象被称为 Extrapolation Error (外推误差)。本文将带你像侦探一样拆解这个灾难的发生过程#xff1a;从…摘要如果你尝试把标准的 DQN 扔到一个静态数据集上训练你通常会得到一个在训练集上 Q 值高得离谱、但在实际环境里一跑就“暴毙”的策略。这种现象被称为Extrapolation Error (外推误差)。本文将带你像侦探一样拆解这个灾难的发生过程从数据分布的偏移Distribution Shift到神经网络的“幻觉”再到 Bootstrapping 机制如何将这些错误无限放大。目录 (Table of Contents)问题的根源数据分布 vs 策略分布“反事实查询” (Counterfactual Queries)缺失的反馈回路Extrapolation Error神经网络的“幻觉”未见区域的预测是随机的Maximization Bias 的推波助澜致命组合Bootstrapping Function Approximation误差传播螺旋为什么 Supervised Learning 没有这个问题一个失败案例讲清原理自动驾驶的惨剧图解Q 值的真实面貌 vs 想象面貌总结与预告1. 问题的根源数据分布 vs 策略分布在 Offline RL 中我们面临两个分布的博弈行为策略分布 (Behavior Policy,π β \pi_\betaπβ​)这是产生数据集D \mathcal{D}D的分布。比如人类司机他们很少会逆行也很少冲出悬崖。目标策略分布 (Target Policy,π θ \pi_\thetaπθ​)这是我们正在训练的 Agent。1.1 “反事实查询” (Counterfactual Queries)Q-Learning 的核心在于 Bellman Optimality OperatorT Q ( s , a ) r ( s , a ) γ max ⁡ a ′ Q ( s ′ , a ′ ) \mathcal{T}Q(s, a) r(s,a) \gamma \max_{a} Q(s, a)TQ(s,a)r(s,a)γa′max​Q(s′,a′)注意这个max ⁡ a ′ \max_{a}maxa′​或者 Actor-Critic 中的a ′ ∼ π θ ( s ′ ) a \sim \pi_\theta(s)a′∼πθ​(s′)。在更新Q ( s , a ) Q(s, a)Q(s,a)时我们需要询问 Q 网络“如果我在下一时刻s ′ ss′采取了动作a ′ aa′我也许能拿多少分”问题在于这个a ′ aa′是由当前策略π θ \pi_\thetaπθ​计算出来的很可能从未出现在数据集D \mathcal{D}D中。这就是OOD (Out-of-Distribution) 动作。我们迫使 Q 网络去评估一个它从未见过的动作的价值。2. Extrapolation Error神经网络的“幻觉”既然动作没见过Q 网络会输出什么0 吗不它会输出噪声。2.1 泛化的代价深度神经网络具有强大的泛化能力。对于训练集中未包含的数据点OOD 区域网络的输出取决于初始化参数、激活函数以及训练数据的偶然相关性。简单来说对于没见过的动作Q 网络的打分是不可控的可能是 -100也可能是 1000。2.2 Maximization Bias (极大化偏差)如果 Q 值只是随机噪声均值为 0那问题还不大。但 RL 的更新公式里有一个max操作。Q t a r g e t r γ max ⁡ a ′ Q ( s ′ , a ′ ) Q_{target} r \gamma \max_{a} Q(s, a)Qtarget​rγa′max​Q(s′,a′)假设对于某个状态s ′ ss′真实的 OOD 动作价值很低比如撞墙。Q 网络由于估算错误对 10 个 OOD 动作的估值分别是[ − 5 , − 10 , 2 , − 50 , 100 , − 3 , . . . ] [-5, -10, 2, -50, \mathbf{100}, -3, ...][−5,−10,2,−50,100,−3,...]。其中那个100是完全错误的“幻觉”。但是max操作符专门挑选最大的值。它会精准地选中这个错误的 100并认为这是“最优策略”。结论OOD 区域的估计误差本身可能是正态分布的但max操作起到了过滤器的作用只保留了正向误差 (Overestimation)。3. 致命组合Bootstrapping Function Approximation如果只是偶尔估错一次也许还能忍。但在 RL 中我们有Bootstrapping (自举)。3.1 误差传播螺旋Bootstrapping 意味着我们是用“对未来的估计”来更新“现在的估计”。Step 1: 在状态s t 1 s_{t1}st1​Agent 误以为一个 OOD 动作a b a d ′ a_{bad}abad′​能得高分比如Q ( s t 1 , a b a d ′ ) 100 Q(s_{t1}, a_{bad}) 100Q(st1​,abad′​)100。Step 2: 根据 Bellman 方程这个错误的高分会回传给状态s t s_tst​Q ( s t , a t ) ← r t γ ⋅ 100 Q(s_t, a_t) \leftarrow r_t \gamma \cdot 100Q(st​,at​)←rt​γ⋅100现在Q ( s t , a t ) Q(s_t, a_t)Q(st​,at​)也被高估了。Step 3: 随着训练进行这个高估的Q ( s t , a t ) Q(s_t, a_t)Q(st​,at​)又会作为 Target 传播给s t − 1 s_{t-1}st−1​…结果Q 值像滚雪球一样爆炸。在很多 Offline RL 实验中你会看到 Q 值迅速飙升到天文数字而真实的 Test Reward 却是地板价。4. 一个失败案例讲清原理为了让这个抽象概念具象化我们来看一个经典的自动驾驶案例。4.1 场景设置任务高速公路驾驶。数据集D \mathcal{D}D人类专家数据。人类总是保持在车道中间偶尔变道。数据集中从未包含“冲出护栏”的数据。4.2 训练过程中的悲剧步骤这里的“内心戏” (Q-Network)真实世界 (Environment)1. 初始化网络随机初始化。对于动作“猛打方向盘冲出护栏”Q 值随机输出为50这是幻觉因为没见过这数据。实际上冲出护栏 Reward -1000。2. 策略查询算法计算max Q。它发现“保持车道”的 Q 值是 10基于数据学到的但“冲出护栏”的 Q 值是 50。-3. 误判算法欢呼“发现新大陆了原来冲出护栏才是捷径”-4. Online vs OfflineOnline RL: 会试一次撞车拿回 -1000修正 Q 值为低分。不再犯错。Offline RL:不能试只能相信那个 50。5. 策略更新Agent 将策略π \piπ更新为在任何时候都倾向于“冲出护栏”。-6. 最终测试模型上线。第一秒钟车子直接冲出悬崖。GG (Game Over)这就是Extrapolation Error。因为缺少环境的负反馈Agent 对未知世界的乐观想象最终害死了它。5. 总结与预告Offline RL 的核心难点总结数据覆盖不足数据集无法覆盖所有可能的(state, action)。OOD 幻觉对于未覆盖的动作Q 网络会输出不可控的数值。最大化偏差RL 算法倾向于选择那些被高估的 OOD 动作。无法证伪因为不能与环境交互Agent 永远无法发现自己错了。怎么办既然 Agent 容易“白日做梦”那我们就必须让它变得保守 (Conservative)甚至悲观 (Pessimistic)。策略约束 (Policy Constraint)强迫π θ \pi_\thetaπθ​必须和行为策略π β \pi_\betaπβ​长得像比如 BCQ。价值惩罚 (Value Regularization)对于 OOD 动作强行把它的 Q 值压低比如 CQL。下一篇我们将详解Conservative Q-Learning (CQL)看看它是如何通过数学上的魔法给狂妄的 Q 网络泼上一盆冷水的。原创文章欢迎转载。想看下一篇 CQL 解析的请点赞
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

个人网站上线流程教育网站集群建设申请

办公管理 目录 基于springboot vue办公管理系统 一、前言 二、系统功能演示 详细视频演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue办公管理系统 一、前言 博主介绍&am…

张小明 2025/12/23 3:08:04 网站建设

能进外国网站看视频的浏览器企业网站的作用和目的

FaceFusion人脸融合技术入选AI创新榜单 在影视特效、虚拟主播和社交媒体内容爆炸式增长的今天,人们对“换脸”的需求早已超越猎奇娱乐,转向专业级视觉创作。然而,传统换脸工具要么精度不足、边缘生硬,要么流程复杂、耗时漫长——直…

张小明 2025/12/24 8:09:11 网站建设

电子商务网站建设交印花税吗wordpress安装 503

动态消费的使用场景首先,什么是动态消费? 简单来讲,就是Spring Kafka提供了安全地在运行时调整消费状态的实现,可以随时调整消费者的消费状态。 比如暂时停止正在消费消息的消费者的消费,等到合适的时机再重新从中断的…

张小明 2026/1/4 3:24:26 网站建设

做彩投网站犯法吗天眼查企业查询app

文章目录系统截图项目简介大数据系统开发流程主要运用技术介绍爬虫核心代码展示结论源码文档获取定制开发/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 都jango_scrapy8ru49o 爬虫数据可视化分析大屏系统旅游景点印象服务系统 项目…

张小明 2026/2/26 17:49:14 网站建设

佛山网站建设与设计天津百度seo排名优化软件

引言 在企业级软件构建和分发体系中,Koji作为强大的构建系统,其构建节点(builder)的配置管理是确保整个系统稳定运行的关键。/etc/kojid/kojid.conf不仅是构建节点的控制中心,更是软件包元数据管理的核心。本文将深入剖…

张小明 2025/12/25 6:17:27 网站建设