交易网站开发合同范本现在还有人用asp做网站

张小明 2026/1/7 14:06:39
交易网站开发合同范本,现在还有人用asp做网站,正能量软件不良网站下载,wordpress 重装教程视频教程前篇文章已经介绍了评判模型critic#xff0c;引出了优势函数A#xff08;a,s#xff09;、价值函数V(s)#xff0c;并且我们知道一个好的critic模型给出的优势函数应该尽可能做到接近于reward的累计G减去当前状态的价值函数V#xff08;s#xff09;。但是上述例子成立的…前篇文章已经介绍了评判模型critic引出了优势函数Aa,s、价值函数V(s)并且我们知道一个好的critic模型给出的优势函数应该尽可能做到接近于reward的累计G减去当前状态的价值函数Vs。但是上述例子成立的前提是actor每进行一个action就可以立刻得到一个不为零的reward但是在某些情况下进行action以后是并不能立刻得到reward的或者reward为0该种情况称为sparse reward。例如围棋游戏actor就是棋手action就是落子但是单独落一颗子未必能很快的对局势造成有利或者不利影响所以就很难给出合适的reward这种情况下reward往往为0只有在游戏结束判定了胜负以后才能够得到reward。为了解决这种问题提出了reward shaping的思想即在原来的reward的基础上添加别的reward引导actor做出action训练AI进行FPS游戏是一个很好的说明reward shaping的概念。如果在不做reward shaping的情况下对于actor来说只有击杀对手才能得分但显然击杀对手的过程中要涉及到很多复杂的动作并且耗时较长仅仅依靠击杀对手作为rewardactor很难得到合适的训练此时就可以引入reward shaping例如1.血量损失reward-0.052.弹药损失reward-0.043.agent总是待在原地reward-0.03防止agent挂机摆烂。reward shaping的设置规则往往是人类根据经验来进行设定的得到合适的reward shaping规则要求人类对于如何完成任务有着深刻的理解一种有趣的reward shaping的方法是curiosity base该种reward shaping的核心方法是如果actor看到了新的画面就得到正的reward。例如在训练AI玩超级马里奥时该种方法就有较好的表现因为超级马里奥是一个二维游戏游戏通关的表现实际就是actor不断看到新的画面除了sparse reward的情况外还有一种更极端的情况那就是甚至无法得到reward。例如我们让actor去马路上进行行走马路上的路况十分复杂所以reward的规则很难制定这种情况下就几乎无法得到合适的reward。有一种处理此种问题的方法叫做Imitation Learning模仿学习。通过引入expert通常是人类和环境的交互示范来训练actor做出动作。这种训练模式类似于supervised learning。输入状态s将expert的动作作为标签那么就构成了一对数据s,;以此来对actor进行训练使其得到s输入后输出接近于expert的动作。但这样会产生一些问题1.如果expert的所有动作都是正确的如在自动驾驶场景下面对转弯问题时作为expert的人类每次都可以顺利转向那么机器就无法学习到转向失败时的数据因此在面对复杂场景时如果出现类似于转向失败的场景actor将无法处理2.完全复制模仿expert的行为会产生一些多余的动作。例如人类expert在转弯时习惯抽烟我们假设actor有抽烟的机动装置那么这个动作也会被actor学到但实际这个动作本身对转弯是没有任何好处的。3.expert具有非常多的行动特质而actor的学习能力有限只能学习其中的某些特质而并非expert的所有特质都是有利的例如转弯时抽烟如果actor只学到了对处理问题无益的action那么显然actor处理能力的问题并不会变强。上述问题都是建立在人类无法给出合理的reward机制的前提上我们自然而然的可以想出是否可以让机器自己来学习如何设置合适的reward呢Inverse Reinforcement Learning就是一种让机器自己训练reward的方法。这种方法的逻辑模型如下核心思路就是通过expert的行动、environment的反馈来反推出reward函数然后再用这个reward函数对actor进行训练。通过expert训练reward函数的时候有一个基本原则那就是要求expert的action所得到的reward必须要高于actor的分数但这并不代表我们要求actor完全模仿expert的行为训练的步骤如下1.初始化一个actor2.actor和环境交互3.定义一个初始的reward函数在下一次循环中要先更新reward函数让其计算expert的action和actor的action的累计奖励并且让expert的得分高于actor这里expert的action已经作为开始的数据输入到了模型中4.actor在新的reward函数下继续和环境互动最大化自己的累计reward
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

外贸优化网站制作百度快照优化公司

FaceFusion人脸替换在远程会议中的创新应用设想在如今的远程办公常态下,每天面对摄像头开会早已成为许多人的日常。但你是否也曾有过这样的体验:刚开完一场视频会议,精疲力尽地关掉镜头,不是因为讨论激烈,而是因为整整…

张小明 2026/1/7 2:03:37 网站建设

做外贸个人网站好吗博物馆网站开发

课程已经过半,从这节课起,你就将开始学习剩下的控制、侦测、运算和变量分类,剩下的积木块比前面学过的内容相对难一些,但是也更重要。难是因为它们的使用更加灵活多变,重要是因为想要完成一个复杂的游戏或者动画&#…

张小明 2026/1/7 5:52:40 网站建设

专业做面膜的网站ui设计师需要会什么

导语 【免费下载链接】LTX-Video 项目地址: https://ai.gitcode.com/hf_mirrors/Lightricks/LTX-Video Lightricks推出的LTX-Video模型以20亿参数的轻量化架构实现实时级视频生成,重新定义了中端硬件环境下的内容创作可能性。 行业现状:AI视频生…

张小明 2026/1/6 18:02:57 网站建设

网站建设方案的重要性中小企业网站建设公司

在软件开发过程中,数据库调试是一个常见的挑战,尤其是在没有直接访问开发和测试数据库的情况下。本文将探讨一个真实的案例,分析并解决一个有趣的数据库调试问题。 问题背景 在项目中,开发人员常常无法直接访问开发和测试数据库,这使得调试变得非常困难。为了解决这个问…

张小明 2026/1/6 13:33:25 网站建设

网站源码还可以做授权么深圳网站设计工作室

Unix/Linux文本处理工具大揭秘 1. sort命令详解 sort命令在文本排序中扮演着至关重要的角色。例如, sort -k 4.10,4.13n 告诉sort,第一个且最重要的字段是年份,它位于第四个字段的第10 - 13个字符,并且按数字顺序排序。第二个 -k 标志 -k 4.6,4.8M 则表示将第四个字…

张小明 2026/1/6 17:47:40 网站建设

优礼品网站模板typecho 转wordpress

“用 AI 写论文,到底是提升效率还是浪费时间?”🤔“生成的内容看似专业,却无法验证真实性,答辩时被导师问倒?”😱“AI 辅助痕迹说不清、道不明,担心被认定为学术不端?”&…

张小明 2026/1/7 10:19:13 网站建设