建设电商网站的总结报告经营阅读网站需要怎么做-Seo优化-定安县网站建设公司

建设电商网站的总结报告,经营阅读网站需要怎么做,wordpress破解加密文章,成都三网合一网站建设理论基础#xff1a;注意#xff1a;1. 策略的输出要加对数#xff0c;因此net输出必须softmax#xff0c;将输出限制为正数。2. 这里选择action不是greedy地选择最优action#xff0c;而是按照概率分布选择action-exploration。3. 策略更新使用的是梯度上升#xff…理论基础注意1. 策略的输出要加对数因此net输出必须softmax将输出限制为正数。2. 这里选择action不是greedy地选择最优action而是按照概率分布选择action-exploration。3. 策略更新使用的是梯度上升因此loss取负。4. 这里使用step一步步收集episode而不是像之前一样直接使用generate_episode函数生成完成的path是因为在generate_episode中是使用greedy的方法选择action的见2。5. num_episodes大一些。代码可运行import numpy as np import torch from torch import nn from env import GridWorldEnv from utils import drow_policy policy gradient by Monte Carlo class Reinforce(object): def __init__(self, env: GridWorldEnv, gamma0.9, lr1e-2): :param env: :param gamma: discount rate :param lr: learning rate of optimizer self.env env self.action_space_size self.env.num_actions self.state_space_size self.env.num_states self.gamma gamma self.net nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.policy np.zeros((self.state_space_size, self.action_space_size)) self.q_value np.zeros((self.state_space_size, self.action_space_size)) self.optimizer torch.optim.Adam(self.net.parameters(), lrlr) def decode_state(self, state): :param state: int :return: 归一化后的元组 i state // self.env.size j state % self.env.size return torch.tensor((i / (self.env.size - 1), j / (self.env.size - 1)), dtypetorch.float32) def solve(self, num_episodes): for _ in range(num_episodes): state_int self.env.reset() state self.decode_state(state_int) done False episode [] # [[state_tensor,reward,done]...[...]] while not done: logits self.net(state) action_probs torch.softmax(logits, dim0) action_dist torch.distributions.Categorical(action_probs) # 按分布采样 action action_dist.sample().item() next_state, reward, done self.env.step(state_int, action) episode.append((state, action, reward)) state_int next_state state self.decode_state(next_state) # value update returns [] G 0 for _, _, reward in reversed(episode): G reward self.gamma * G returns.insert(0, G) # policy update self.optimizer.zero_grad() loss 0 for (state, action, _), G in zip(episode, returns): logits self.net(state) action_probs torch.softmax(logits, dim0) action_dist torch.distributions.Categorical(action_probs) log_prob action_dist.log_prob(torch.tensor(action)) # In Π(a_t|s_t, θ) loss - log_prob * G # 负号是因为最小化 loss-最大化 J(θ)梯度上升更新参数 loss.backward() self.optimizer.step() def get_policy(self): for s in range(self.state_space_size): a np.argmax(self.q_value[s]) self.policy[s, a] 1 return self.policy def get_qvalues(self): for s in range(self.state_space_size): s_t self.decode_state(s) logits self.net(s_t) action_probs torch.softmax(logits, dim0) self.q_value[s,:] action_probs.detach().numpy() # q_value是numpy类型action_probs是tensor必须转换 return self.q_value if __name__ __main__: env GridWorldEnv( size5, forbidden[(1, 2), (3, 3)], terminal[(4, 4)], r_boundary-1, r_other-0.04, r_terminal1, r_forbidden-1, r_stay-0.1 ) vi Reinforce(envenv) vi.solve(num_episodes200) print(\n state value: ) print(vi.get_qvalues()) drow_policy(vi.get_policy(), env)运行结果

建设棋牌类网站要多少钱天元建设集团有限公司汇票信誉

智能云盘解析：3分钟掌握高效文件下载技巧【免费下载链接】LanzouAPI 蓝奏云直链，蓝奏api，蓝奏解析，蓝奏云解析API，蓝奏云带密码解析项目地址: https://gitcode.com/gh_mirrors/la/LanzouAPI 还在为蓝奏云文件…

张小明 2026/1/7 14:01:31 网站建设

企业网站建设对网络营销的影响主要表现在( )子公司网站备案

项目中有一个点击图片，在点击区域画圆标注的需求，需要知道点击的位置，并判断位置是否正确，类似“找不同”小游戏。这种就需要用到canvas了基本说明canvas 是一个 HTML 元素，用于绘制图形和图像，通过 JavaS…

张小明 2026/1/7 5:03:18 网站建设

哪个网站建设公司好建站模板哪里好

CotEditor开源贡献完整指南：从新手到核心开发者的成长路径【免费下载链接】CotEditor Lightweight Plain-Text Editor for macOS 项目地址: https://gitcode.com/gh_mirrors/co/CotEditor CotEditor作为macOS平台上一款备受推崇的轻量级纯文本编辑器&#x…

张小明 2026/1/9 13:13:38 网站建设

网站的总体方案与功能设计自己做的网站出现广告

虚拟化软件是一种能够在物理硬件上创建虚拟环境的技术工具，它通过抽象和隔离硬件资源，实现一台物理计算机同时运行多个独立操作系统或应用程序的功能。其核心价值在于提高硬件利用率、降低IT成本、增强系统灵活性与可管理性，已成为现代计算架…

张小明 2026/1/7 11:45:18 网站建设

鞍山网站制作开发网站设计框架

特性工作输入电压范围：1.6V至5.5V固定输出电压：0.8V、0.9V、1.0V、1.05V、1.1V、1.2V、1.3V、1.35V、1.5V、1.8V、1.85V、2.1V、2.2V、2.3V、2.5V、2.6V、2.7V、2.8V、2.85V、2.9V、3.0V、3.1V、3.3V、3.6V、4.2V、4.4V和5.0V输出电压可从0.8V调节至5.0V…

张小明 2026/1/9 22:21:25 网站建设

儿童网站设计欣赏jsp网站开发开题依据

3步解锁waifu-diffusion：AI绘画实战指南【免费下载链接】waifu-diffusion 项目地址: https://ai.gitcode.com/hf_mirrors/hakurei/waifu-diffusion 还在为复杂的AI绘画工具配置而头疼吗？waifu-diffusion作为当前热门的动漫风格AI绘画模型&#…

张小明 2026/1/12 13:51:33 网站建设