个人网站备案建设方案书网站开发广告语大全

张小明 2026/1/9 8:32:50
个人网站备案建设方案书,网站开发广告语大全,公司的网站建设jnzji,wordpress推荐奖励插件文章目录Week 29: 深度学习补遗#xff1a;MoE的稳定性机制与路由策略实现摘要Abstract1. Noisy Top-K Router1.1 理论背景1.2 代码实现2. Token 级与 Pooling 级路由2.1 理论背景2.2 代码实现3. Auxiliary Loss3.1 理论背景3.2 代码实现总结Week 29: 深度学习补遗#xff1a…文章目录Week 29: 深度学习补遗MoE的稳定性机制与路由策略实现摘要Abstract1. Noisy Top-K Router1.1 理论背景1.2 代码实现2. Token 级与 Pooling 级路由2.1 理论背景2.2 代码实现3. Auxiliary Loss3.1 理论背景3.2 代码实现总结Week 29: 深度学习补遗MoE的稳定性机制与路由策略实现摘要本周的继续了解了MoE深入探讨了Sparse MoE面临的稳定性挑战及其数学解决方案并解析了 Noisy Top-K Gating 的数学机理阐述了其如何通过随机性平滑损失曲面对比了Token 级与 Pooling 级路由在时序数据归纳偏置上的本质区别最后通过推导辅助负载均衡损失Auxiliary Loss揭示了如何通过约束优化问题来保证专家利用率的最大熵分布。AbstractThis week’s session continued our exploration of MoE, delving into the stability challenges faced by Sparse MoE and their mathematical solutions. We analysed the mathematical mechanism of Noisy Top-K Gating, elucidating how it smooths the loss surface through randomness. We contrasted the fundamental differences between token-level and pooling-level routing in terms of temporal data induction bias. Finally, by deriving the Auxiliary Load Balancing Loss, we revealed how constraint optimisation problems can ensure the maximum entropy distribution of expert utilisation.1. Noisy Top-K Router1.1 理论背景在标准的 Top-K 门控中如果门控网络G ( x ) G(x)G(x)是确定性的模型极易陷入马太效应Matthew Effect的陷阱。即初始化时权重略大的专家会获得更多数据从而获得更多梯度更新变得更强最终导致其他专家“饿死”。从优化理论的角度来看Top-K 操作本质上是一个硬注意力Hard Attention机制其关于门控权重的梯度是离散且稀疏的。为了改善梯度传播并鼓励Exploration我们借鉴了 重参数化技巧Reparameterization Trick 的思想在 Logits 中注入可学习的高斯噪声。令H ( x ) x ⋅ W g H(x) x \cdot W_gH(x)x⋅Wg​为原始的路由 Logits。我们引入噪声项H ′ ( x ) H ( x ) ϵ ⋅ Softplus ( x ⋅ W n o i s e ) H(x) H(x) \epsilon \cdot \text{Softplus}(x \cdot W_{noise})H′(x)H(x)ϵ⋅Softplus(x⋅Wnoise​)其中ϵ ∼ N ( 0 , 1 ) \epsilon \sim \mathcal{N}(0, 1)ϵ∼N(0,1)是标准正态分布噪声。Softplus 函数保证了噪声的标准差始终为正。这种机制将确定性的离散选择转化为了一个随机过程。即使某个专家的原始 Logit 较小在噪声的扰动下它仍有非零的概率被选中进入 Top-K。这平滑了损失曲面使得梯度能够流向暂时表现不佳的专家。1.2 代码实现importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassNoisyTopkRouter(nn.Module):def__init__(self,n_embed,num_experts,top_k):super(NoisyTopkRouter,self).__init__()self.top_ktop_k self.num_expertsnum_experts# 门控权重 W_g用于计算 Clean Logitsself.gatenn.Linear(n_embed,num_experts)# 噪声权重 W_noise用于预测噪声的标准差self.noise_linearnn.Linear(n_embed,num_experts)defforward(self,x):# 1. 计算确定性部分: H(x)clean_logitsself.gate(x)ifself.training:# 2. 计算随机性部分 (Reparameterization)# 使用 Softplus 保证标准差非负1e-2 保证数值稳定性raw_noise_stddevself.noise_linear(x)noise_stddevF.softplus(raw_noise_stddev)1e-2# 3. 注入噪声H(x) H(x) sigma * epsilonnoisy_logitsclean_logits(torch.randn_like(clean_logits)*noise_stddev)logitsnoisy_logitselse:# 推理阶段通常关闭噪声使用确定性路径logitsclean_logits# 4. Top-K 截断 (Hard Selection)# 这一步虽然不可导但 PyTorch 会将梯度回传给被选中的 logitstop_logits,top_indiceslogits.topk(min(self.top_k,self.num_experts),dim1)# 5. 计算归一化权重 (Soft Selection)# 仅对选中的 Top-K 进行 Softmax确保权重和为 1top_k_gatesF.softmax(top_logits,dim1)returntop_k_gates,top_indices,clean_logits2. Token 级与 Pooling 级路由2.1 理论背景在深度学习中归纳偏置Inductive Bias是指模型架构对数据特性的先验假设。Token Level Routing 假设每个时间步Token是独立的实体可以由不同的专家处理。这在 NLP 中是合理的动词和名词可能需要不同的处理。但在时序预测中这忽略了时间连续性。如果相邻时间点t tt和t 1 t1t1被分配给截然不同的专家会导致预测曲线出现高频抖动Chattering这违背了物理世界的惯性定律。Pooling Level Routing 引入了状态Regime的假设。它认为在一段观测窗口T TT内潜在的市场环境或物理机制是相对稳定的。Expert ( X 1 : T ) ≈ G ( Aggregate ( X 1 : T ) ) \text{Expert}(X_{1:T}) \approx G(\text{Aggregate}(X_{1:T}))Expert(X1:T​)≈G(Aggregate(X1:T​))通过对整个序列进行 Pooling如 Mean Pooling我们提取了该窗口的全局上下文向量。以此为依据进行路由实际上是在执行一种隐式的时序聚类Temporal Clustering。它强迫模型学习宏观模式如“震荡期”、“上升期”而非微观波动从而提高了预测的鲁棒性。2.2 代码实现classSparseMoEBlock(nn.Module):def__init__(self,n_embed,hidden_dim,num_experts,top_k,routing_leveltoken):super().__init__()self.routerNoisyTopkRouter(n_embed,num_experts,top_k)self.routing_levelrouting_level# ... (专家网络初始化代码略)defforward(self,x):# x: [Batch, Seq_Len, Dim]B,T,Cx.shape# Step 1: 确定路由依据 (Inductive Bias 的体现)ifself.routing_levelpooling:# Pooling Level: 假设整个序列共享一个 Expert 组合# 通过 Mean Pooling 提取序列的全局特征向量router_inputx.mean(dim1)# [B, C]else:# Token Level: 假设每个时间步独立router_inputx.view(-1,C)# [B*T, C]# Step 2: 获取路由决策gates,indices,clean_logitsself.router(router_input)# Step 3: 决策广播 (Broadcast)# 如果是 Pooling 路由需要将 [Batch, k] 的决策复制到 [Batch, Seq_Len, k]# 从而保证时间维度的一致性ifself.routing_levelpooling:gatesgates.unsqueeze(1).expand(-1,T,-1).reshape(-1,self.top_k)indicesindices.unsqueeze(1).expand(-1,T,-1).reshape(-1,self.top_k)# Step 4: 稀疏分发与计算 (Computation)# ... (后续代码与分发逻辑保持一致)3. Auxiliary Loss3.1 理论背景为了防止模型崩塌我们需要添加一个辅助损失函数L a u x L_{aux}Laux​。理想情况下我们希望所有专家被选中的概率是均等的即服从均匀分布。定义两个关键统计量重要性Importance,P i P_iPi​Experti ii在当前 Batch 中所有样本上的累积 Softmax 概率预测值。这是可微的。P i 1 N ∑ x ∈ B a t c h G ( x ) i P_i \frac{1}{N} \sum_{x \in Batch} G(x)_iPi​N1​x∈Batch∑​G(x)i​负载Load,f i f_ifi​Experti ii实际被选中的频率离散值。这是不可微的。f i 1 N ∑ x ∈ B a t c h 1 ( i ∈ TopK ( G ( x ) ) ) f_i \frac{1}{N} \sum_{x \in Batch} \mathbb{1}(i \in \text{TopK}(G(x)))fi​N1​x∈Batch∑​1(i∈TopK(G(x)))根据柯西-施瓦茨不等式或最大熵原理当P PP和f ff均为均匀分布时向量点积∑ P i ⋅ f i \sum P_i \cdot f_i∑Pi​⋅fi​达到最小。因此我们将辅助损失定义为L a u x N ⋅ ∑ i 1 N u m E x p e r t s P i ⋅ f i L_{aux} N \cdot \sum_{i1}^{NumExperts} P_i \cdot f_iLaux​N⋅i1∑NumExperts​Pi​⋅fi​最小化该损失函数等价于迫使门控网络P i P_iPi​的分布接近均匀分布同时也使得实际负载f i f_ifi​接近均匀分布。这不仅解决了计算资源的浪费问题也保证了模型参数的充分利用。3.2 代码实现defcompute_load_balancing_loss(clean_logits,top_k_indices,num_experts): 计算辅助损失迫使 Router 均衡地分配任务 # 1. 计算重要性 P_i (Differentiable)# 使用 clean_logits 而非 noisy_logits以反映 Router 的真实意图probsF.softmax(clean_logits,dim1)mean_probsprobs.mean(dim0)# [num_experts]# 2. 计算实际负载 f_i (Non-differentiable)# 这是一个离散统计量在此处作为常数权重参与计算# 使用 bincount 统计每个专家被选中的次数freqstorch.zeros_like(mean_probs)# top_k_indices: [Batch, k] - flatflat_indicestop_k_indices.view(-1)# 统计频率并归一化total_samplestop_k_indices.size(0)# Batch Sizecountstorch.bincount(flat_indices,minlengthnum_experts)mean_freqscounts.float()/total_samples# 3. 计算点积损失# 乘以 num_experts 是为了让 Loss 的量级与 expert 数量无关 (理想值为 1)# 实际上是在优化 mean_probs使其与 mean_freqs (当前的负载分布) 反向相关# 如果某个专家负载很高 (freq 大)模型会倾向于降低其 prob从而减少被选概率aux_lossnum_experts*torch.sum(mean_freqs*mean_probs)returnaux_loss总结本周基本完成了对 MoE的初步学习了解了Noisy Gating 实际上是对离散优化问题的一种连续松弛利用随机性解决了“赢家通吃”的局部最优问题。而Pooling Routing 则是将时序领域的先验知识Embed进了模型结构解决了时序预测中的抖动问题。Auxiliary Loss 从优化的角度添加了正则化约束确保了专家系统的多样性Diversity。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

自助建站系统代理做行业网站能赚钱吗

AssetStudio作为Unity开发者必备的资源管理神器,能够帮助你轻松应对各类资源提取挑战。无论你是想要导出游戏纹理、反编译Lua脚本,还是批量处理AssetBundle文件,这款免费工具都能提供完美的解决方案。 【免费下载链接】AssetStudio 项目地…

张小明 2026/1/8 1:18:40 网站建设

南昌市建设网站网站友情链接查询

一、设计背景与核心需求 传统电子秤功能单一,多仅能实现重量测量,难以满足现代生活中对食材营养分析、物品分类统计、数据追溯等多样化需求。基于单片机的智能电子秤,融合高精度称重、数据处理与智能交互功能,可广泛应用于家庭厨房…

张小明 2026/1/7 17:31:33 网站建设

怎么建设电影网站第三方交易网站怎么做

Behdad开源波斯字体:从零开始打造专业级中东文字排版系统 【免费下载链接】BehdadFont Farbod: Persian/Arabic Open Source Font - بهداد: فونت فارسی با مجوز آزاد 项目地址: https://gitcode.com/gh_mirrors/be/BehdadFont 你是否…

张小明 2026/1/8 1:18:42 网站建设

外贸门户网站公司的网站建设费用入什么科目

终极跨平台书签同步指南:BookmarkHub免费完整解决方案 【免费下载链接】BookmarkHub BookmarkHub , sync bookmarks across different browsers 项目地址: https://gitcode.com/gh_mirrors/bo/BookmarkHub 你是否曾在办公室Chrome浏览器收藏的重要资料&#…

张小明 2026/1/8 1:18:43 网站建设

网站页面布局图片门户网站区别

作者:阿康 摘要 针对夏热冬暖地区住宅“夏季湿热漫长、冬季温和短周期”的气候特征,传统暖通系统在能效与舒适性方面存在不足。本文基于英国暖通学会(CIBSE)系统工程方法,提出一种面向该气候区的直流变频空气-水两联…

张小明 2026/1/7 18:59:18 网站建设

网站开发外包常州建设公司网站

一、报错内容 在豆包TTS语音合成使用过程中,出现以下三类典型读音错误,影响语音输出准确性: 符号读音错误:输入文本“睡眠时间7-8小时”,预期输出“睡眠时间7至8小时”,实际输出“睡眠时间7减8小时”; 多音字发音错误:输入文本“偏好”(正确读音为piān hǎo,“好”…

张小明 2026/1/7 15:01:16 网站建设