wordpress 表单 插件seo博客大全

张小明 2026/1/9 14:08:20
wordpress 表单 插件,seo博客大全,吉林省建设安全协会网站,做房产的网站排名来源#xff1a;机器之心 本文约3500字#xff0c;建议阅读5分钟促进大模型持续的竞争与共同进化。大型语言模型#xff08;LLMs#xff09;虽然通过可验证奖励的强化学习#xff08;RLVR#xff09;取得了显著进展#xff0c;但仍然在很大程度上依赖外部监督#xff0…来源机器之心 本文约3500字建议阅读5分钟促进大模型持续的竞争与共同进化。大型语言模型LLMs虽然通过可验证奖励的强化学习RLVR取得了显著进展但仍然在很大程度上依赖外部监督例如人工标注的数据。自博弈self-play提供了一种有前景的替代方案使模型能够通过与自身反复对抗来学习从而减少对外部监督的依赖。GAN 则提供了另一种更具吸引力的训练范式通过对抗式地训练两个模型其中一个模型专注于生成具有挑战性的任务或对抗样本另一个模型则专注于解决这些任务。于是问题来了LLM 是否也可以像 GAN 一样进行训练我们的希望是通过赋予每个模型不同的专门化角色可以促进持续的竞争与共同进化从而让它们能够解决单一模型可能从根本上无法胜任的任务。为解决这一难题来自康奈尔大学的 NLP 团队提出了 PasoDoble一个面向大语言模型的全新类 GAN 训练框架。PasoDoble 通过对抗式地训练两个几乎相同的模型Proposer 用于生成带有标准答案的高难度问题Solver 则尝试解决这些问题。我们进一步利用高质量的数学预训练语料并引入离线训练范式以缓解潜在的训练不稳定性。值得注意的是PasoDoble 在整个训练过程中不依赖任何监督信号。论文题目Better LLM Reasoning via Dual-play论文链接https://arxiv.org/pdf/2511.11881项目主页https://hcy123902.github.io/PasoDoble/作者介绍共同一作张正鑫黄诚瑜为康奈尔大学计算机系博士李奡翀为主要贡献者之一Claire Cardie 为通讯作者以及导师。图为使用 Qwen3-1.7B 在 MATH-500 上评估的 Solver 在不同训练步骤中的训练动态。Solver 的整体准确率在无任何监督的情况下从 45% 提升至 67%。它在第 20 步之前就超过了基线模型并在第 360 步达到最高的 67%。重要的是PasoDoble 能够在数百个更新步骤中保持持续提升展现出远强于相关工作 R-Zero 的扩展能力。我们为每个问题采样六个回答并报告 pass1 的准确率。基线模型按照 Qwen 技术报告中的设置使用 4-shot 提示进行评估其他模型则使用 0-shot 提示进行评估。我们发现在完全无监督的情况下PasoDoble 使 Qwen3-1.7B-Base 的数学任务平均性能提升约 13 个点使 Qwen3-4B-Base 提升约 16 个点。PasoDoble 方法概览PasoDoble 由四个组件构成Proposer (π_p)、Solver (π_s)、Knowledge Base (K)以及用于离线训练的题目缓冲区Question Buffer。Proposer 和 Solver 均从同一个预训练模型初始化随后会进行初始的冷启动训练。在在线训练中每次迭代都会从知识库中采样一个知识片段1用于提示 Proposer 生成一批问答QA对2。随后Solver 会针对每个问题生成多个解答尝试3–4。Solver 根据其答案是否与 Proposer 的标准答案一致来获得正确性奖励5。为评估问题的难度我们计算 Solver 在该问题上的准确率6并将 Proposer 的难度奖励定义为该准确率的反比7同时还会加入一个多样性奖励以鼓励生成新颖的问题8。这些奖励被组合得到 Proposer 的最终奖励9。只有那些具有非平凡难度、被判定为有效的问题才会被保留下来用于 Solver 的训练10。当至少存在一个有效问题时两个模型都会同步更新11从而形成完整的在线训练循环。在离线训练中Proposer 会在 Solver 冻结的情况下首先更新若干步11并将生成的有效问题存入 Question Buffer12。随后将 Proposer 冻结Solver 则利用 Question Buffer 中的问题进行更新13从而构建其训练数据集。Proposer Reward 是如何设计呢简而言之Proposer 会因为生成困难即 Solver 准确率低且 多样与近期问题不相似的问题而获得奖励但前提是这些问题是有效且格式良好的。Proposer 的任务是生成既具有挑战性又多样化的数学问题。为引导这种行为我们设计了一个由 难度 reward 和多样性 reward 两部分组成的 reward 机制。1. 难度 Reward我们希望 Proposer 能生成有挑战性的问题 —— 即 Solver 不能轻易答对的问题。我们用 Solver 的通过率来衡量难度通过率 p_i 越低问题越难奖励就越高。具体地难度奖励为即使一个问题非常简单例如 p_i 1.0奖励仍然为 0.1以确保 Proposer 始终倾向于生成有效的问题而不是生成错误或无意义的问题。2. 多样性 Reward我们还希望避免退化现象例如 Proposer 反复生成同一种类型的问题。为此我们将新生成的问题 q_i 与历史缓冲区 H 中的最近问题进行比较采用 Jaccard 相似度如果两个问题过于相似我们将其视为重复因此多样性奖励定义为简而言之问题越独特奖励越高。3. Proposer 最终奖励我们只有在问题既有效又具有多样性的情况下才会对 Proposer 进行奖励有效性Validity通过率不能过低多样性Diversity不能过于重复最终奖励为:Solver Reward 是如何设计呢Solver 的训练仅依赖纯正确性奖励。与拥有多种奖励组件的 Proposer 不同Solver 的奖励只有正确性这一项。对于每个问题 q_i, the Solver 会生成 J 个候选解其最终答案为。每个解都会与 Proposer 提供的标准答案进行比较。该解的奖励为其中指标函数定义为实验设置我们在多种模型规模上进行实验包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base将它们分别用作 Proposer 和 Solver然后执行冷启动训练。在冷启动之后我们使用 GRPO 同时训练 Proposer 和 Solver并在在线与离线两种设置下进行实验。更多超参数设置参见论文附录 B。我们使用 MegaMath-Pro-Max 预训练数据集作为知识库 K。实验结果主流数学 benchmark 的结果我们在竞赛级数学基准上评估了我们的方法包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳结果下划线表示第二优。PasoDoble 能显著提升模型在数学基准上的表现尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外PasoDoble 的性能提升随着模型规模的增大而持续增强。Qwen2.5-0.5B-Base 模型的实验结果。Qwen3-0.6B-Base 模型的实验结果。Qwen2.5-1.5B-Base 模型的实验结果。Qwen3-1.7B-Base 模型的实验结果。Qwen2.5-3B-Base 模型的实验结果。Qwen3-4B-Base 模型的实验结果。Proposer 与随机奖励Solver 到底学到了什么先前的研究表明即使使用随机奖励也可能带来非平凡的提升。因此我们在 Qwen3-1.7B 模型上采用在线训练范式进行了相关实验。随机奖励的实验结果。完全随机奖励Solver 接收到服从的均匀随机奖励这会在 Proposer 的难度奖励中引入相应的随机性。 部分随机奖励当 Solver 的输出格式错误例如没有答案框时奖励为 0否则给予随机奖励。如上表所示使用完全随机奖励进行训练会使 Solver 在所有数学基准上的平均准确率几乎跌至零。即便我们强制 Solver 以正确格式作答部分随机奖励其准确率仍然大幅下降。与我们原始设置形成的鲜明对比清楚地表明Solver 在训练过程中确实从 Proposer 的答案中受益匪浅。Proposer 生成的问题是由记忆驱动的还是由推理驱动的Qwen3-1.7B-Base 在不同提示前缀比例下即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 问题 对 Proposer 在第 200 个检查点生成的问题进行评估其 Exact MatchEM和 ROUGE-L得分如上所示。所有评估均使用贪心解码并且不使用聊天模板。我们通过上表进行了分析。即使提示问题前缀重叠达到 80%EM 也仅约为 12%使用知识库和 31%不使用知识库这表明绝大多数生成的问题来源于推理而非记忆。总结我们的研究表明大语言模型可以通过类似 GAN 的双模型对抗式训练来提升数学推理能力并在多个数学基准上取得可量化的性能提升。该方法还通过利用预训练知识增强后训练效果在预训练与后训练之间建立了一座桥梁。尽管如此我们的方法也存在局限性例如在 GPQA 等领域外任务中并未带来性能提升。未来的研究将探索将该框架拓展到其他领域如代码与事实问答并进一步研究更广泛的多模型训练范式包括协作式、竞争式以及角色专门化等设置。这些方向可能对于解决远比单一模型能可靠处理的任务更加复杂的问题至关重要。参考文献:[1] Goodfellow, Ian, et al. Generative adversarial networks. *Communications of the ACM* 63.11 (2020): 139-144.[2] Huang, Chengsong, et al. R-Zero: Self-Evolving Reasoning LLM from Zero Data. *arXiv preprint arXiv:2508.05004* (2025).[3] Yang, An, et al. Qwen3 technical report. *arXiv preprint arXiv:2505.09388* (2025).[4] Shao, Zhihong, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. *arXiv preprint arXiv:2402.03300* (2024).[5] Wang, Zengzhi, et al. Octothinker: Mid-training incentivizes reinforcement learning scaling. *arXiv preprint arXiv:2506.20512* (2025).[6] Shao, Rulin, et al. Spurious rewards: Rethinking training signals in rlvr. *arXiv preprint arXiv:2506.10947* (2025).[7] Lin, Chin-Yew, and Franz Josef Och. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics. *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

深圳哪家做网站好视频弹幕网站怎么做的

鼠标手势革命:3分钟开启高效操作新时代 🚀 【免费下载链接】MouseInc.Settings MouseInc设置界面 项目地址: https://gitcode.com/gh_mirrors/mo/MouseInc.Settings 还在为重复的鼠标点击感到疲惫吗?想要通过简单的鼠标移动就能完成复…

张小明 2026/1/4 9:47:02 网站建设

中山精品网站建设方案网站与微信对接

网络目标发现与枚举技术全解析 1. 目标发现工具 在网络安全领域,目标发现是至关重要的一步,它能帮助我们识别目标机器并了解其使用的操作系统。以下介绍一些常用的目标发现工具。 1.1 IPv6 相关工具 ICMPv6 邻居发现协议 :该协议允许 IPv6 主机发现本地网络中其他 IPv6…

张小明 2026/1/7 21:47:40 网站建设

网站做更改后台怎么做没有充值入口的传奇手游

我用Tableau已经有七八年了,基本每天都要分析数据、设计可视化图表,这就属于典型的自助式BI,你也可以理解是时间意义上的“传统”BI,因为Tableau已经存在二十多年了。 很多大型公司用的SAP BusinessObjectsBI嵌在ERP系统里&#…

张小明 2026/1/4 7:44:42 网站建设

浙江电信关于网站备案信息核实的公告免费网站打包

六款热门 AI 论文工具对比总结以下是2025年热门AI论文工具的快速对比,帮助您在写作论文时选择合适工具。这六款工具均支持LaTeX模板和论文格式规范,适配性强。总结基于核心功能和独特优势:工具名称核心功能主要优势aibiye深度文本改写与内容优…

张小明 2026/1/4 7:23:26 网站建设

网站设计咨询网站免费国内ip

WAN2.2-14B-Rapid-AllInOne正在重塑多模态视频创作的工作范式,这款集成化解决方案通过深度整合WAN 2.2核心架构、CLIP文本编码器与VAE视觉解码器,将原本需要多个专业工具协作的复杂流程,打包成即开即用的创作工具箱。如何实现三倍速生成&…

张小明 2026/1/4 10:27:04 网站建设

招聘网站开发的目的与意义漳州城乡住房建设部网站

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的wsappx优化向导应用,功能包括:1. 简单易懂的进程解释;2. 一键检测功能;3. 分步骤优化指导;4. 安全提…

张小明 2025/12/30 17:42:59 网站建设