网站如何做提交的报名表网站建设计划书范文-Seo优化-定安县网站建设公司

网站如何做提交的报名表,网站建设计划书范文,天津自贸区建设局网站,wordpress 安全扫描大规模的神经网络模型需要依托分布式集群环境完成载入和训练。技术演进不仅让模型规模膨胀#xff0c;支撑算力的硬件也迭代升级#xff0c;如何充分利用异构算力将成为难题。调研分享在异构集群下并行训练的近期研究。 1 模型分布式训练的并行策略训练神经网络模型就像是在…大规模的神经网络模型需要依托分布式集群环境完成载入和训练。技术演进不仅让模型规模膨胀支撑算力的硬件也迭代升级如何充分利用异构算力将成为难题。调研分享在异构集群下并行训练的近期研究。1 模型分布式训练的并行策略训练神经网络模型就像是在做雕塑不断喂给它数据对其进行打磨反复迭代后最终产出的参数就是成品。但如果模型太大单个机器装不下进行分布式训练就是必然的选择了。分布式训练的核心要义是对规模庞大的模型进行拆分由节点组成的集群共同完成训练任务衍生出多种并行训练策略以下简单列出几种主流的并行策略数据并行Data Parallelism, DP。每个节点载入完整模型将数据拆分成多份喂到不同节点当前epoch前向反向传播计算完成后执行梯度同步并更新参数进入下一个epoch。张量并行Tensor Parallelism, TP。把模型中的参数矩阵进行切割分配到不同的节点进行计算子矩阵的计算结果及时聚合完成当前epoch参数更新进入下一个epoch。流水线并行Pipeline Parallelism, PP。将神经网络按层进行划分不同节点负责不同层的计算输入输出前后对接形成流水线多个epoch同时进行。更专业的解释以及其他并行策略可以去网上检索或者询问大模型这里不做赘述。2 跨架构的机器学习训练框架就像开头所说的硬件迭代的速度不比模型规模慢多少。尽管采用分布式训练要凑齐同架构的计算芯片来组成集群也并非易事。因此支持跨架构的分布式训练尤为重要。现有的主流机器学习训练框架如 PyTorch、TensorFlow 等支持跨架构执行其效果类似于高级编程语言支持跨平台运行一样。以Java、Python和Rust举例Java 依靠 JVM 虚拟机实现“一次编译到处运行”不同平台要安装对应系统的 JVM 虚拟机。Python 依靠解释器实现跨平台解释运行不同平台通过该解释器再编译运行。Rust 依靠 LLVM 直接生成目标平台可执行代码编译前端生成中间表达由编译后端指定输出到对应平台。为什么突然提到编程语言是因为想要介绍 LLVM 这种跨架构的方式这在早期的分享中有提到过。它将上层高级语言和多种硬件底层代码通过统一的中间表达进行转换关联从而实现跨平台架构的能力。在机器学习框架中Pytorch、TensorFlow甚至 JAX 高性能数组计算库都能实现跨架构执行。它们使用 XLA 线性代数编译器将计算函数转换为一种代数运算的高层中间表示然后再进一步编译到目标平台的可执行代码。图1 机器学习框架编译路径图 1 将这几种机器学习框架的编译路径做了清晰的展示。通过 XLA 编译之后框架根据目标平台在普通 CPU 和 GPU 继续编译成 LLVM 中间表示由对应编译器后端生成可执行代码。谷歌自研的 TPU 专用芯片由专门的 TPU 后端编译生成可执行代码。3 面向异构集群混合训练方案跨架构对于编程语言甚至是程序应用来说都是一种很重要的能力。但这并不意味着现有的机器学习框架可以直接面向异构集群进行分布式训练Megatron-LM 更多是针对在同构集群中对训练任务的调度分配。这里所指的异构除了同架构多代 GPU 混合如 A100V100也包括了跨厂商的芯片如 NVIDIAAMD甚至还有不同芯片类型如 CPUGPUNPU。将这些计算能力充分利用起来需要从多种维度例如任务划分和调度、架构设计和流程等重新组织分布式训练。在异构集群环境下进行分布式训练目前已有相当多的前人研究。结合本人的调研工作共收集整理了 15 篇相关文献列举如下。AIBox论文标题AIBox: CTR Prediction Model Training on a Single Node发表信息2019 年 - CKIM - 百度方案简介解决搜索引擎广告面临的现有问题。使用 CPUSSDGPU 架构适配广告领域里训练数据的稀疏性特点。开源实现无论文链接https://doi.org/10.1145/3357384.3358045BytePS论文标题A unified architecture for accelerating distributed DNN training in heterogeneous GPU/CPU clusters发表信息2020 年 - USENIX - 字节方案简介参数 k 用来指定额外的 CPU 数量决定将多少梯度聚合任务卸载到 CPU 上。当 k0 退化为 all-reducekn 退化为传统 PS。开源实现https://github.com/bytedance/byteps - 自研框架可插件支持 TensorFlow、PyTorch 和 MXNet。论文链接https://www.usenix.org/conference/osdi20/presentation/jiangGavel论文标题Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads发表信息2020 年 - USENIX - Stanford方案简介将调度策略形式化为优化求解问题计算每个子任务分配到不同 GPU 卡的最优时间。开源实现https://github.com/stanford-futuredata/gavel - 基于 PyTorch 框架实现。论文链接https://www.usenix.org/conference/osdi20/presentation/narayanan-deepakHetPipe论文标题HetPipe: enabling large DNN training on (whimpy) heterogeneous GPU clusters through integration of pipelined model parallelism and data parallelism发表信息2020 年 - USENIX - UNIST方案简介异构 GPU 组成虚拟工作节点节点之间数据并行节点内部流水线模型并行允许一定程度的梯度滞后。开源实现未开源 - 基于 TensorFlow 框架实现。论文链接https://www.usenix.org/conference/atc20/presentation/parkWhale论文标题Whale: Efficient Giant Model Training over Heterogeneous GPUs发表信息2020 年 - USENIX - 阿里方案简介设计了 replicate/split 两大原语显式进行分布式训练策略用逻辑设备屏蔽异构 GPU。开源实现https://github.com/alibaba/EasyParallelLibrary - 基于 TensorFlow 框架实现。论文链接https://www.usenix.org/conference/atc22/presentation/jia-xianyanAMP论文标题AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness发表信息2022 年 - NeurIPS - CMU方案简介自动为异构模型和异构集群生成高吞吐的 3D 模型并行策略。开源实现https://github.com/DachengLi1/AMP - 基于 DeepSpeed 框架实现。论文链接https://doi.org/10.48550/arXiv.2210.07297Hare论文标题Hare: Exploiting Inter-job and Intra-job Parallelism of Distributed Machine Learning on Heterogeneous GPUs发表信息2022 年 - HPDC - 会津大方案简介在异构 GPU 集群上进行快速任务切换同时挖掘作业间与作业内并行。开源实现未开源 - 基于 PyTorch 框架实现。论文链接https://doi.org/10.1145/3502181.3531462HeterPS论文标题HeterPS: Distributed deep learning with reinforcement learning based scheduling in heterogeneous environments发表信息2023 年 - FGCS - 百度方案简介按 IO/计算占比对任务划分为通信敏感和计算敏感两类对此进行强化学习决定把层放到 CPU 还是 GPU 做计算。开源实现未开源 - 基于 PaddlePaddle 框架实现。论文链接https://doi.org/10.1016/j.future.2023.05.032SDPipe论文标题SDPipe: A Semi-Decentralized Framework for Heterogeneity-Aware Pipeline-parallel Training发表信息2023 年 - VLDB - CMU方案简介中央调度器动态生成同步组组内去中心化模型实施流水线并行。开源实现https://github.com/Hsword/VLDB2023_SDPipe - 基于北大 Hetu 框架实现。论文链接https://doi.org/10.14778/3598581.3598604HETHUB论文标题HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models发表信息2024 年 - arXiv - 无问芯穹方案简介异构节点之间流水线并行节点内再做数据并行进一步实施张量并行。开源实现未开源 - 基于 Megatron LM 和 Megatron-DeepSpeed 框架实现。论文链接https://doi.org/10.48550/arXiv.2405.16256Metis论文标题Metis: Fast Automatic Distributed Training on Heterogeneous GPUs发表信息2024 年 - USENIX - 三星方案简介感知异构设备剪枝匹配搜索空间流水线并行根据容量负载均衡阶段内数据和张量并行。开源实现未开源 - 基于 Alpa 框架实现。论文链接https://www.usenix.org/conference/atc24/presentation/umHAPT论文标题HAPT: Heterogeneity-Aware Automated Parallel Training on Heterogeneous Clusters发表信息2025 年 - arXiv - 复旦方案简介跨子集群使用算子间并行根据阶段间通信代价自适应调整微批次发射数量。开源实现未开源 - 基于 Alpa 框架实现。论文链接https://doi.org/10.48550/arXiv.2509.24859Hetu v2论文标题Hetu v2: A General and Scalable Deep Learning System with Hierarchical and Heterogeneous Single Program Multiple Data Annotations发表信息2025 年 - arXiv - 北大方案简介分层异构范式通过代码注解实现计算图推导和通信策略规划。开源实现https://github.com/PKU-DAIR/Hetu - 自研框架 Hetu可与主流框架互联互通。论文链接https://doi.org/10.48550/arXiv.2504.20490HexiScale论文标题HexiScale: Accommodating Large Language Model Training over Heterogeneous Environment发表信息2025 年 - arXiv - 港科大方案简介非对称并行划分先全局图划分形成 GPU 组组内独立选并行策略贪心搜索选最优策略。开源实现未开源 - 基于 PyTorch 框架实现。论文链接https://doi.org/10.48550/arXiv.2409.01143HGTrainer论文标题Training Large Models on Heterogeneous and Geo-Distributed Resource with Constricted Networks发表信息2025 年 - BDMA - 清华方案简介异构感知分层优化算法求解最优混合并行策略。开源实现无论文链接https://doi.org/10.26599/BDMA.2025.90200314 对前沿研究工作总结和整理上述这些研究工作仅仅是截至到写这篇分享为止检索到的尽可能多的相关文献。这个方向的研究未来肯定还会有尤其是随着模型需求的变化。比较麻烦的是光是这 15 篇文献已经让人眼花缭乱了。所以我从不同的角度简单对其进行总结和整理。首先从开源的角度。为方便进行后续研究可复现对比可工程实用代码开源非常关键。这些方案都有开源BytePS、Gavel、Whale、AMP、SDPipe、Hetu v2可以多一些关注和研究。其次虽然都是研究工作但明显有些文献是工程经验的总结而有些则是技术方法的探索。我将其按领域划分为工业界和学术界工业界表明该文章所提方案或已经在工程上实用了学术界表明该文章所提方案主要在研究阶段可行。领域方案工业界AIBox、BytePS、Whale、HETHUB、Metis学术界Gavel、HetPipe、AMP、Hare、HeterPS、SDPipe、HAPT、Hetu v2、HexiScale、HGTrainer最后从研究工作的内容来看所提方案可以分成三种类型架构设计倾向于异构集群该如何组织从而安排分布式训练编程改造倾向于通过代码注解来调度和简化在异构集群上的训练任务优化问题则把调度抽象为任务和节点的最优匹配做优化求解。类型方案架构设计AIBox、HetPipe、SDPipe、HETHUB、Metis编程改造BytePS、Whale、Hetu v2优化问题Gavel、AMP、Hare、HeterPS、HAPT、HexiScale、HGTrainer上述划分纯粹是个人理解仅供参考。通过简单分类可以帮助快速掌握研究现状并选择相关研究进一步深入。我个人倾向是架构设计和编程改造类的研究工作有一定程度的思路启发和工程借鉴。而优化问题则过于抽象换个条件和目标又是一篇文章可行性难以衡量P.S. 主要是我太菜看不懂。

网站如何做提交的报名表网站建设计划书范文

网站开发人员职位描述襄阳网站建设企业

网站商城系统设计微信代理网站模板

猎头做单网站上海网页设计公司推荐

wordpress外贸主题制作网站seo优化多少钱

动易网站首页模板修改专业手机网站公司哪家好

网站建设越来越难做一个公司做两个网站可以吗

网站如何做提交的报名表网站建设计划书范文

网站开发人员职位描述襄阳网站建设企业

网站商城系统设计微信代理网站模板

猎头做单网站上海网页设计公司推荐

wordpress外贸主题制作网站seo优化多少钱

动易网站 首页模板修改专业手机网站公司哪家好

网站建设越来越难做一个公司做两个网站可以吗

动易网站首页模板修改专业手机网站公司哪家好