绥化北京网站建设,wordpress 禁用响应式,那些网站可以给产品做推广,怎么破解wordpress主题文章系统梳理了大语言模型的发展历程#xff0c;从基础模型阶段、能力探索阶段到突破发展阶段#xff0c;详细解析了Transformer和MOE等核心架构#xff0c;介绍了预训练、微调、奖励建模和强化学习的构建流程#xff0c;并探讨了指令微调、参数高效微调及基于人类反馈的强…文章系统梳理了大语言模型的发展历程从基础模型阶段、能力探索阶段到突破发展阶段详细解析了Transformer和MOE等核心架构介绍了预训练、微调、奖励建模和强化学习的构建流程并探讨了指令微调、参数高效微调及基于人类反馈的强化学习等对齐技术。通过DeepSeek等实例展示了通用模型与推理模型的区别与应用场景为开发者提供了全面的大模型技术指南。一、大模型发展历程大语言模型的发展历程虽然只有不到5年但是发展速度相当惊人截至2025年2月国内外有超过百种大语言模型相继发布。特别是2024年12月DeepSeekV3和2025年1月DeepSeek R1模型的开源不仅在训练效率和思考推理上取得了突破还赢得了国际社会对中国人工智能技术的高度认可。中国人民大学赵鑫教授团队在《大语言模型》书中按照时间线给出了2019年至2024 年6月比较有影响力并且模型参数量超过100亿个的大语言模型我们在此基础上扩展到2025年 2 月如图1.2所示。大语言模型的发展可以粗略地分为如下三个阶段基础模型阶段、能力探索阶段和突破发展阶段。基础模型阶段主要集中于2018年至2021年。2017年Vaswani 等人提出了Transformer架构在机器翻译任务上取得了突破性进展。2018年Google和OpenAI分别提出了BERT和GPT-1 模型开启了预训练语言模型时代。BERT-Base版本的参数量为1.1亿个BERT-Large版 本的参数量为3.4亿个GPT-1的参数量为1.17亿个。这在当时比其他深度神经网络的参数量已经有了数量级上的提升。2019年OpenAI发布了GPT-2其参数量达到15亿个。此后Google 也发布了参数规模为110亿个的T5模型。2020年OpenAI进一步将语言模型的参数量扩展到1750亿个发布了GPT-3。此后国内也相继推出了一系列的大语言模型包括清华大学的 ERNIE、百度的ERNIE、华为的PanGU-α等。此阶段的研究主要集中在语言模型本身对仅编码器EncoderOnly、编码器-解码器Encoder-Decoder、仅解码器DecoderOnly等各种 类型的模型结构都有相应的研究。模型大小与BERT类似通常采用预训练微调范式针对不同 下游任务进行微调。这些模型参数量大都在10亿个以上由于微调的计算量很大这类模型的影 响力在当时相较BERT类模型有不小的差距。能力探索阶段集中于2019年至2022年。由于大语言模型很难针对特定任务进行微调研究人员开始探索在不针对单一任务进行微调的情况下如何发挥大语言模型的能力。2019年Radford 等人在文献中使用GPT-2模型研究了大语言模型在零样本情况下的任务处理能力。在此基础 上Brown等人在GPT-3模型上研究了通过语境学习进行少样本学习的方法将不同任务的少量有标注的实例拼接到待分析的样本之前输入语言模型语言模型根据实例理解任务并给出正确的结果。基于GPT-3的语境学习在TriviaQA、WebQS、CoQA等评测集合中都展示出了非常强的能力在有些任务中甚至超过了此前的有监督方法。上述方法不需要修改语言模型的参数模型在处理不同任务时无须花费大量计算资源进行模型微调。仅依赖语言模型本身其性能在很多任务上仍然很难达到有监督学习SupervisedLearning的效果因此研究人员提出了指令微调方 案将大量各类型任务统一为生成式自然语言理解框架并构造训练数据进行微调。大语言模型能一次性学习数千种任务并在未知任务上展现出很好的泛化能力。2022年Ouyang等人提出了使用“有监督微调强化学习”的InstructGPT方法该方法使用少量有监督数据就可以使大语言模型服从人类指令。Nakano等人则探索了结合搜索引擎的问题回答方法WebGPT。这些方法 在直接利用大语言模型进行零样本和少样本学习的基础上逐渐扩展为利用生成式框架针对大量任务进行有监督微调的方法有效提升了模型的性能。突破发展阶段以2022年11月ChatGPT的发布为起点。ChatGPT通过一个简单的对话框利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量小模型定制开发才能分别实现的能力。它在开放领域问答、各类自然语言生成式任务及对话上下文理解上所展现出来的能力远超大多数人的想象。2023年3月GPT-4发布相较于 ChatGPTGPT-4 有非常明显的进步并具备了多模态理解能力。GPT-4在多种基准考试测试上的得分高于88%的应试者包括美国律师资格考试UniformBarExam、法学院入学考试Law School Admission Test、学术能力评估Scholastic Assessment TestSAT等。GPT-4o 是OpenAI 于2024年5月发布的多模态大模型其中“o”代表“omni”即“全能”。它能接受文本、音频和图像组合输入并生成文本、音频和图像的任意组合输出可处理50种语言在232毫秒内对音频输入做出反应性能较GPT-4有显著提升。2024年9月OpenAI又推出的全新推理模型GPT-o1 在复杂推理任务上表现卓越能通过内部思维链模拟人类思考在数学、科学等领域超越人类专家及GPT-4o。国内外各大公司和研究机构相继发布了此类系统包括复旦大学的MOSS、阿里巴巴的Qwen、深度求索的DeepSeek、Google的Gemini、XAI的Grok、科大讯飞的星火大模型、智谱的ChatGLM等。表1.1 和表1.2 分别给出了截至2025年2月典型开源和闭源大语言模型的基本情况。可以看到从2022年开始大语言模型的数量呈爆发式的增长各大公司和研究机构都在发布不同类型的大语言模型。模型类型中基础模型是指仅经过预训练的模型对话模型是指在预训练模型基 础上经过有监督微调和强化学习训练的模型具备对话和完成任务的能力推理模型是指专注于逻辑推理增强的大语言模型。二、基础模型、语言模型、通用模型和推理模型我们通常会看到某模型研发机构开源了 base 模型、 chat 模型。base 模型也就是基础模型是在海量不同文本上训练出来的预测后续文本的模型。后续文本未必是对指令和对话的响应。chat 模型也就是对话模型是在 base 基础上通过对话记录指令 - 响应继续做微调和强化学习让它接受指令和用户对话时续写出来的是遵循指令的人类预期的 assistant 的响应内容。此基础之上又引出通用大模型和推理大模型。通用大模型更严谨的叫法是指令大模型它的优点是响应用户请求的速度极快并且对多模态语音、图片、视频等的支持非常好更适合处理固定、规律、不太需要强大推理能力的任务比如大文本、海量数据的处理等。通用大模型的缺点在生成效果方面或者说它给的回答很依赖指令。你甚至需要一步一步地告诉它具体怎么做你告知得越清晰写提示词的技术越高超它给你的反馈就越好。否则通用大模型可能生成一堆文字垃圾不能很好地处理创意性、发散性、思维层次更高的灵活性任务。当然推理大模型的缺点也非常明显因为它在正式回答你之前要对你的问题做复杂的推理所以响应速度往往比通用大模型慢。截至 2025 年 3 月它对多模态和大文本的处理还非常吃力几乎没有办法完成规模性任务。推理大模型则专注于复杂问题的逻辑推理和多步推导能力。通过强化学习和思维链Chain of Thought, CoT等技术优化推理大模型能够在数学推导、代码生成、复杂问题拆解等任务中表现出色。例如在需要多步骤逻辑推理的场景如科学计算、论文生成或跨领域问题解决中推理大模型能够提供更高的准确性和深度。以下以 DeepSeek-V3 和 DeepSeek-R1 为例详细分析它们的定义、区别及适用场合。DeepSeek-V3 是一个典型的通用大模型采用混合专家MoE, Mixture of Experts架构总参数规模达 671B但在处理每个 token 时仅激活 37B 参数通过创新技术实现高效计算资源利用。它在自然语言处理、知识问答、内容生成等多任务场景中表现出色尤其擅长多语言处理和常规自然语言理解任务。DeepSeek-V3 的设计目标是提供高性价比的 AI 服务满足广泛的商业和研究需求。DeepSeek-R1是一个典型的推理大模型推理大模型更专注于逻辑推理、数学计算、代码生成等需要深度思考和分析的任务。DeepSeek-R1 是一个典型的推理大模型基于 DeepSeek-V3-Base 模型训练采用了纯强化学习RL,Reinforcement Learning训练范式开辟了一条独特的训练路径。它通过大规模强化学习技术在极少人工标注数据的情况下显著提升了推理能力尤其在数学、代码生成和自然语言推理等任务上表现卓越。DeepSeek-R1 在训练中展现出自我反思、评估先前步骤、自发寻找替代方案等复杂行为具备强大的深度推理能力。所以在评测的榜单这些评测一般注重的是结果而不是时间上DeepSeek-R1的分数是高于DeepSeek-V3的。DeepSeek-V3 和 DeepSeek-R1 都是基于同一个基础架构但它们在设计目标、训练方法和性能表现上存在显著差异1 设计目标DeepSeek-V3旨在提供高效、可扩展的自然语言处理解决方案注重综合场景的适用性面向广泛的商业和研究需求。DeepSeek-R1专注于提升模型的推理能力特别是在数学、代码和逻辑推理等高难度任务中追求深度思考和分析的顶尖表现。2 训练方法DeepSeek-V3采用传统的预训练结合监督微调SFT, Supervised Fine-Tuning范式并通过混合专家架构优化训练效率。DeepSeek-R1在 DeepSeek-V3-Base 基础上通过大规模强化学习从基础模型中激发推理能力采用创新技术如冷启动策略和群体相对策略优化GRPO, Group Relative Policy Optimization。3 性能表现DeepSeek-V3在通用自然语言处理任务中表现出色尤其在响应速度和多语言理解方面具有优势。DeepSeek-R1在复杂推理任务领域表现卓越特别是在数学推理、代码生成和逻辑推理等任务中性能超越许多同类模型。4 资源消耗DeepSeek-V3由于 MoE 架构的优化计算成本较低资源消耗较少适合大规模部署和并发处理。DeepSeek-R1虽然也采用 MoE 架构但强化学习优化的推理过程需要更多计算资源支持复杂思考。也就是一说话就先“思考”5.1 DeepSeek-V3 的适用场合由于其通用性、高性价比和快速响应的特点DeepSeek-V3 广泛适用于以下场景内容创作帮助自媒体创作者快速生成结构清晰、内容丰富的文章。对话系统支持智能客服和聊天机器人能够准确理解用户问题并提供合适回答。信息检索与问答适用于复杂问题解答和信息提取帮助科研人员从海量文献中筛选信息。多语言翻译支持多语言文档处理和实时翻译满足国际化需求。教育辅导提供个性化学习辅导解答学生疑问。DeepSeek-V3 特别适合需要实时处理和大量并发请求的应用场景能够满足企业对 AI 服务的日常需求。5.2 DeepSeek-R1 的适用场合凭借其强大的推理能力DeepSeek-R1 适用于以下需要深度思考和分析的场景数学问题求解在高等数学难题、物理建模计算等场景中提供精准答案。代码生成为程序员提供高效的代码辅助支持提升编程效率和代码质量。逻辑推理在学术研究、问题解决应用程序和决策支持系统中发挥作用。教育工具帮助学生进行逻辑思维训练培养解决复杂问题的能力。三、大语言模型的构建流程根据OpenAI联合创始人AndrejKarpathy在微软Build2023大会上公开的信息OpenAI使用 的大语言模型构建流程如图1.3所示主要包含四个阶段预训练、有监督微调、奖励建模和强化学习。这四个阶段都需要不同规模的数据集及不同类型的算法会产出不同类型的模型所需要的资源也有非常大的差别。预训练Pretraining阶段需要利用海量的训练数据数据来自互联网网页、维基百科、书籍、 GitHub、论文、问答网站等构建包含数千亿甚至数万亿单词的具有多样性的内容。利用由数千块高性能GPU和高速网络组成的超级计算机花费数十天完成深度神经网络参数训练构建基础模 型BaseModel。基础模型对长文本进行建模使模型具有语言生成能力根据输入的提示词模型可以生成文本补全句子。有一部分研究人员认为语言模型建模过程中隐含地构建了包括事性知识FactualKnowledge和常识性知识Commonsense在内的世界知识WorldKnowledge。根据文献中的介绍GPT-3完成一次训练的总计算量是3640PFLOPS按照NVIDIA-A100-80GB-GPU和平均利用率达到50%计算需要花费近一个月的时间使用1000块GPU完成。由于GPT-3 的训练采用NVIDIA-V100-32GB-GPU其实际计算成本远高于上述计算。文献介绍了参数量同样是1750亿个的OPT模型该模型训练使用992块NVIDIA-A100-80GB-GPU整体训练时间 将近2个月。BLOOM模型的参数量也是1750亿个该模型训练一共花费3.5个月使用包含 384 块NVIDIA-A100-80GB-GPU集群完成。可以看到大语言模型的训练需要花费大量的计算资源和时间。LLaMA、Falcon、百川Baichuan等模型都属于基础语言模型。即便是DeepSeek-V3 经过了大量的训练效率优化甚至已经直接使用PTX进行汇编级优化完成一次预训练仍然需要花费266.4万H800 GPU小时。由于训练过程需要消耗大量的计算资源并很容易受到超参数影响因此如何提升分布式计算效率并使模型训练稳定收敛是本阶段的研究重点。有监督微调SupervisedFineTuningSFT也称为指令微调利用少量高质量数据集通过有监督训练使模型具备问题回答、翻译、写作等能力。有监督微调的数据包含用户输入的提示词和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。利用这些有监督数据使用与预训练阶段相同的语言模型训练算法在基础模型的基础上进行训练得到有监督微调模型SFT模型。经过训练的SFT模型具备初步的指令理解能力和上下文理解能力能够完成开放领域问答、阅读理解、翻译、生成代码等任务也具备了一定的对未知任务的泛化能力。由于有监督微调阶段所需的训练数据量较少SFT模型的训练过程并不需要消耗大量的计算资源。根据模型的大小和训练数据量通常需要数十块GPU花费数天时间完成训练。SFT 模型具备了初步的任务完成能力可以开放给用户使用很多类ChatGPT的模型都属于该类型包括Alpaca、Vicuna、MOSS、ChatGLM-6B等。很多这类模型的效果非常好甚至在一些评测中达到了ChatGPT的90%的效果。当前的一些研究表明有监督微调阶段的数据选择对SFT模型效果有非常大的影响因此构造少量并且高质量的训练数据是本阶段的研究重点。奖励建模RewardModeling阶段的目标是构建一个文本质量对比模型。对于同一个提示词 SFT 模型对给出的多个不同输出结果的质量进行排序。奖励模型可以通过二分类模型对输入的两个结果之间的优劣进行判断。奖励模型与基础模型和SFT模型不同奖励模型本身并不能单独提供给用户使用。奖励模型的训练通常和SFT模型一样使用数十块GPU通过数天时间完成训练。由于奖励模型的准确率对强化学习阶段的效果有至关重要的影响因此通常需要大规模的训练数据对该模型进行训练。AndrejKarpathy在报告中指出该部分需要百万量级的对比数据标注 而且其中很多标注需要很长时间才能完成。此外奖励模型的泛化能力边界也是本阶段需要重点研究的一个问题。如果奖励模型的目标是针对系统所有的输出都能够高质量地进行判断那么该问题的难度在某种程度上与文本生成等价因此限定奖励模型应用的泛化边界是本阶段需要解决的问题。强化学习ReinforcementLearningRL阶段根据数十万条提示词利用前一阶段训练的奖励模型给出SFT模型对提示词回答结果的质量评估并与语言模型建模目标综合得到更好的效果。 该阶段使用的提示词数量与有监督微调阶段类似数量在十万个量级并且不需要人工提前给出 该提示词所对应的理想回复。使用强化学习在SFT模型的基础上调整参数使最终生成的文本可以获得更高的奖励Reward。该阶段需要的计算量较预训练阶段也少很多通常仅需要数十块 GPU数天即可完成训练。文献给出了强化学习和有监督微调的对比在模型参数量相同的情况下强化学习可以得到相较于有监督微调好得多的效果。关于为什么强化学习相比有监督微调可以得到更好结果的问题截至2025年2月还没有完整或得到普遍共识的解释。目前相对得到认可的观点是强化学习使得模型具备更好的泛化能力。同时AndrejKarpathy也指出强化学习并不是没有问题的它会使基础模型的熵降低从而减少模型输出的多样性。经过强化学习方法训练后的RL模型就是最终提供给用户使用、具有理解用户指令和上下文的类ChatGPT系统。由于强化学习方法稳定性不高并且超参数众多使得模型收敛难度大叠加奖励模型的准确率问题使得在大语言模型上有效应用强化学习非常困难。四、大模型基础架构在深度学习的发展历程中2017 年是一个分水岭。Google 的研究团队发表了一篇名为《Attention Is All You Need》的论文提出了 Transformer 架构Transformer框架的问世代表着一个划时代的转折点。其独特的自注意力Self-Attention机制极大地提升了模型对序列数据的处理能力在捕捉长距离依赖关系方面表现尤为出色。此外Transformer框架对并行计算的支持极大地加速了模型的训练过程。当前绝大多数大语言模型均以Transformer 框架为核心并进一步演化出了三种经典架构分别是Encoder-only架构Decoder-only 架构以及 Encoder-Decoder 架构。这三种架构在设计和功能上各有不同。第一个是仅编码器模型Encoder-only也叫自编码器模型比如BERT让模型猜文本里被遮出的词是什么情感分析让模型判断文本情感是积极还是消极。目标是理解语言的任务。第二个是仅解码器模型Decoder-only也叫自回归模型如GPT2GPT3,通过预测下一个词来预测文本生成。目标文本生成。第三个是编码器和解码器模型Encoder-Decoder也叫序列到序列模型比如T5BART一个序列转换为另外一个序列目标翻译总结1、Transformer 架构关于Transformer 架构在Transformer架构被提出之前语言模型的主流架构主要是循环神经网络RNN其按照顺序逐字处理每一步输出取决于先前的隐藏状态和当前的输入要等上一个步骤完成后才能进行当前的计算。因此无法完成并行计算训练效率低而且RNN不擅长处理长序列因为难以捕捉到长距离依赖性的语义关系。接下来为了捕捉到长距离依赖性也出现了RNN的改良版本就是LSTM长短期记忆网络但是这也并没有解决传统并行计算的问题而且在处理非常长的序列时也依然受到限制。最后Transformer腾空出世了他有能力学习输入序列里所有词的相关性和上下文不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制。也正如论文标题所说Attention is all you need,注意力就是你所需要的一切。简单来说Transformer在处理每个词的时候不仅会注意这个词本身以及它附近的词还会去注意输入序列里所有其他的词然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐学习到因此Transformer有能力知道当前这个词和其他词之间的相关性有多强然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远Transform依然可以捕获他们之间的依赖关系举例给出一个句子使用一些关键词animal和street来描述it到底指代什么题目写出了一些关键词如animalstreet作为提示其中这些给出的关键词就可以看作是key 而整个的文本信息就相当于是query脑子里浮现的答案信息是value默认是street。第一次看到这段文本后脑子里基本上浮现的信息就只有提示这些信息此时key与value street基本是相同的。第二次进行深入理解后脑子里想起来的东西越来越多对query这一个句子提取关键信息tired进行关联这就是注意力作用的过程 通过这个过程我们最终脑子里的value发生了变化变成了animal。总结一下 使用一般注意力机制是使用不同于给定文本的关键词表示它。 而自注意力机制需要用给定文本自身来表达自己也就是说你需要从给定文本中抽取关键词来表述它相当于对文本自身的一次特征提取。Transformer目标是是通过预测出现概率最高的下一个词来实现文本生成的这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词输入框就开始预测后面的文本概率越高的排在越上面。Transformer 架构有两个核心部分组成编码器Encoder和解码器Decoder。工作流程如下第一步转换为计算机可以计算的向量Token。中文的每个字被理解为是文本的一个基本单位翻译成不同的token。是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。短单词可能每个词是一个token长单词可能被拆成多个token。每个token会被用一个整数数字表示这个数字被叫做token ID。这是因为计算机内部是无法储存文字的任何字符最终都得用数字来表示。有了数字表示的输入文本后再把它传入嵌入层。第二步Embedding嵌入层。其作用是让每个token都用向量表示向量可以被简单的看为一串数字举例假设把向量长度简化为1-521实际中向量长度可以非常长。为什么要用一串数字表示token重要原因是一串数字能表达的含义是大于一个数字的能包含更多语法、语义信息等等。这就好比对人的画像如果只有男人和女人这两个属性太少维度的描述需要增加籍贯身高爱好和专业等维度才能更好的刻画人的特征。多个数字就是多个特征我们就可以进行更多维度的表示特征。嵌入层的向量里面包含了词汇之间语法、语义等关系。向量长度到底可以多长呢在transformer 论文里向量长度是512GPT3里设置为12288可以想象能包含多少信息。第三步位置编码。Transformer的一项关键机制是位置编码。在语言里顺序很重要即使句子里包含的字都是一样的但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词因为它表示一系列按照特定顺序排序的元素。前面提到RNN和人类阅读文本一样对输入序列同样是按顺序依次处理这就造成了训练速度的瓶颈因为只能串行没办法并行也就是没法同时去学习所有信息。Transformer把词输入给神经网络前除了会先对词进行嵌入转换成向量也就是把词用一串数字表示它会把每个词在句子中的位置也各用一串数字表示添加到输入序列的表示中然后把这个结果给神经网络模型既可以理解每个词的意义又能够捕获词在句子中的位置。从而理解不同词之间的顺序关系。借助位置编码可以不按顺序输入给Transformer模型可以同时处理输入序列里的所有位置而不需要像RNN那样依次处理。那么在计算时每个输出都可以独立的计算不需要等待其他位置的计算结果这大大提高了训练速度。训练速度一快训练出巨大的模型也不是这么难了。位置编码就是把表示各个词在文本里顺序的向量和上一步得到词向量相加然后把得到的结果传给编码器。这样做的意义是模型既可以理解每个词的意义又能够捕捉词在句子中的位置从而理解不同词之间的顺序关系。第四步编码器。它的主要任务是把输入转换成一种更抽象的表示形式这个表示形式也是向量表示的一串数字里面既保留了输入文本的词汇信息和顺序关系也捕捉了语法语义上的关键特征。捕捉关键特征的核心是编码器的自注意力机制。模型在处理每个词的时候不仅会关注这个词本身和它附近的词还会关注序列中所有其他词。正如transformer论文标题所说自注意力机制通过计算每对词之间的相关性来决定注意力权重。实际上执行中Transformer使用了多头注意力机制也就是编码器不只有一个注意力机制模块每个头都有他自己的注意力权重用来关注文本里不同特征或方面比如有的关注动词有的关注修饰词有的关注情感有的关注病理实体等等。而且他们之间可以做并行运算也就是计算进展上互不影响。举例我们想测试部门中谁的关系最近先对部门中的每个成员进行个体画像再总结关系最近的人是谁。这个可以分组进行第一组第一个头就是按照个人信息进行关联第二组第二个头按照大家的项目经验关联第三组第三个头按照个人职业规划进行关联通过多组并行打分操作可以很快发现个体之间的关系。每个自注意力头的权重都是模型在之前的训练过程中通过大量文本里逐渐学习和调整的。在多头注意力机制后面还有一个前馈神经网络它会对输出进行进一步增强表达能力。第五步解码器。它是大语言模型生成一个个词的关键。通过前面的编码器我们有了输入序列里各个token的抽象表示可以把它传给解码器。解码器还会先接收一个特殊值这个值表示输出序列的开头。这样做的原因是解码器不仅会把来自编码器的输入序列的抽象表示作为输入还会把之前已经生成的来保持输出的连贯性和上下文相关性。刚开始还没有任何已生成的文本所以把表示开头的特殊值先作为输入。具体的生成过程仍然是要经过多个步骤。首先和编码器一样文本要经过我们已经了解过的嵌入层和位置编码然后被输入进多头自注意力层但它和编码器里的多头自注意力层却不一样。当编码器在处理各个词的时候他会关注输入序列里所有其他词但解码器中自注意力机制只会关注这个词和它前面的其他词后面的词要被遮住而不去关注。这样做是为了确保解码器生成文本时遵循正确的时间顺序不能先让他偷看后面的词在预测下一个词时只是用前面的词作为上下文。这种类型的多头注意力机制被叫做带掩码的多头注意力机制。另外的一个注意力机制会捕捉编码器的输出和解码器即将生成的输出之间的对应关系从而将原始输入序列的信息融合到输出序列的生成过程中。解码器里的前馈神经网络作用和编码器里的类似也是通过额外的计算来增强模型的表达能力。最后和编码器一样解码器同样是多个堆叠到一起的这可以增加模型的性能有助于处理复杂的输入输出关系。解码器的最后阶段包含了一个线性和一个softmax层他们加一块的作用是把解码器输出的表示转化为词汇表的概率分布这个词汇表的概率分布代表下一个次被生成token的概率一般来说模型会选择概率最高的token作为下一个输出。因此解码器就是预测下一个输出的token就像GPT的功能类似。2、MOE架构自 2017 年 Google 提出 Transformer 架构以来其 “注意力机制 全连接层” 的设计成为 LLM 的标准范式。但随着模型规模从 BERT3.4 亿参数增长至 GPT-41.8 万亿参数传统密集架构逐渐暴露三大核心问题计算复杂度高注意力机制的时间复杂度为为序列长度长文本处理时显存占用呈二次方增长。参数利用率低无论输入任务类型如文本生成、数学推理、代码分析模型所有参数均被激活导致 90% 以上的计算资源浪费在非关键任务上。训练成本高昂GPT-4 训练消耗约 2.15e25 FLOPs浮点运算次数需动用上万张 A100 GPU仅少数科技巨头能负担。可以看出在大语言模型LLM爆发式发展的今天模型规模与计算效率的矛盾日益凸显。传统Transformer架构采用全参数激活模式导致计算资源与参数规模呈线性正相关。以GPT-3为例1750亿参数意味着每次前向传播都需要调动全部计算资源这种”全员在线”模式在参数突破万亿后将面临算力消耗呈指数级增长、推理延迟居高不下、边缘设备部署困难等瓶颈。在此背景下DeepSeek 作为中国本土自主研发的新一代大模型以 “稀疏激活 动态路由”为核心设计理念通过混合专家Mixture-of-Experts, MoE架构实现了“万亿参数规模与高效推理”的平衡其 6710 亿参数模型单次推理仅激活 370 亿参数约 5.5%在保持性能领先的同时将计算成本降低至传统模型的 1/11。这款采用混合专家Mixture of Experts, MoE架构的模型不仅在参数数量上实现量级跨越更通过动态路由机制重构了AI计算范式。MoEMixture of Experts是一种深度学习架构旨在通过多个专家模型和一个门控网络的组合来处理复杂任务。其核心思想是将输入数据分配给不同的专家以提高模型的效率和性能。MoE层通常嵌入在Transformer块中以替代标准的前馈网络FFN层其主要由以下部分构成专家网络Experts 是一组并行的、结构相同的神经网络。在Transformer中每个专家就是一个两层的多层感知机MLP。它们的结构一样但权重参数是独立训练、互不共享的。门控网络Gating Network 是一个小型的神经网络通常是一个简单的线性层加上一个Softmax激活函数 。它接收来自上一层的token隐藏状态作为输入输出一个覆盖所有专家的概率分布。这个分布表明了每个专家处理当前token的“适合度”。路由策略Routing Strategy 门控网络输出概率后系统根据预设的策略选择激活哪些专家。最常见的策略是“Top-k”即选择概率最高的k个专家。输入token的向量会乘以其对应的门控权重然后被送入选定的专家中进行计算。最后所有被激活专家的输出会根据门控权重加权求和形成该MoE层的最终输出。MoE架构通过引入专家网络Expert Networks和门控机制Gating Network实现了参数规模与计算资源的解耦。DeepSeek-V3采用128个专家模块每个专家包含80亿参数总参数规模达1.024万亿但单次推理仅激活2%的专家约200亿参数计算效率提升5倍以上在经典MoE基础上DeepSeek-V3引入三层动态路由机制输入特征分层将输入向量分解为语义特征、时序特征和领域特征专家分组策略将128个专家划分为16个专业组每组8个专家渐进式路由首轮全局路由确定专业组次轮组内路由选择具体专家这种设计使模型在保持万亿参数规模的同时实现了98.7%的专家利用率传统MoE架构通常低于85%。五、微调与对齐微调Fine-Tuning是深度学习领域中一种高效的模型优化技术其核心在于利用预训练模型Pre-trained Model作为起点通过少量目标任务数据对模型参数进行针对性调整。与从零开始训练Training from Scratch相比微调能显著降低计算成本通常减少50%-90%的训练时间和数据需求可仅用1/10的数据达到同等精度尤其适用于数据稀缺或计算资源有限的场景。1、指令微调Instruction Tuning指令微调Instruction Tuning调又称有监督微调Supervised Fine-tuning。通过指令微调大语言 模型能够更好地学习遵循和执行人类指令。指令微调具体训练过程并不复杂主要分为如下三个步骤1针对每一项任务去明确地 定义相应的自然语言形式的指令或者提示这些指令或提示对任务目标以及输出要求进行清晰描 述2把训练数据调整成包含指令以及与之对应的响应的形式3使用包含指令和响应的训 练数据对预训练模型进行微调操作。从训练方式的角度来看指令微调与预训练大体上较为相似 不过指令微调的目标函数往往只是针对输出部分来计算损失。指令数据集对于指令微调非常重要无论手工还是自动构建都需要花费一定的时间和成本。目 前已经有一些开源指令数据集本节将选择一些常用的指令数据集进行介绍。如果按照类型来划 分指令微调数据集可以分为两大类通用指令微调数据集GeneralInstructionFine-tuningDatasets 和特定领域指令微调数据集Domain-specificInstructionFine-tuningDatasets。通用指令微调数据 集涵盖了各种跨领域指令旨在提高模型在通用任务上的效果以及指令遵循能力效果。特定领域指令微调数据集中的指令是专门为特定领域设计的。例如法律领域指令集包含法律考试、法律 咨询、法律问答等任务的指令数据。由于大语言模型的参数量十分庞大当将其应用到下游任务时微调全部参数需要相当高的算力。。为了节省成本研究人员提出了多种参数高效 ParameterEfficient的微调方法旨在仅训练少量参数就使模型适应下游任务。参数高效微调Parameter-Efficient Fine-Tuning, PEFT参数高效微调Parameter-Efficient Fine-TuningPEFT旨在避免微调全部参数减少在微调过程中需要更新的参数数量和计算开销从而提高微调大语言模 型的效率。主流的PEFT方法可以分为三类参数附加方法AdditionalParameters Methods参数选择方法ParameterSelection Methods以及低秩适配方法Low Rank Adaptation Methods。以LoRA Low-RankAdaptationofLargeLanguageModels大语言模型的低秩适配器为例介绍高效模型微调方法。LoRA方法可以在缩减训练参数量和GPU显存占用的同时使训练后的模型具有与全量微调相当的性能。该方法将参数更新矩阵低秩分解为两个小矩阵。在微调时 通过微调这两个小矩阵来对大语言模型进行更新大幅节省了微调时的内存开销。文献提供在LLaMA2-7B模型上使用批量大小为1单个NVIDIARTX4090 24GBGPU 上进行全量微调和LoRA微调的实验对比。根据实验结果全量微 调大约需要60GB显存超出RTX4090的显存容量。相比之下LoRA只需要大 约23GB显存。LoRA显著减少了显存使用使得在单个NVIDIARTX4090上进行 LLaMA2-7B 微调成为可能。具体来说由于可训练参数较少优化器内存和梯度 内存分别减少了约25GB和14GB。另外虽然LoRA引入了额外的“增量参数” 导致激活内存和权重内存略微增加总计约2GB但考虑到整体内存的减少这 种增加是可以忽略不计的。此外减少涉及到的参数计算可以加速反向传播。与全量微调相比LoRA的速度提高了1.9倍。2、人类对齐HumanAlignment尽管大语言模型在下游任务中表现出优秀的性能这些模型有时会出现错误或具有危害性的行为例如无法正确遵循指令、生成虚假信息、以及产生有害、有误导性以及带有偏见的表达。在大语言模型的预训练和有监督微调的过程中主要训练目标是根据上下文内容来预测下一个词元。但是这一过程并未充分考虑人类的价值观或偏好可能导致大语言模型从数据中学习到不符合人类期望的生 成模式。为了规避这些潜在风险研究人员提出了“人类对齐”这一关键概念旨在保证大语言模型的行为与人类期望和价值观。与预训练和指令微调不同人类对齐需引入全新的评估标准如有用性、诚实性和无害性。在大语言模型的学习过程中如何确保大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致成为了一个关键研究问题通常称这一研究问题为人类对齐HumanAlignment。实现人类对齐的关键技术——基于人类反馈的强化学习ReinforcementLearningfromHumanFeedback,RLHF包括人类反馈的收集方法、奖励模型的训练过程、强化学习训练策略以及相关的RLHF 工作。基于人类反馈的强化学习RLHF当前大语言模型中的强化学习技术主要沿着两个方向演进其一是基于人类反馈的强化学习 ReinforcementLearningfromHumanFeedbackRLHF通过奖励模型对生成文本进行整体质量评估 使模型能自主探索更优的回复策略并使得模型回复与人类偏好和价值观对齐。典型如ChatGPT等 对话系统通过人类偏好数据训练奖励模型结合近端策略优化ProximalPolicyOptimizationPPO 算法实现对齐优化。其二是面向深度推理的强化学习框架以OpenAI的O系列模型和DeepSeek 的R系列为代表通过答案校验引导模型进行多步推理。这类方法将复杂问题分解为长思维链 Chain-of-Thought的决策序列在数学证明、代码生成等场景中展现出超越监督学习的推理能力。相较于传统监督学习强化学习框架具有显著优势在RLHF范式下模型通过生成-反馈的闭环机制持续优化摆脱对标准答案的绝对依赖在深度推理场景中强化学习能自主探索最优推理路径通过价值函数估计引导模型突破局部最优解。两类方法都强调对生成文本的整体质量把控前者侧重人类价值对齐后者专注复杂问题求解共同构成大语言模型能力进化的核心驱动力。RLHF 算法系统主要包括三个关键组成部分需要与人类价值观对齐的模型、 基于人类反馈数据学习的奖励模型以及用于训练大语言模型的强化学习算法。1、待对齐模型一般指的是经过预训练、具备一定通用能力的大语言模型。然而这些模型并没有与人类价值观对齐在下游任务中可能表现出不合适甚至有害的行为。2、奖励模型既可以采用人类偏好数 据对已有的语言模型继续微调也可以基于人类偏好数据重新训练一个新的语言模型。3、在训练过程中基于奖励模型提供的 反馈信号RLHF使用特定的强化学习算法进行大语言模型的训练。目前PPO算法 是一种被广泛用于人类对齐的强化学习算法。图8.1 展示了RLHF整体训练框架的三个阶段下面分阶段进行具体介绍。监督微调为了让待对齐语言模型具有较好的指令遵循能力通常需要收集 高质量的指令数据进行监督微调。指令数据一般包括任务描述和示例输出可以 由人类标注员针对特定任务编写也可以由大语言模型自动生成。在InstructGPT 中人类标注员为多个生成任务如开放性问答、头脑风暴、日常聊天等编写提 示和相应的示例输出例如“列出五种恢复职业热情的方法”。奖励模型训练第二步是使用人类反馈数据训练奖励模型。具体来说首先 使用语言模型针对任务指令生成一定数量的候选输出。随后邀请标注员对于输出文本进行偏好标注这个标注过程可以采用多种形式其中最常用的是对候选 文本进行排序标注这样可以有效减少多个标注员之间的不一致情况。进一步使用人工标注的偏好数据进行奖励模型的训练使其能够建模人类偏好。在InstructGPT中标注员将模型生成的输出按照最佳到最 差的顺序进行排序并据此训练奖励模型来预测这个排序。• 强化学习训练在这一步骤中语言模型对齐被转化为一个强化学习问题。 具体来说待对齐语言模型担任策略实施者的角色称为策略模型它接收提 示作为输入并返回输出文本其动作空间是词汇表中的所有词元状态指的是当 前已生成的词元序列。奖励模型则根据当前语言模型的状态提供相应的奖励分数 用于指导策略模型的优化。为了避免当前训练轮次的语言模型明显偏离初始强 化学习训练之前的语言模型通常会在原始优化目标中加入一个惩罚项如KL 散度。例如InstructGPT 使用PPO算法来优化待对齐语言模型以最大化奖励模 型的奖励。对于每个输入提示InstructGPT计算当前语言模型与初始语言模型生 成结果之间的KL散度作为惩罚项。KL散度越大意味着当前语言模型越偏离初 始语言模型。这个对齐过程可以进行多次迭代从而更好地对齐大语言模型。人类反馈数据的收集为了实现有效的人类对齐需要使用高质量的人类反 馈数据对大语言模型进行针对性的微调。1、标注人员选择为了确保人类反馈数据的可靠性选择合适的标注人员至关重要。一般来说 理想的标注员应具备较高的教育水平以及出色的语言熟练度。例如Sparrow要求标注员必须是英国本土的英语母语者并至少具备本科及以上学历。尽管如 此研究人员与标注员之间仍然可能存在意图不匹配的情况这可能导致生成不 一致的反馈数据进而影响模型的输出。为了解决这一问题InstructGPT通过对标注员与研究人员之间的标注一致性进行评估来筛选出合适的标注员。具体 来说研究人员首先标注一小部分数据然后邀请候选标注员进行标注并计算 候选标注员与研究人员标注结果之间的一致性分数。最终只选择一致性分数较高的标注员进行后续的标注工作。此外还可以从一组表现较好的标注员中选出 高度一致的“超级标注员”这些超级标注员将优先与研究人员合作进行后 续研究。此外在标注过程中提供详细的标注说明和即时指导有助于进一步规 范标注员的标注行为2、人类反馈形式确定标注人员的选择后可以对大语言模型的输出进行标注以收集人类反馈数据。• 基于评分的人类反馈.最直接的标注方式是根据预设的标准邀请标注人员对 于大语言模型的输出进行打分从而作为模型输出质量的判断。•基于排序的人类反馈.排序是一种比较典型的人类偏好标注形式。最简单的 方式是标注人员根据自身偏好对于大语言模型的输出进行全排序。奖励模型的训练由于RLHF的训练过程中需要依赖大量的人类偏好数据进行学习因此很难 在训练过程中要求人类标注者实时提供偏好反馈。为此我们需要训练一个模型 来替代人类在RLHF训练过程中实时提供反馈这个模型被称为奖励模型。在训练开始前我们需要预先构造一系列相关问题作为输入。人类标注者将针对这些 问题标注出符合人类偏好的输出以及不符合人类偏好的输出。收集到这些人类偏 好数据后就可以用来训练奖励模型。经过充分训练的奖励模型能够有效地拟合 人类偏好并在后续的强化学习训练过程中替代人类提供反馈信号。这样一来就可以在保证训练效率的同时加强模型行为与人类期望的一致性。强化学习训练强化学习是RLHF中的核心优化算法。一般来说强化学习旨在训练一个智 能体该智能体与外部环境进行多轮交互通过学习合适的策略进而最大化从外 部环境获得的奖励。在强化学习的过程中智能体是根据外部环境决定下一步行 动的决策者因此其被称为策略模型。近端策略优化ProximalPolicy Optimization, PPO算法是强化学习领域的一种重要优化方法主要用于训练能够根据外部环境状态做出行为决策的策略模型。 PPO 算法在策略梯度算法的基础上主要使用优势估计来更加准确的评估决策轨迹能获得的奖励使用了重要性采样来进行离线策略训练。此外为了保证重要 性采样的稳定性PPO算法通过在目标函数中加入了梯度裁剪以及相关的惩罚项 来减小采样误差。代表性RLHF大模型InstructGPT 模型使用RLHF方法在自监督文本数据预训练的基础上结合了人类 反馈与强化学习从而能够构建更符合人类价值观的模型。InstructGPT 模型的训练过程主要包括三个关键步骤。首先需要 收集指令数据并使用有监督微调进行训练。OpenAI的研究团队雇佣了40名标注 人员针对给定任务提示编写对应的输出示例。这些数据将用于经过预训练后的 GPT-3 模型的监督微调。然后收集人类反馈数据训练奖励模型。标注人员对于模 型生成的输出进行对比与排序然后训练奖励模型来拟合标注人员的偏好。最后 使用PPO算法和奖励模型进行大语言模型的强化学习训练。在这个步骤中使用 第二步训练得到的奖励模型对于第一步监督训练得到的语言模型进行微调从 而实现人类价值观的对齐。后两个步骤可以迭代多次基于当前最佳的语言模型 持续收集数据进一步训练奖励模型和优化模型的生成策略。实验结果表明即使参数量仅为1.3B的InstructGPT模型在相关评测任务 上性能也超过了高达175B参数的GPT-3模型。InstructGPT在生成内容的诚实性、减少有害输出方面表现更优同时在公开的自然语言处理数据集上的表现没有明 显下降所带来的“对齐税”AlignmentTax并不是很高。关于SFT和RLHF总体来说RLHF和SFT可以被 视为两种优化大语言模型决策过程的训练方法。在RLHF中我们首先学习一个 奖励模型然后利用该奖励模型通过强化学习算法如PPO来改进大语言模型。 而在SFT中我们则采用了Teacher-Forcing的方法直接优化模型对实例输出的 预测概率。从本质上说SFT所采用的这种词元级别的训练方式是一种“行为克隆”它利用教师的行为数据即每 个步骤的目标词元作为监督标签来直接训练大语言模型模仿教师的行为。在 实现上SFT主要依赖于序列到序列的监督损失来优化模型而RLHF则主要通过强化学习方法来实现大模型与人类价值观的对齐。本质上来说为了学习教师 的生成策略SFT采用了基于示例数据的“局部”优化方式即词元级别的损失函 数。作为对比RLHF则采用了涉及人类偏好的“全局”优化方式即文本级别的损失函数。SFT 已经成为一种主要的大语言模型微调方法能够显著提升大语言模型在 各种基准测试中的性能增强在不同任务上的泛化能力。关于SFT人们普遍认为其作用在于“解锁”大语言模型的能力而非向大 语言模型“注入”新能力。因此试图通过SFT激发大语言模型的非内生能力时 可能会出现一些负面问题。当待学习的标注指令数据超出了大语言模型的知识或 能力范围例如训练大语言模型回答关于模型未知事实的问题时可能会加重模 型的幻象Hallucination行为。OpenAI 强化学习研究团队的负责人、PPO算法 的作者JohnSchulman在一场关于RLHF的讲座中提出了一个有趣的观点通过蒸 馏较大模型来训练较小模型可能会增加模型生成幻觉文本的可能性从而可能影 响大语言模型的事实准确性。。实际上目前无论学术界和工业界都在大量使 用GPT-4 进行指令微调数据的蒸馏在这一过程中除了要考虑指令数据本身的质 量外还需要进一步关注模型自身的知识与能力边界从而减少微调过程中所产 生的负面效应如上述提到的幻象问题。此外作为一种基于行为克隆的学习方法SFT旨在模仿构建标注数据的教 师的行为而无法在这一过程中进行有效的行为探索。然而标注者在写作风格、 创作水平和主题偏好等方面经常存在一定的差异这些都会使得标注数据中出现 不一致的数据特征进而影响SFT的学习性能。因此在SFT阶段高质量的指令数据而非数量是影响大语言模型训练的主要因素。最初RLHF是在深度强化学习的文献中被提出随后被借鉴用于提升语 言模型的能力。在早期的研究中研究人员主要关注 使用RLHF加强模型对于人类价值观的遵循减少模型输出的有害性。在最近的研究中相关研究发现RLHF在减少有害内容输出的同时也能够有 效增强模型的综合能力这一点在LLaMA-2的论文中有着充分讨论。在RLHF算法中标注员 主要为训练过程提供偏好标注数据而不是直接生成示例数据因此它可以减少 标注员之间的不一致。其次与编写示例数据相比偏好标注更为简单易行。标注 员甚至可以评估超出自己创作水平的模型输出质量使得模型能够探索标注员能 力之外的状态空间而不用受限于给定的教师示例。上述这两个方面都使得RLHF 在数据标注阶段相比SFT更加具有优势更加容易充分发挥人类指导的作用。在模型学习阶段RLHF通过对比模型的输出数据区分“好”输出与“坏” 输出来指导大语言模型学习正确的生成策略它不再强迫大语言模型模仿教师 的示例数据因此可以缓解上述提到的SFT所导致的幻象问题。在RLHF方法中 奖励模型非常重要。一般来说奖励模型应该能够了解待对齐的大语言模型的知识或能力范畴。。然而RLHF 也继承了经典强化学习算法的缺点如样本学习效率低和训练过程不稳定等问题。 因此当训练语言模型时RLHF需要依赖于经过SFT的模型作为策略模型的初 始模型从而快速达到较好的表现。这也是InstructGPT采用SFT作为RLHF方法 的第一步的主要原因。此外RLHF的过程通常会持续多轮这是一个复杂的迭代 优化过程其中涉及了很多重要细节的设定例如提示选择、奖励模型训练、PPO 的超参数设置以及训练过程中对超参数的调整都会影响整个模型的性能对于精确的高效复现提出了较大挑战。总的来说SFT特别适合预训练后增强模型的性能具有实现简单、快速高效 等优点而RLHF可在此基础上规避可能的有害行为并进一步提高模型性能但是 实现较为困难不易进行高效优化。未来的研究仍然需要探索更为有效的对齐方 法同时结合SFT与RLHF的优点。此外还需要关注当模型能力达到较强水平后 更为有效的对齐方法。针对这个问题OpenAI提出了“超级对齐”Super-alignment 这一研究方向旨在能够有效监管具有超级智能的人工智能系统。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】