金华网站建设工程网站建设甘肃庆阳网红排名

张小明 2026/1/10 2:27:48
金华网站建设工程网站建设,甘肃庆阳网红排名,火车头采集wordpress规则,网站外链工具本文系统拆解RAG#xff08;检索增强生成#xff09;技术核心环节——分块策略#xff0c;详细剖析固定大小分块、语义分块、递归分块、基于文档结构的分块及基于LLM的分块这5种主流方案。针对RAG落地中高频遇到的准确性不足、关键信息漏检、复杂文档解析困难等痛点#xf…本文系统拆解RAG检索增强生成技术核心环节——分块策略详细剖析固定大小分块、语义分块、递归分块、基于文档结构的分块及基于LLM的分块这5种主流方案。针对RAG落地中高频遇到的准确性不足、关键信息漏检、复杂文档解析困难等痛点逐一讲解各策略的核心原理、实现步骤、优缺点及适用场景并给出可直接落地的选择建议。掌握正确的分块策略能大幅提升大模型检索效率与生成质量有效降低幻觉风险是企业搭建高可用RAG系统的关键所在。在深入分块策略前我们先快速回顾RAG的核心工作流程明确分块在整个链路中的定位RAG工作流程图片来源DailyDoseofDS从流程可见文档预处理步骤①是RAG的基础环节。当面对大篇幅文档或结构复杂的内容时必须进行分块处理——将完整文档拆解为更小、更易管理的单元确保每个单元能适配嵌入模型的输入限制为后续高效检索打下基础。但实际落地中很多开发者会因选择不当的分块策略导致RAG系统效果不及预期比如生成答案可信度低、关键信息检索不到、复杂文档含表格/公式无法有效解析等。这些问题直接影响RAG系统的可靠性甚至制约业务落地效果。下面先梳理RAG分块应用中最普遍的3类问题帮大家精准定位痛点。1、RAG分块应用中普遍存在的问题准确性答案可信度不足幻觉问题即使检索到相关文档大模型仍可能脱离文档内容编造答案尤其在文档信息模糊或矛盾时。例如如用户问“某基金近3年收益率”模型可能捏造数据而非引用检索到的报告。检索噪声干扰相似度搜索返回的文档片段可能包含无关信息导致模型生成答案时被误导。例如检索到10篇文档其中3篇主题相关但含错误数据模型可能融合错误信息。细粒度理解缺失模型难以精准理解数字、日期、专业术语的上下文含义导致关键信息误用。例如将“预计2025年增长10%”误解为历史数据。召回率关键信息漏检语义匹配局限传统向量搜索依赖语义相似度但用户问题与文档表述差异大时漏检如术语vs口语。例如用户问“钱放货币基金安全吗”可能漏检标题为“货币市场基金信用风险分析”的文档。长尾知识覆盖不足低频、冷门知识因嵌入表示不充分在向量空间中难以被检索到。例如某小众金融衍生品的风险说明文档未被召回。多跳推理失效需组合多个文档片段才能回答的问题如因果链单次检索难以关联分散的知识点。例如“美联储加息如何影响A股消费板块”需先检索加息机制再关联A股消费板块。复杂文档解析信息提取瓶颈非结构化数据处理表格/图表文本分块会破坏表格结构导致行列关系丢失如财报中的利润表。公式/代码数学公式或程序代码被错误分段语义完整性受损。扫描件/图片OCR识别错误率高尤其对手写体或模糊文档。上下文割裂问题固定长度分块如512字符可能切断关键上下文分块1结尾“…风险因素包括”分块2开头“利率波动、信用违约…” → 模型无法关联分块1的提示语。文档逻辑结构丢失标准分块策略忽略章节、段落、标题的层级关系影响知识图谱构建。例如将“附录”中的备注误认为正文结论。2、RAG的分块策略与选择选择合适的分块策略是解决RAG实际应用中准确性、召回率与复杂文档解析等痛点最直接有效的方式也是我们建设RAG系统最关键的一个环节。最常见的RAG分块策略包括固定大小分块、语义分块、递归分块、基于文档结构的分块、基于LLM的分块。RAG五种分块策略图片来源DailyDoseofDS下面我们围绕这五种分块策略系统介绍不同分块策略的基本原理、实现步骤、主要优缺点与适用场景。固定大小分块基本原理固定大小分块Fixed-size Chunking将文本按固定长度如字符数、单词数或token数切分每个块大小一致可能通过重叠保留上下文连贯性。例如将文档每256个字符切分为一个块重叠20个字符以减少边界信息丢失。固定大小分块示意图片来源DailyDoseofDS实现步骤预设参数定义块大小如256 token和重叠比例如20 token。切分文本按固定长度分割文本允许相邻块部分重叠。生成块列表输出所有块作为独立单元。主要优点实现简单无需复杂算法代码实现高效。标准化处理块大小一致便于批量处理和向量化。资源友好适合大规模文本处理降低计算成本。主要缺点语义断裂可能在句子或概念中间切分破坏上下文完整性。信息冗余重叠区域可能导致重复存储和计算。适用性受限对结构化文本如代码、技术文档效果较差。适用场景非结构化文本如新闻、博客的初步处理。对实时性要求高、需快速切分的场景。场景示例[原文档] 2023年Q3净利润同比增长5.2%详见附录Table 7 [分块1] 2023年Q3净利润同比增长5.2%详见 [分块2] 附录Table 7 # 关键数据来源丢失语义分块基本原理语义分块Semantic Chunking根据句子、段落、主题等有语义内涵的单位对文档进行分段创建嵌入如果第一个段的嵌入与第二个段的嵌入具有较高的余弦相似度则这两个段形成一个块。通过合并相似内容确保每个块表达完整的语义内容。由于每个分块的内容更加丰富它提高了检索准确性让大模型产生更加连续和相关的响应。但是它依赖于一个阈值来确定余弦相似度是否显著下降而这个阈值在不同类型文档中可能涉及不同的参数设置。语义分块流程语义分块示意图片来源DailyDoseofDS实现步骤分句/分段将文本拆分为句子或段落。生成嵌入为每个单元计算向量表示。相似度计算依次比较相邻单元的余弦相似度。动态合并当相似度高于阈值时合并单元相似度骤降时开始新块。主要优点语义完整性保留自然语义结构提升检索准确性。上下文敏感适应复杂逻辑关系如因果、对比。生成质量检索到的块更连贯利于LLM生成精准回答。主要缺点计算复杂度高需多次向量化计算和相似度比较。阈值依赖相似度阈值需人工调试不同文档需不同参数。实现门槛依赖高质量嵌入模型和相似度算法。适用场景高精度问答系统如法律、医疗领域研究论文、行业分析报告等专业文档。需保留上下文逻辑的复杂文档如论文、技术报告。场景示例[分块] 区块1: 货币政策的宽松将推动市场流动性提升。 区块2: 但需警惕通胀反弹带来的政策转向风险。 # 每个区块为完整语义单元递归分块基本原理递归分块Recursive Chunking先按主题或段落初步划分再对超长块递归细分直至满足大小限制。递归分块融合了结构化与非结构化处理逻辑与固定大小的分块不同这种方法保持了语言的自然流畅性并保留了完整的内容语义。递归分块流程递归分块示意图片来源DailyDoseofDS实现步骤粗粒度切分按段落、标题或主题初步划分大块。检查大小判断块是否超过预设长度如1024 token。递归细分超长按固定大小或语义逻辑进一步切分。终止条件块大小符合要求时停止递归。主要优点灵活性强平衡结构完整性与大小限制。适应复杂内容处理长文档如书籍、长篇论文时表现优异。多策略融合可结合固定大小或语义分块优化细分。主要缺点块大小不均不同层级的块可能差异较大。逻辑断裂风险递归过程中可能破坏原文的自然段落结构。实现复杂需设计递归终止条件和分块策略。适用场景长文档处理如企业年报、学术论文书籍、技术手册等层级化文档。需兼顾结构化与非结构化内容的场景包含嵌套结构的合同文本。场景示例1. 摘要 -- [保留完整] 2. 行业分析 -- [按子章节切分] 2.1 供需格局 -- [按段落切分] 2.2 竞争态势 -- [按段落切分] 3. 附录表格 -- [特殊处理]基于文档结构的分块基本原理基于文档结构分块Document Structure-based Chunking利用文档固有结构如标题h1、章节、列表ul、表格table进行切分每个结构单元作为一个块。它通过与文档的逻辑部分对齐来保持结构完整性。这种分块适用于文档有清晰的结构但很多时候一个文档的结构会比想象中复杂此外很多时候文档章节内容大小不一很容易超过块的大小限制需要结合递归拆分再进行合并处理。基于文档结构分块流程基于文档结构分块示意图片来源DailyDoseofDS实现步骤识别结构元素解析文档中的标题、段落、小节等标记如Markdown、XML。按结构切分将每个结构单元如“引言”、“结论”独立为块。处理超长部分若某结构单元过大再结合递归或固定大小分块细化。主要优点逻辑清晰保留文档的层次化结构便于定位信息。检索高效用户可通过标题快速定位相关内容。格式兼容性适合结构化文档如技术手册、报告。主要缺点依赖格式标准化对非结构化文本如自由写作效果差。预处理复杂需解析文档格式如LaTeX、HTML增加实现难度。灵活性不足难以处理混合结构内容如图文混排。适用场景结构化文档如财报表格数据、技术文档代码块、合同条款列表。需按章节检索的场景如法规数据库任何含丰富格式标记的内容。场景示例[原始PDF表格] | 项目 | 2023Q3 | 同比 | |--------------|--------|-------| | 营业收入 | 5.2亿 | 12% | [结构化分块] { type: table, title: 利润表摘要, data: [[项目, 2023Q3, 同比], [营业收入, 5.2亿, 12%]] } # 整表作为独立区块基于LLM的分块基本原理基于LLM的分块LLM-based Chunking直接将原始文档输入大语言模型LLM由模型智能生成语义块。利用LLM的语义理解能力动态划分文本保证了分块语义的准确性但这种分块方法对算力要求最高对时效性与性能也将带来挑战。基于LLM分块流程图片来源DailyDoseofDS实现步骤输入文档将完整文档送入LLM如DeepSeek、GPT。生成块指令通过提示词Prompt引导模型按语义划分块。示例提示词“请将以下文档按语义划分为多个块每个块需包含完整主题。”输出块列表模型返回划分后的块可能包含逻辑标签如“引言”、“方法论”。主要优点高度智能化适应复杂、非结构化文本如自由写作、对话记录。动态适应性根据文档内容自动调整块大小和逻辑。生成质量块语义连贯减少人工干预。主要缺点计算成本高依赖高性能LLM资源消耗大。可解释性差模型决策过程难以追溯可能产生不可预测的块。依赖模型能力效果受限于LLM的训练数据和语义理解能力。适用场景非结构化文本如访谈记录会议纪要用户评论、社交媒体内容等。需高级语义分析的场景如跨领域知识整合场景示例[原始分散段落] 段落1: A公司宣布收购B公司... 段落2: 交易金额达50亿美元... 段落3: B公司核心资产为... [LLM智能分块结果] 并购事件A公司以50亿美元收购B公司核心资产为... # 跨段落聚合关键信息3、五种RAG分块策略总结对比分块策略优点缺点适用场景固定大小分块实现简单资源高效语义断裂信息冗余快速处理非结构化文本语义分块语义完整检索精准计算复杂依赖阈值高精度问答、复杂文档递归分块灵活适应长文档保留结构块大小不均逻辑断裂风险长篇技术文档、企业报告基于结构的分块逻辑清晰检索高效依赖格式标准化预处理复杂结构化文档论文、白皮书基于LLM的分块高度智能适应非结构化文本计算成本高决策过程不可控非结构化内容、跨领域整合4、RAG分块策略选择建议结合递归与结构分块处理长文档时如法律合同、表格、公式、技术手册。语义分块对生成质量要求高、文档语义复杂时如论文、医疗问答。使用LLM分块处理非结构化或混合内容如多模态文档。固定大小分块快速部署或资源受限场景如社交媒体、轻量级应用。分块策略选择决策树具体实施过程中我们需要根据具体需求与文档类型选择分块策略或组合多种方法如“结构分块语义细分”以实现最佳效果。RAG面临的挑战与前沿探索深层待解决问题知识关联缺失当前检索基于单点语义相似度无法构建跨文档知识图谱如“公司A收购事件”与“行业竞争格局变化”的隐含关联。推理-检索割裂生成模型无法主动指导检索过程形成“检索→生成”单向流水线而非动态交互式推理。例如模型应能反问“您需要对比哪两个季度的数据”以优化检索目标。多模态理解不足现有RAG主要处理文本对文档中的图表、公式、流程图等信息利用率极低。例如研报中的股价趋势图无法被检索系统理解。可信度量化困境缺乏统一标准评估答案可靠性用户难以判断“何时可信任RAG的输出”导致存在潜在风险例如金融场景中错误答案可能导致直接经济损失。长上下文建模缺陷当检索返回大量片段如20篇文档时模型对超长提示词的尾部信息忽略率显著上升。解决路径与前沿探索检索增强混合检索融合语义搜索Embedding与关键词搜索BM25提升召回率查询扩展用LLM将用户问题改写为专业查询如“钱放余额宝安全吗”→“货币基金信用风险评估”递归检索实现多跳推理先查“美联储加息”再查“科技股估值模型”生成控制强制引用要求模型标注答案来源位置如源自2023年报第5页置信度阈值对低置信答案触发人工审核流程结构化解构将复杂问题拆解为子问题分步检索生成优化分块语义分块按句子/段落边界切分而非固定长度结构感知保留表格、标题层级利用Markdown/XML标签动态重叠相邻块部分重叠避免上下文断裂那么如何系统的去学习大模型LLM作为一名从业五年的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

免费行情软件在线网站多少钱翻译成英文

一、关键函数树形架构分析核心架构层次fbcon架构体系 ├── 初始化/退出层 │ ├── fb_console_init() - 模块初始化入口 │ ├── fbcon_start() - 启动fbcon接管控制台 │ ├── fbcon_exit() - 清理退出 │ └── fbcon_…

张小明 2025/12/24 6:38:54 网站建设

黑群晖的做网站文件南宁外贸网站建设

第一章:金融风险的 R 语言 VaR 计算在金融风险管理中,VaR(Value at Risk)是一种广泛使用的统计技术,用于衡量在给定置信水平下资产组合在未来特定时间段内的最大可能损失。R 语言凭借其强大的统计分析能力和丰富的金融…

张小明 2025/12/25 6:41:52 网站建设

建设网站青岛网络营销的发展历程

在线电影购票系统 目录 基于springboot vue在线电影购票系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue在线电影购票系统 一、前言 博主介绍&…

张小明 2025/12/24 6:34:52 网站建设

一个备案号可以放几个网站网站备案 备注关联性

Puppet 主节点与代理节点的配置与管理指南 1. 主节点操作控制与清单创建 在安装完相关包后,可通过 puppetmaster 系统服务控制主节点操作。安装完成后,主节点服务会使用默认设置启动并初始化。 主节点清单的创建是关键步骤。主节点为多台机器编译清单,其编译起点是站点清…

张小明 2026/1/7 3:46:04 网站建设

肥西县重点工程建设管理局网站营销手机都有什么功能啊

NCM格式解密实战:三步解锁网易云加密音乐 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的歌曲无法在其他播放器使用而困扰吗?今天我来教你一个超简单的NCM格式解密方法,只需…

张小明 2026/1/8 10:59:37 网站建设

巩义企业网站建设做很多网站

MiniCPM-V 2.0:端侧部署的多模态强者 【免费下载链接】MiniCPM-V-2 项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM-V-2 导语:OpenBMB团队推出的MiniCPM-V 2.0以其2.8B的轻量级参数规模,在端侧设备上实现了超越参数规模的卓越多模…

张小明 2025/12/26 1:48:35 网站建设