news 2026/5/23 8:06:44

前期工作总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
前期工作总结

任务:各自把前期工作总结,包括主要使用的模型或技术介绍,附上博客链接。

1. BERT模型的改进

使用模型为bge-large模型替换bert。

bge模型(M3)以及BGE模型使用的预训练方法RetroMAE的具体技术介绍见:《M3-Embedding》汇报-CSDN博客

将BERT模型替换为BGE模型之后,由另一位同学在此基础上加入rerank模型进行重排序。

之后将large+rerank模型与有数据库版本的心法系统进行整合。

测试主要包含以下的不足:

  1. rerank模型会出现多线程错误:由于模型比较大,计算速度很慢,当带搜索框输入一条问题,并删除,再接着输入问题时,会因为前端快速连续搜索导致多个请求同时到达,导致多线程并发问题。但是只要删掉问题,等过一会模型就会自动恢复。(但是测试的结果展示,rerank加入确实有助于问答对的匹配)
  2. 关于速度的问题:模型加载缓慢,代码运行启动时,可能需要半小时。搜索框搜索稳定时,可以需要5分钟时间。
  3. 关于代码部分:进行整合的过程中发现,其实代码里面有一些逻辑问题。比如关于阈值问题,由于rerank模型控制输出5条结果,那么阈值的作用就显得没那么重要了,那么就需要考虑删除的问题。还有一些比较细节的问题,但是由于时间和测试比较麻烦(因为启动时间很长)的原因,没有进行一一排除。但是总体来说,代码是可以跑通的。

2. 标签预测

目前暂时使用利于语义来匹配标签预测:将新添加的问答对进行一个相似度计算,计算出最相似的问答对,将最相似的问答对的标签赋给新进来的问答对。

具体使用的逻辑如下:

  1. 计算问题与知识库中所有问题的相似度,取最相似的5个问题。
  2. 统计这5个问题中每个一级标签的权重(权重为所有属于该一级标签的问题的相似度之和)。
  3. 选择权重最高的一级标签。
  4. 然后,针对该一级标签,统计这5个问题中属于该一级标签的问题的二级标签,每个二级标签的权重为包含它的问题的相似度之和。
  5. 选择权重最高的1-3个二级标签(如果不足3个,则全部选择;如果超过3个,选前3个)。

利用上面逻辑来保证一级标签和二级标签的从属关系。

上面方法的不足如下:

  1. 如果数据集中没有与新问题相似的问题,那么预测可能不准确。

  2. 如果数据集中存在错误标签,也会影响预测结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 8:05:19

16、深入了解 Oracle Clusterware:功能、安装与管理

深入了解 Oracle Clusterware:功能、安装与管理 1. Oracle Clusterware 概述 Oracle Clusterware 是集成于 Oracle 数据库的集群管理器,能够提供管理集群数据库所需的所有功能,包括节点成员管理、组服务、全局资源管理和高可用性功能。它通过消除冗余硬件和软件环境中的单…

作者头像 李华
网站建设 2026/5/23 8:06:27

Asio网络编程入门:从零构建同步客户端与服务器

在网络编程世界中,Asio(Asynchronous I/O)是一个强大而灵活的C库,它提供了一套统一的异步I/O模型。无论你是刚接触网络编程,还是希望从其他框架转向Asio,本文将带你系统学习Asio的同步编程基础,…

作者头像 李华
网站建设 2026/5/23 8:06:03

3分钟快速上手:WhiteSur主题打造macOS风格Linux桌面完整指南

3分钟快速上手:WhiteSur主题打造macOS风格Linux桌面完整指南 【免费下载链接】WhiteSur-gtk-theme MacOS Big Sur like theme for Gnome desktops 项目地址: https://gitcode.com/GitHub_Trending/wh/WhiteSur-gtk-theme 厌倦了千篇一律的Linux桌面&#xff…

作者头像 李华
网站建设 2026/5/23 8:05:57

地理信息与地图行业的新机会:从地图到空间智能

在很长一段时间里,地理信息与地图行业被视为一个相对“成熟”的领域:技术路径清晰、玩家格局稳定、应用场景高度确定。然而,这种稳定正在被打破。并不是因为地图画得不够准了,而是因为空间正在从“被展示的对象”转变为“可计算、…

作者头像 李华
网站建设 2026/5/22 19:32:16

web前端:CSS-Doodle万花筒效果

设计概述本次分享将介绍如何使用CSS-Doodle库创建一个动态视觉效果的 "万花筒" 页面。这个项目通过CSS-Doodle特有的网格系统和动态样式生成能力,结合出色彩斑斓、不断变化的几何图案,营造出类似万花筒的视觉体验。CSS-Doodle是一个基于Web Co…

作者头像 李华
网站建设 2026/5/21 21:47:48

Redis篇2——Redis深度剖析:从SetNX到Redisson,分布式锁的进化之路

在上一篇文章中,深入剖析了Redis的底层数据结构。那其实只是 Redis 的微观世界。今天,我们将镜头拉远,来到宏观的分布式系统架构中,聊聊 Redis 在生产环境中最著名的应用场景——分布式锁。包含如下细节:“你这把锁&am…

作者头像 李华