网站建设与维护服务中国网页设计师网站

张小明 2026/1/9 10:20:40
网站建设与维护服务,中国网页设计师网站,关键词搜索爱站网,网络热词的利弊DINO#xff1a;自监督视觉Transformers的新兴特性 背景 DINO是一种用于自监督视觉学习的深度学习模型#xff0c;于2021年由Facebook AI提出。 相比于监督学习需要人为提供标签#xff0c;自监督学习无需任何显式标签#xff08;类似于NLP预训练中的next word prediction或…DINO自监督视觉Transformers的新兴特性背景DINO是一种用于自监督视觉学习的深度学习模型于2021年由Facebook AI提出。相比于监督学习需要人为提供标签自监督学习无需任何显式标签类似于NLP预训练中的next word prediction或masked language modeling。只需输入图像并通过特定机制网络就能学会理解图像本身的语义信息。例如可以通过图像旋转、随机裁剪等变换使模型学习到不同角度、不同尺度下的特征。也可以通过模型自身的预测来构建任务如预测图像的局部块、颜色等。这些任务不需要人类标注因此可以在大规模无标签数据上进行训练提供了一种从无标签数据中学习特征表示的新方法。方法DINO的名称来源于Distillation和NO labels的缩写既表达了采用自蒸馏方法的特点也突出了它是一种基于无监督学习的模型。具体来说DINO使用无监督自蒸馏方法模型使用自身的输出生成伪标签然后用这些伪标签重新训练模型进一步提高性能和泛化能力。No labels无标签DINO中最核心的数据采样策略是图像裁剪这也是自监督学习领域广泛应用的主策略之一。裁剪后的图像分为两种Local views局部视角也称为small crops抠图面积小于原始图像的50%Global views全局视角也称为large crops抠图面积大于原始图像的50%在DINO中学生模型接收所有预处理过的crops图而教师模型仅接收来自global views的裁剪图。这是为了鼓励从局部到全局的响应训练学生模型从小裁剪画面中推断更广泛的上下文信息。Distillation蒸馏学生和教师网络均输出相同embeddings的情况容易出现模式崩塌mode collapse现象。《Momentum Contrast for Unsupervised Visual Representation Learning》一文提出解决方案应用动量教师模型。教师模型不是基于反向传播更新因为直接通过反向传播更新参数波动过大而是在对学生模型进行梯度回传后通过指数移动平均EWA将学生网络学习到的模型参数更新给教师网络。教师权重的更新公式θtλθt(1−λ)θs\theta_t \lambda\theta_t (1-\lambda)\theta_sθt​λθt​(1−λ)θs​下标s和t分别指代教师和学生网络的模型参数λ则跟随余弦学习率衰减策略在训练过程中从0.996到1之间变化。Loss Function损失函数自监督学习中模式崩塌是指网络学习过程中出现多样性减少的现象。具体来说当网络学习到一组特征表示时多个输入数据可能映射到相同的特征表示。这种现象通常是由于网络在优化过程中陷入局部最优解只能考虑到一部分数据的特征表示而忽略其他数据样本的模式和特征从而导致多样性缺失对模型鲁棒性产生负面影响。DINO论文中还有两个重要技术Centering和Sharpening这是防止模式崩塌的两种有效方式。Centering中心化教师网络输出减去一个滑动平均的均值向量Cm∗C(1−m)∗mean(teacher_output)C m * C (1-m) * mean(teacher\_output)Cm∗C(1−m)∗mean(teacher_output)这个操作的目的是使激活值有时为正高于平均值时有时为负低于平均值时。由于softmax函数在处理负数时会给出较小的概率值在处理正数时会给出较大的概率值因此这种操作能够防止任何一个特征占据统治地位。Sharpening锐化对教师网络的输出应用较低的温度系数τₜPtsoftmax((zt−C)/τt)P_t softmax((z_t - C) / τ_t)Pt​softmax((zt​−C)/τt​)其中zₜ是教师网络的原始输出logitsC是Centering的滑动平均中心向量。锐化防止均匀输出使教师网络的概率分布更尖锐突出重要特征引导学生模型更好地了解哪些特征应该变得更加强大。DINOv2无需监督学习鲁棒的视觉特征背景基于DINO的版本DINOv2分别对于数据处理、自监督训练以及解决模型的崩塌做了一些处理优化。方法介绍了技术创新以充分挖掘自监督学习潜力包括自动化数据管道用于获取更好的数据集训练包含10亿个可调参数的ViT模型通过无监督蒸馏方法将其压缩成一系列适用于不同任务的小模型数据处理预处理数据集来源包括公开数据集和网络数据集。网络数据集进行了预处理对下载的图像进行后处理包括PCA哈希去重NSFW过滤模糊可识别的人脸检索相似图片此数据集通过从大量未标注数据中检索出与几个精心整理数据集中相似度很高的样本组成。本文使用在ImageNet-22k上预训练过的ViT-H/16自监督神经网络计算每个图像的嵌入。图片去重预处理低质量数据后必然存在许多冗余图像。本文采用《A self-supervised descriptor for image copy detection》论文提出的copy detection pipeline进行图像查重有效减少冗余并增加图像多样性。最终生成的LVD-142M数据集包含142百万张图像。整个预处理过程只需不到两天时间。自监督训练本文提出了一种用于学习特征的判别式自监督方法由多个损失函数组成包括DINOTransformers之间的局部信息最大化iBOT特征之间的相似度最小化SwAV样本中心化同时添加了一个正则项使特征在特征空间中更均匀分布。DINOv2还进行了短暂的高分辨率训练阶段以进一步提高特征的鲁棒性。模型蒸馏使用student与teacher联合蒸馏训练的思路。模型蒸馏通过在小模型中复制大模型的输出来训练小模型旨在通过最小化大模型和小模型对一组给定输入的输出之间的距离来实现。对于训练研究人员利用同样的训练循环使用更大的模型作为冻结的教师模型保留学生模型的EMA作为最终模型并移除遮蔽和随机深度。Image-level目标图像级基本思想是将来自同一图像不同裁剪的视图作为正样本来自不同图像的视图作为负样本使用交叉熵损失函数衡量这些视图之间的相似性和差异性从而训练学生网络。使用指数移动平均方法构建教师网络其参数是过去迭代的加权平均值以减少训练波动。Patch-level目标补丁级将输入的一些Patch随机遮盖只将未被遮盖的Patch提供给教师网络然后使用交叉熵损失函数衡量学生和教师网络在每个被遮盖Patch上的特征表示的相似性和差异性从而训练学生网络。损失函数权重图像级别和Patch级别进行联合训练但它们的损失函数共享网络参数权重。实验发现当两个级别的损失函数共享同样参数时模型在Patch级别会欠拟合在图像级别会过拟合。因此可以将这些参数解绑使模型在两个级别都能更好地学习特征表示。Adapting the resolution调整分辨率在预训练的最后一段时间内将图像分辨率提高到518×518以便在下游任务中更好地处理像素级别的信息如分割或检测任务。高分辨率图像通常需要更多计算资源和存储空间因此只在预训练最后阶段使用这种方法以减少时间和资源成本。防止模型崩塌Sinkhorn-Knopp centering在原来的方法中教师模型中的softmax-centering步骤在某些情况下可能导致不稳定性因此本文采用Sinkhorn-KnoppSK批量归一化方法代替。核心思想是通过正则化使学生和教师网络在特征表示上更加接近。使用3次Sinkhorn-Knopp算法迭代实现归一化。对于学生网络仍然使用softmax归一化。KoLeo regularizer一种正则化方法通过计算特征向量之间的差异来确保它们在批次内均匀分布。具体使用Kozachenko-Leonenko差分熵估计技术这是一种估计随机样本密度的方法。实验
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

河北城乡建设部网站首页python在线编程翻译器

第一章 设计背景与核心需求 人民大厦作为城市地标性建筑,其夜间景观霓虹灯不仅是城市夜景的重要组成部分,还承载着文化展示与形象塑造的功能。传统霓虹灯控制系统存在效果固定、操作复杂、能耗较高等问题,难以满足动态化、主题化的展示需求。…

张小明 2026/1/8 1:26:48 网站建设

营销单页网站制作怎么做网站标题优化

清晨六点,李医生的智能诊室已开始工作——不是他本人,而是承载他五十年行医经验的数字分身。在2075年,这样的场景已成为医疗常态。AI医疗诊断不再停留在辅助工具层面,而是彻底重构了从预防到治疗的全流程。 【免费下载链接】roomG…

张小明 2026/1/8 1:26:49 网站建设

自己怎么建购物网站从零开始做网站seo

Windows Server 2003 系统恢复与远程协助全解析 在当今数字化的时代,服务器系统的稳定性和可恢复性至关重要。Windows Server 2003 提供了一系列强大的系统恢复功能和远程协助工具,帮助管理员高效地应对各种系统问题。本文将详细介绍这些功能和工具的使用方法、特点以及相关…

张小明 2026/1/8 1:26:53 网站建设

移动网站制作价格互联网建设及服务领域信用建设

简介 文章揭示了ChatGPT背后的"LUPO"训练方法,通过收集用户偏好选择来优化模型,使其在排行榜上表现优异,但也导致模型过度讨好用户,甚至引发多起悲剧案例。OpenAI在"用户想要"与"对用户好"之间陷入…

张小明 2026/1/8 1:26:58 网站建设

外贸工具大全网站wordpress 删除自豪

https://leetcode.cn/problems/longest-increasing-subsequence/ 快手一面手撕算法 我们这篇文章的解法,结合了 贪心思想 二分查找,非常精妙 算法解析 🎯 问题回顾 给定一个整数数组 nums,找出其中严格递增的子序列的最大长度…

张小明 2026/1/8 1:27:01 网站建设

宁波自适应网站建设特点岳阳网站建设哪里便宜

在全球化浪潮中,网站多语言支持已成为企业拓展国际市场的必备能力。然而,传统的i18n方案往往需要重构页面结构、维护语言配置文件、申请API密钥,整个过程复杂且耗时。translate.js作为一款开源的多语言自动翻译JavaScript库,通过两…

张小明 2026/1/9 3:29:42 网站建设