公司网站建设安全的风险帝国cms建站教程

张小明 2026/1/6 9:24:47
公司网站建设安全的风险,帝国cms建站教程,网页美工设计实训报告,网站开发 工作量评估Day 15: 图像分割 (Image Segmentation)摘要#xff1a;如果说目标检测是给物体画框#xff0c;那么图像分割就是把物体从背景中“抠”出来。它是计算机视觉中像素级别的分类任务。本文将带你从语义分割的开山之作 FCN 出发#xff0c;深入 U-Net 和 DeepLab 细节#xff0…Day 15: 图像分割 (Image Segmentation)摘要如果说目标检测是给物体画框那么图像分割就是把物体从背景中“抠”出来。它是计算机视觉中像素级别的分类任务。本文将带你从语义分割的开山之作 FCN 出发深入 U-Net 和 DeepLab 细节解析实例分割王者 Mask R-CNN最后领略分割领域的 GPT——Segment Anything Model (SAM) 的风采。1. 分割任务全家桶在深入模型之前我们需要先分清三个容易混淆的概念任务类型英文核心逻辑例子语义分割Semantic Segmentation只管类别不管个体。所有“人”都是红色所有“车”都是蓝色。自动驾驶中区分路面、天空、车辆。实例分割Instance Segmentation既管类别也管个体。张三是红色李四是绿色虽然他们都是“人”。机器人抓取特定物体。全景分割Panoptic Segmentation语义 实例。背景天空、草地做语义分割前景人、车做实例分割。统一的场景理解。2. 语义分割从 FCN 到 DeepLab2.1 FCN (Fully Convolutional Networks) - 全卷积网络FCN 是深度学习做语义分割的开山鼻祖CVPR 2015。核心思想把分类网络如 VGG最后的全连接层FC丢掉换成卷积层。为什么全连接层会丢失空间信息且限制输入图片尺寸。全卷积网络可以接受任意尺寸输入并输出一张“热力图”。上采样 (Upsampling)卷积会让图片越来越小下采样分割需要输出原图大小。FCN 使用转置卷积 (Transposed Conv)把特征图放大回去。2.2 U-Net - 医学影像的霸主U-Net 的结构非常优美像一个“U”字。结构左边是收缩路径Encoder提取特征右边是扩张路径Decoder恢复尺寸。关键创新跳跃连接 (Skip Connections)。原理深层特征语义强但位置模糊浅层特征语义弱但边缘清晰。U-Net 把左边的浅层特征直接Concat (拼接)到右边对应的层。Concat vs AddU-Net 用 Concat意味着“我全都要”。左边的细节特征和右边的语义特征并排放在一起让后续卷积层自己去选择用谁。这对于保留精细边缘至关重要。ResNet/FPN 用 Add意味着“修正/增强”。在原有特征基础上叠加信息。FPN 使用 Add 主要是为了保持通道数一致以便共享检测头且做多尺度特征融合。2.3 DeepLab 系列 - 引入空洞卷积Google 的 DeepLab 系列主要解决了两个问题下采样导致分辨率丢失普通 CNN 也是一路池化细节丢光了。多尺度问题物体有大有小。解决方案空洞卷积 (Atrous/Dilated Convolution)比喻普通卷积像实心的九宫格印章只能盖住一小块。空洞卷积是把九宫格拉开中间留空。作用不池化也能看清大范围。在不降低分辨率不缩小图片的情况下大幅扩大感受野。ASPP (Atrous Spatial Pyramid Pooling)比喻多倍镜同时拍摄。原理并行使用不同膨胀率Rate6, 12, 18的空洞卷积去提取特征然后融合。效果Rate6 关注小物体近景Rate18 关注大物体远景最后合在一起大物体小物体一网打尽。3. 实例分割Mask R-CNNMask R-CNN (ICCV 2017 Best Paper) 是 Faster R-CNN 的完美进化。思路检测 分割。先找出框再在框里做分割。结构Faster R-CNN Mask 分支。Class Head是什么Box Head在哪Mask Head像素掩码是什么新增分支关键技术RoI AlignFaster R-CNN 使用 RoI Pooling 把框内的特征变成固定大小这涉及到取整操作Quantization。问题对于分类差几个像素没关系但对于分割几个像素的错位就是灾难Mask 和原图对不齐。解决RoI Align取消了取整使用双线性插值来计算特征值实现了像素级的对齐。4. 分割大模型SAM (Segment Anything)2023年 Meta 发布的 SAM被誉为计算机视觉领域的 GPT-3 时刻。4.1 核心范式Mask Prediction (非 NTP)LLM 是 NTP (Next Token Prediction) 范式像贪吃蛇一样逐词预测。SAM 是 Mask Prediction 范式类似于 DETR。它收到提示后一次性并行输出完整的掩码矩阵而不是逐像素生成。4.2 架构解析轻重分离SAM 的设计兼顾了性能和效率主要由三部分组成Image Encoder (重型)基于ViT-H (Vision Transformer)。作用把图片变成特征向量 (Embedding)。特点只算一次。不管后续如何交互这张图的特征只算一遍耗时较长但可复用。Prompt Encoder (轻量)作用把用户的各种提示变成向量。Mask Decoder (超轻量)作用结合图像特征和提示特征毫秒级输出 Mask。这是实现实时交互的关键。4.3 提示词 (Prompt) 的魔法如何输入SAM 把物理世界的交互统统变成了数学向量点 (Point) 框 (Box)不是直接输坐标数字而是通过位置编码 (Positional Encoding)。类似于 Transformer 处理序列位置的方式把(x,y)(x,y)(x,y)映射为高维向量作为 “Token” 拼接到输入序列中。掩码 (Mask)如果上一轮预测了一个粗糙的 Mask或者用户画了一笔这个二维图像会经过一个CNN下采样然后直接相加 (Add)到 Image Embedding 上作为背景特征的一部分。文本 (Text)通过 CLIP 文本编码器变成向量。4.4 输出与后处理输出内容SAM 输出的是Mask (掩码矩阵)即由 0 和 1 组成的黑白图。如何抠图需要进行后处理用 Mask 与原图做点乘 (Element-wise Product)才能得到去除了背景的 RGBA 图像。意义SAM 解决了一个根本痛点——标注数据太贵。SAM 拥有强大的零样本 (Zero-shot) 能力它可以作为通用的预处理工具大大降低了下游任务的门槛。5. 代码实践PyTorch 实现简易 U-Netimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFclassDoubleConv(nn.Module):(convolution [BN] ReLU) * 2def__init__(self,in_channels,out_channels):super().__init__()self.double_convnn.Sequential(nn.Conv2d(in_channels,out_channels,kernel_size3,padding1),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue),nn.Conv2d(out_channels,out_channels,kernel_size3,padding1),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))defforward(self,x):returnself.double_conv(x)classUNet(nn.Module):def__init__(self,n_channels,n_classes):super(UNet,self).__init__()self.n_channelsn_channels self.n_classesn_classes# Encoder (Downsampling)self.incDoubleConv(n_channels,64)self.down1DoubleConv(64,128)self.down2DoubleConv(128,256)self.down3DoubleConv(256,512)self.down4DoubleConv(512,1024)# MaxPoolself.poolnn.MaxPool2d(2)# Decoder (Upsampling)self.up1nn.ConvTranspose2d(1024,512,kernel_size2,stride2)self.conv_up1DoubleConv(1024,512)# 512 from up 512 from down3self.up2nn.ConvTranspose2d(512,256,kernel_size2,stride2)self.conv_up2DoubleConv(512,256)self.up3nn.ConvTranspose2d(256,128,kernel_size2,stride2)self.conv_up3DoubleConv(256,128)self.up4nn.ConvTranspose2d(128,64,kernel_size2,stride2)self.conv_up4DoubleConv(128,64)# Output layerself.outcnn.Conv2d(64,n_classes,kernel_size1)defforward(self,x):# Encoderx1self.inc(x)x2self.down1(self.pool(x1))x3self.down2(self.pool(x2))x4self.down3(self.pool(x3))x5self.down4(self.pool(x4))# Decoder with Skip Connectionsxself.up1(x5)# 实际使用中需要处理padding导致的尺寸不一致问题这里简化处理假设尺寸匹配# cat(x, x4)xtorch.cat([x4,x],dim1)xself.conv_up1(x)xself.up2(x)xtorch.cat([x3,x],dim1)xself.conv_up2(x)xself.up3(x)xtorch.cat([x2,x],dim1)xself.conv_up3(x)xself.up4(x)xtorch.cat([x1,x],dim1)xself.conv_up4(x)logitsself.outc(x)returnlogits# 测试模型if__name____main__:modelUNet(n_channels3,n_classes10)# 假设输入图片大小为 160x160 (必须是16的倍数否则concat时尺寸会不匹配)xtorch.randn(1,3,160,160)ymodel(x)print(fInput shape:{x.shape})print(fOutput shape:{y.shape})# Should be [1, 10, 160, 160]6. 总结与思考语义分割FCN 打开了大门DeepLab 用空洞卷积不缩小看清全图和 ASPP多倍镜看细节与轮廓解决了多尺度问题U-Net 用 Concat 跳跃连接保留了极致的边缘细节。实例分割Mask R-CNN 在检测框里做精细分割RoI Align 解决了像素对齐的痛点。大模型时代SAM 引入了 Prompt 机制将点/框/文映射为向量配合轻量级 Mask Decoder实现了“指哪打哪”的通用分割能力。思考为什么 Feature Pyramid Network (FPN) 用 Add 而 U-Net 用 ConcatFPN (检测)追求多尺度特征统一。P3, P4, P5 需要有相同的通道数如256以便共享检测头Add 可以保持通道数不变且类似于 ResNet 起到特征增强的作用。U-Net (分割)追求像素级还原。Concat 可以最大程度保留浅层的空间信息坐标、边缘这对像素分类任务至关重要。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网页制作与网站建设...电影介绍网页设计代码

GeoJSON.io:零代码地理数据可视化工具全解析 【免费下载链接】geojson.io A quick, simple tool for creating, viewing, and sharing spatial data 项目地址: https://gitcode.com/gh_mirrors/ge/geojson.io 想要在地图上快速标注位置、绘制区域边界&#x…

张小明 2025/12/28 14:47:29 网站建设

源码网站 怎么做巴中 网站建设

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 在Flowise平台上开发一个智能客服系统,能够根据用户输入的问题自动生成回答。系统应支持多轮对话,能够理解常见问题(如订单查询、退货政策等&…

张小明 2025/12/28 16:48:58 网站建设

做网站必须要注册公司么ssh wordpress

目录 第1章 混沌初开——存储系统的前世今生 开篇:记忆的执念 1.1 存储历史:为记忆筑巢的五万年长征 1.1.1 史前纪元:身体与自然的记忆库 1.1.2 第一代外存:把记忆刻进世界 1.1.3 文字纪元:标准化编码的革命 1.1…

张小明 2025/12/28 16:48:55 网站建设

北京营销推广网站建设wordpress安全漏洞

1.Place布局 place布局是FPGA将设计中的所有逻辑单元放置到FPGA芯片的物理位置上。 这个过程依据设计的逻辑结构,资源需求和芯片的物理不久来完成。这个 阶段的主要任务包括: 任务一:资源分配。用于确定每个逻辑单元位于FPGA的哪个位置 任务二…

张小明 2025/12/28 16:48:53 网站建设

做教程网站如何查用户搜索e福州官方网站

DriverStore Explorer:彻底解决Windows驱动混乱的专业工具 【免费下载链接】DriverStoreExplorer Driver Store Explorer [RAPR] 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因设备冲突频繁、系统盘空间告急或启动加载缓慢而…

张小明 2025/12/28 16:48:51 网站建设

网站浮动窗口怎么做建立app

调和级数求和(Harmonic Series)模型是时间复杂度分析中稍微进阶一点的考点。它通常出现在**“跳跃式”循环或者“倍数”相关**的题目中。 如果说前面的题目是“送分题”,这个模型就是**“分水岭题”**,掌握了它,你的算…

张小明 2025/12/28 16:48:48 网站建设