一个网站 二级域名,网站建设丶seo优化,河南搜索引擎推广价格,网站集约化建设的讲话分割演示
目标检测输出是#xff1a;矩形框 类别 置信度
目标分割输出#xff1a;分割掩码 矩形框 类别 置信度 ultrylytics 自带的演示页面#xff1a; 录屏_选择区域_20250418164208 视觉颗粒度
从“颗粒度”#xff08;Granularity#xff09;的视角来理解计算…分割演示目标检测输出是矩形框 类别 置信度目标分割输出分割掩码 矩形框 类别 置信度ultrylytics 自带的演示页面录屏_选择区域_20250418164208视觉颗粒度从“颗粒度”Granularity的视角来理解计算机视觉的四大核心任务可以帮助我们清晰地把握它们的内在联系和演进逻辑。这四种任务的颗粒度从粗到细可以排列为分类 检测 分割 ≈ 姿态估计。下面进行详细分解图像分类Image Classification颗粒度图像级 Image-Level- 最粗的颗粒度。任务描述回答“这张图像是什么”的问题。为整张图像分配一个或多个标签。关注点图像的全局内容和语义信息。它不关心物体在哪里、有多少个、具体形状如何。输出形式一个概率向量如[0.1, 0.8, 0.1](对应[猫, 狗, 汽车])。可视化整个图像被“粗暴”地归类为一个标签。目标检测Object Detection颗粒度对象级 Object-Level- 中等颗粒度。任务描述回答“图像里有什么它们在哪儿”的问题。不仅要识别出物体类别还要用矩形框Bounding Box定位出每个物体的位置。关注点离散的物体实例及其粗略的 spatial extent空间范围。输出形式一组列表每个列表项为[x_min, y_min, x_max, y_max, confidence, class_id]。可视化图像上画出多个矩形框和标签。语义分割Semantic Segmentation 实例分割Instance Segmentation颗粒度像素级 Pixel-Level- 细颗粒度。任务描述回答“图像的每一个像素属于什么”的问题。语义分割为每个像素分类不区分同一类别的不同实例所有狗都是同一个标签。实例分割在语义分割的基础上区分开同一类别的不同个体狗A、狗B、狗C有不同的标签。关注点物体的精确形状、轮廓和边界。输出形式一张与输入图像同尺寸的分割掩码图Mask其中每个像素的值代表其类别或实例ID。可视化不同类别或实例的区域被涂上不同的颜色。姿态估计Pose Estimation颗粒度关键点级 Keypoint-Level- 最细的颗粒度之一。任务描述回答“物体的关键骨骼点在哪里它们是如何连接的”的问题。通常用于人体、动物、车辆等。关注点物体内部的结构性关键点及其拓扑关系连接方式。输出形式一组关键点的坐标[x, y, visibility]以及它们之间的连接关系。可视化在图像上标出点并连成线形成“骨骼图”。颗粒度演进总结与对比任务核心问题颗粒度输出单位关注信息图像分类图像是什么图像级整张图片全局语义目标检测有什么在哪对象级矩形框实例、粗略位置图像分割每个像素是什么像素级像素精确形状、轮廓姿态估计结构关键点在哪关键点级点坐标内部结构、连接关系内在逻辑与关系层层递进逐步细化这个排序展示了一条清晰的技术发展路径从理解整张图分类到找到物体检测再到精确描绘物体分割最后到解析物体的内部结构姿态估计。后一个任务往往以前一个任务为基础例如要先检测到人才能做人的姿态估计。信息量与任务复杂度通常颗粒度越细需要模型处理的信息量就越大任务也越复杂。例如分割需要为成千上万个像素做预测而检测只需要为几十个对象做预测。因此分割和姿态估计模型通常比分类和检测模型更慢、计算成本更高。标注成本颗粒度也直接决定了数据标注的成本。颗粒度越细标注成本呈指数级上升。标一张分类图片只需一个标签标检测需要画框标分割需要精确勾勒轮廓标姿态需要准确点出几十个关键点。因此按照颗粒度从粗到细的分类顺序为分类 → 检测 → 语义/实例分割 → 姿态估计。分割基础https://zhuanlan.zhihu.com/p/696216736图像分割主要分为三大领域语义分割Semantic Segmentation、实例分割Instance Segmentation、全景分割Panoptic Segmentation•语义分割每个像素对应一个类标签。同一类会被定义成一个区域块不区分其中单个物体。•实例分割每个对象的掩码和类标签。区分单个物体以及单个物体所属的类型无法识别的都作为背景。•全景分割每像素类实例标签。相当于在语义分割的基础上增加单个实例的区分。分割数据类型https://blog.csdn.net/weixin_44966641/article/details/123171026分割标签的三种表示poly多边形mask掩模rle变动长度编码法标注分割任务只要求模型输出像素级或点级标签至于原始真值是怎么来的可以是逐像素手绘掩膜pixel-wise mask多边形polygon涂色刷brush交互式点击/ scribble3D 点云里直接给每个点一个类别 ID只要最终能还原成与图像尺寸一一对应的单通道 mask或 RLE、COCO 的 counts 游程编码就算合格的分割标注。mask 掩模介绍涂色刷:https://blog.csdn.net/qq_44840741/article/details/127692071#交互式点击:https://blog.csdn.net/qq_46226356/article/details/128790541https://paddlecv-sig.github.io/PaddleLabel/CN/ML/interactive_segmentation.html分割标注分割任务只要求模型输入掩模至于标注数据是怎么来的可以是多边形polygon涂色刷brush交互式点击/ scribble只要最终能还原成与图像尺寸一一对应的 mask就算合格的分割标注。可以使用的工具有如下通过 Label Studio 来绘制分割数据集多边形mask 图importnumpyanumpy.load(1.npy)a array([[0,0,0,...,0,0,0],[0,0,0,...,0,0,0],[0,0,0,...,0,0,0],...,[0,0,0,...,0,0,0],[0,0,0,...,0,0,0],[0,0,0,...,0,0,0]],dtypeint32)a.shape(1080,1080)不同格式的数据集表示更多可以参考https://blog.csdn.net/u011425939/article/details/149912539分割经典网络分割网络包括FCNFully Convolutional Network2015首次把分类网络改成全卷积结构用转置卷积做上采样端到端输出像素级标签。U-NetU-Net 是一个经典的图像分割模型最初设计用于生物医学图像分割。其架构采用编码器-解码器结构通过跳跃连接将低级特征传递到更高级别从而保留更详细的信息。RefineNetRefineNet 是一个多路径细化网络它通过多路径细化模块逐步细化特征图从而提高分割精度。Swin TransformerSwin Transformer 是一个基于 Transformer 架构的图像分割模型通过分层自注意力机制捕捉长距离依赖关系提高分割准确率。yolov8 分割任务输出fromultralyticsimportYOLO modelYOLO(yolov8n-seg.pt)model.predict(/home/xxx/Desktop/tmp/分割/seg_images/1.jpg,saveTrue,imgsz640,conf0.5)输出类型包括多边形归一化多边形mask图 掩模示例importcv2ascvfromultralyticsimportYOLO modelYOLO(yolov8n-seg.pt)image_path/home/lijinkui/Desktop/tmp/分割/seg_images/1.jpgimagecv.imread(image_path)print(image.shape)resmodel.predict(image_path,imgsz640,conf0.3,iou0.4,devicecuda:0,verboseTrue)foriteminres:xyitem.masks.xy# 多边形结果print(-----------xy-----------)print(xy)xynitem.masks.xyn# 归一化的多边形结果print(-------------xyn-----------)print(xyn)masksitem.masks.data# 掩模print(-------------masks-----------)print(masks)print(-------------numpy------------)print(masks.cpu().numpy())# numpy 掩模输出-----------xy-----------[array([[276.75,273.38],[276.75,278.44],[275.06,280.12],[271.69,280.12],[270,281.81],[263.25,281.81],[261.56,283.5],[254.81,283.5],[253.12,285.19],[244.69,285.19],[243,286.88],[234.56,286.88],[232.88,288.56],[226.12,288.56],[224.44,290.25],[219.38,290.25],[217.69,291.94],[212.62,291.94],-------------xyn-----------[array([[0.25625,0.25313],[0.25625,0.25781],[0.25469,0.25938],[0.25156,0.25938],[0.25,0.26094],[0.24375,0.26094],[0.24219,0.2625],-------------masks-----------tensor([[[0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,...,0.,0.,0.],...,[0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,...,0.,0.,0.]]],devicecuda:0)-------------numpy------------[[[000...000][000...000][000...000]...[000...000][000...000][000...000]]]----------输入尺寸-----------(1080,1080,3)-------------输出尺寸------------torch.Size([1,640,640])YOLOv8 分割基本原理经典使用场景自动驾驶精准识别道路中的行人、车辆及障碍物为路径规划提供支持。医学影像分析分割肿瘤区域、器官轮廓辅助医生诊断与手术规划。工业质检检测产品表面缺陷并定位异常区域提升质检效率。遥感图像处理区分地表建筑、植被等地物类型支持环境监测与城市规划。一、自动驾驶在自动驾驶场景中汽车通过摄像头实时捕捉周围场景利用图像语义分割技术判断每个像素的预测类别对周围的其他汽车、行人等进行避让或者识别车道线以判断行驶方向二、医学影像分析对人体不同器官部位进行图像语义分割可以辅助医师更好地判断医学影像中可能出现的病灶三、扣图算法四、遥感图像处理遥感图像处理区分地表建筑、植被等地物类型支持环境监测与城市规划五、工业质检检测产品表面缺陷并定位异常区域提升质检效率。六、社区工地在贴近公司业务的社区场景和工地场景中分割可以完成的任务也有很多包括渣土车覆盖检测分割出车厢与渣土区域判断绿网是否100%覆盖。运动相机无法画区域需要通过分割检测出区域如铁轨入侵