建设网站企业银行做ppt赚钱的网站-宁德市网站建设公司-Seo优化

建设网站企业银行,做ppt赚钱的网站,前端培训出来工资多少,上海闵行网站建设Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Abstract 这项工作提出了 Depth Anything#xff0c;这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下#xff0c;我们的目标是建立一个简单而强大的基础模型#…Depth Anything: Unleashing the Power of Large-Scale Unlabeled DataAbstract这项工作提出了 Depth Anything这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下我们的目标是建立一个简单而强大的基础模型处理任何情况下的任何图像。为此我们通过设计数据引擎来收集和自动注释大规模未标记数据∼62M来扩展数据集这显着扩大了数据覆盖范围从而能够减少泛化误差。我们研究了两种简单而有效的策略使数据扩展前景光明。首先利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。我们广泛评估其零样本能力包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力图 1。此外通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。我们的模型已发布 [GitHub - LiheYoung/Depth-Anything: CVPR 2024] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Foundation Model for Monocular Depth Estimation。论文地址[2401.10891] Depth Anything: Unleashing the Power of Large-Scale Unlabeled DataDepth Anything是由 HKU 与 TikTok 团队提出的鲁棒单目深度估计基础模型其核心是通过构建数据引擎收集并自动标注**~62M 大规模无标签图像**同时结合 1.5M 有标签图像开展联合训练为充分发挥无标签数据价值模型采用了两大核心策略一是通过数据增强颜色畸变、CutMix构建更具挑战性的优化目标以学习鲁棒表征二是借助与冻结 DINOv2 编码器的特征对齐损失继承丰富语义先验该模型在 6 个公开数据集的零 - shot 相对深度估计任务中大幅超越 MiDaS v3.1经 NYUv2、KITTI 的 metric 深度信息微调后刷新相关 SOTA其预训练编码器还在语义分割任务中展现出优异的多任务适配能力。Introduction随着“基础模型”的出现计算机视觉和自然语言处理领域正在经历一场革命这些模型在各种下游场景中表现出强大的零/少样本性能。这些成功主要依赖于能够有效覆盖数据分布的大规模训练数据。单目深度估计MDE是机器人技术、自动驾驶、虚拟现实等领域广泛应用的基本问题也需要一个基础模型来估计单个图像的深度信息。然而由于构建具有数千万个深度标签的数据集很困难这一点尚未得到充分探索。 MiDaS 通过在混合标记数据集上训练 MDE 模型沿着这个方向进行了开创性的研究。尽管表现出了一定程度的零样本能力但 MiDaS 受到数据覆盖范围的限制因此在某些场景下表现不佳。图1.我们的模型在广泛的不可见场景中表现出令人印象深刻的泛化能力。左两列COCO [36]。中间两列SA-1B 一个坚持看不见的设置。右二我们的模型在弱光环境下也能很好地工作第1、3栏、复杂场景第2、5栏、大雾天气第5栏、超远距离第5、6栏等。在这项工作中我们的目标是建立一个 MDE 基础模型能够在任何情况下为任何图像生成高质量的深度信息。我们从数据集扩展的角度来实现这一目标。传统上深度数据集主要通过从传感器、立体匹配或 SfM 获取深度数据来创建这是昂贵、耗时的在特定情况下甚至是棘手的。相反我们第一次关注大规模未标记数据。与来自深度传感器的立体图像或标记图像相比我们使用的单目未标记图像具有三个优点i获取简单且便宜单目图像几乎无处不在因此很容易收集不需要专门的设备。 ii多样化单目图像可以覆盖更广泛的场景这对于模型泛化能力和可扩展性至关重要。 (iii)易于注释我们可以简单地使用预先训练的 MDE 模型为未标记的图像分配深度标签这仅需要前馈步骤。不仅效率更高这还产生比 LiDAR 更密集的深度图并省略了计算密集型的立体匹配过程。我们设计了一个数据引擎来自动为未标记的图像生成深度注释从而使数据能够扩展到任意规模。它从 8 个公共大型数据集例如 SA-1B 、Open Images 和 BDD100K 收集了 6200 万张多样化且信息丰富的图像。我们使用他们的原始未标记图像没有任何形式的标签。然后为了为我们的未标记图像提供可靠的注释工具我们从六个公共数据集中收集了 150 万张标记图像来训练初始 MDE 模型。然后未标记的图像被自动注释并以自我训练的方式与标记的图像联合学习。尽管单目无标记图像具有上述所有优点但积极利用此类大规模无标记图像确实并非易事特别是在有足够标记图像和强大预训练模型的情况下。在我们的初步尝试中直接组合标记图像和伪标记图像未能改善单独使用标记图像的基线。我们推测通过这种天真的自学方式获得的额外知识是相当有限的。为了解决这个困境我们建议在学习伪标签时用更难的优化目标来挑战学生模型。学生模型被迫寻求额外的视觉知识并在各种强烈扰动下学习稳健的表示以更好地处理看不见的图像。此外已经有一些工作展示了 MDE 辅助语义分割任务的好处。我们也遵循这个研究路线旨在使我们的模型具有更好的高级场景理解能力。然而我们观察到当 MDE 模型已经足够强大时这样的辅助任务很难带来进一步的收益。我们推测这是由于将图像解码到离散类空间时语义信息严重丢失所致。因此考虑到 DINOv2 在语义相关任务中的出色性能我们建议通过简单的特征对齐损失来保持丰富的语义先验。这不仅增强了 MDE 性能而且还为中级和高级感知任务提供了多任务编码器。我们的贡献总结如下我们强调了大规模、廉价且多样化的未标记图像的数据扩展对于 MDE 的价值。我们指出了联合训练大规模标记和未标记图像的关键实践。我们不是直接学习原始的未标记图像而是用更难的优化目标来挑战模型以获得额外的知识。我们建议从预训练编码器继承丰富的语义先验以更好地理解场景而不是使用辅助语义分割任务。我们的模型表现出比 MiDaS-BEiTL-512 更强的零样本能力。此外通过公制深度进行微调它的性能显着优于 ZoeDepth 。单目深度估计的价值与困境单目深度估计MDE是机器人、自动驾驶、虚拟现实等领域的基础任务但受限于深度标注数据的稀缺性传统模型泛化能力不足。现有方法如 MiDaS依赖混合有标签数据集训练虽有一定零 - shot 能力但数据覆盖度有限在低光、雾天等复杂场景表现较差。区别于传统的传感器、立体匹配等标注方式论文首次聚焦大规模无标签单目图像其具备获取成本低、场景覆盖广、标注高效的三大优势。采用自训练框架先从有标签数据训练教师模型再为无标签数据生成伪标签最后训练学生模型完成有标签伪标签的联合学习。数据类型数据规模来源数据集数量用途有标签数据1.5M6 个训练初始教师模型提供真实深度监督无标签数据62M8 个SA-1B、Open Images 等由教师模型生成伪深度标签拓展数据覆盖对无标签图像施加颜色抖动、高斯模糊等颜色畸变以及CutMix空间畸变迫使模型学习不变性表征。CutMix 损失设计分区域计算仿射不变损失并加权融合提升模型对复杂图像的适配性。学生模型不基于教师模型微调而是重新初始化批次内有标签 / 无标签数据比例为 1:2。摒弃传统离散语义分割辅助任务易丢失语义信息选择与冻结 DINOv2 编码器做特征对齐利用其连续高维特征保留丰富语义先验。损失与阈值设计特征对齐损失公式L f e a t 1 − 1 H W ∑ i 1 H W c o s ( f i , f i ′ ) \mathcal{L}_{feat }1-\frac{1}{H W} \sum_{i1}^{H W} cos \left(f_{i}, f_{i}\right)Lfeat1−HW1∑i1HWcos(fi,fi′)其中f为学生模型特征f ′ ff′为 DINOv2 特征。设置容忍阈值 α0.85仅对相似度低于阈值的像素计算损失平衡语义一致性与深度判别性。由有标签损失L l \mathcal{L}_{l}Ll、无标签损失L u \mathcal{L}_{u}Lu、特征对齐损失L f e a t \mathcal{L}_{feat }Lfeat平均加权构成。Related Work单目深度估计MDE。早期的作品主要依赖于手工制作的特征和传统的计算机视觉技术。他们受到对明确深度线索的依赖的限制并且难以处理具有遮挡和无纹理区域的复杂场景。基于深度学习的方法通过从精心注释的数据集中有效学习深度表示彻底改变了单目深度估计。 Eigen等人首先提出了一种多尺度融合网络来回归深度。在此之后许多工作通过仔细地将回归任务设计为分类任务、引入更多先验和更好的目标函数等来持续提高深度估计精度。尽管性能有希望但它们很难推广到看不见的领域。零样本深度估计。我们的工作属于这个研究方向。我们的目标是使用不同的训练集训练 MDE 模型从而可以预测任何给定图像的深度。一些开创性的工作通过收集更多的训练图像来探索这个方向但它们的监督非常稀疏并且仅在有限的点对上强制执行。为了实现有效的多数据集联合训练MiDaS 的一项里程碑式工作利用仿射不变损失来忽略不同数据集之间潜在的不同深度尺度和变化。因此MiDaS 提供相对深度信息。最近一些工作进一步估计了度量深度。然而在我们的实践中我们观察到此类方法的泛化能力比 MiDaS 差尤其是其最新版本。此外正如 ZoeDepth 所证明的那样通过使用度量深度信息进行微调强大的相对深度估计模型也可以很好地用于可推广的度量深度估计。因此我们在相对深度估计方面仍然遵循MiDaS但通过突出大规模单目未标记图像的价值来进一步加强它。利用未标记的数据。这属于半监督学习的研究领域受到各种应用的欢迎。然而现有的工作通常假设只有有限的图像可用。他们很少考虑具有挑战性但现实的场景即已经有足够的标记图像但也有更大规模的未标记图像。我们将这个具有挑战性的方向用于零样本 MDE。我们证明未标记的图像可以显着增强数据覆盖范围从而提高模型的泛化性和鲁棒性。Depth Anything我们的工作利用标记和未标记图像来促进更好的单目深度估计MDE。形式上标记集和未标记集分别表示为D l { ( x i , d i ) } i 1 M 和 D u { u i } i 1 N D^l \{(x_i , d_i)\}^M_{i1} 和 D^u \{u_i\}^N_{i1}Dl{(xi,di)}i1M和Du{ui}i1N。我们的目标是从 Dl 学习教师模型 T。然后我们利用 T 为 Du 分配伪深度标签。最后我们结合标记集和伪标记集训练学生模型 S。图 2 提供了简要说明。图2.我们的流水线。实线标记图像流虚线未标记图像。我们特别强调了大规模未标记图像的价值。S表示添加强扰动第3.2节。为了使我们的深度估计模型具有丰富的语义先验我们在在线学生模型和冻结编码器之间强制执行辅助约束以保留语义能力第3.3节。Learning Labeled Images这个过程与MiDaS的训练类似。不过由于MiDaS没有公开其代码所以我们先进行了复现。具体来说深度值首先通过 d 1/t 变换到视差空间然后在每个深度图上归一化为 0∼1。为了实现多数据集联合训练我们采用仿射不变损失来忽略每个样本的未知尺度和偏移L l 1 H W ∑ i 1 H W ρ ( d i ∗ , d i ) , ( 1 ) \mathcal {L}_l \frac {1}{HW}\sum _{i1}^{HW}\rho (d_i^*, d_i), (1)LlHW1i1∑HWρ(di∗,di),(1)其中d i ∗ d^∗_idi∗和d i d_idi分别是预测值和真实值。 ρ 是仿射不变平均绝对误差损失ρ ( d i ∗ , d i ) ∣ d ^ i ∗ − d ^ i ∣ ρ(d^∗_i , d_i) |\hat d^*_i −\hat d_i |ρ(di∗,di)∣d^i∗−d^i∣其中 ^d * i 和 ^di 是预测 d * i 和真实值 di 的缩放和移位版本d ^ i d i − t ( d ) s ( d ) , ( 2 ) \hat {d}_i \frac {d_i - t(d)}{s(d)}, (2)d^is(d)di−t(d),(2)其中 t(d) 和 s(d) 用于对齐预测和真实值以实现零平移和单位比例KaTeX parse error: Undefined control sequence: \label at position 2: \̲l̲a̲b̲e̲l̲ ̲{eq:median} t(d…为了获得鲁棒的单目深度估计模型我们从 6 个公共数据集中收集了 150 万张标记图像。表 1 列出了这些数据集的详细信息。我们使用的标记数据集少于 MiDaS v3.112 个训练数据集因为 1我们不使用 NYUv2 和 KITTI 数据集来确保对它们进行零样本评估2某些数据集不再可用例如电影和 WSVD以及 3某些数据集表现不佳质量例如 RedWeb也是低分辨率。尽管使用较少的标记图像我们易于获取且多样化的未标记图像将理解数据覆盖范围并大大增强模型的泛化能力和鲁棒性。表1.总的来说我们的Depth Anything在1.5M标记图像和62M未标记图像上进行了训练。此外为了加强从这些标记图像中学习的教师模型 T我们采用 DINOv2 预训练权重来初始化我们的编码器。在实践中我们应用预训练的语义分割模型来检测天空区域并将其视差值设置为0最远。Unleashing the Power of Unlabeled Images这是我们工作的重点。与之前费力构建不同标记数据集的工作不同我们强调了未标记图像在增强数据覆盖方面的价值。如今我们实际上可以从互联网或各种任务的公共数据集中构建多样化且大规模的无标签集。此外我们只需将单眼未标记图像转发到预先训练的性能良好的 MDE 模型就可以轻松获得它们的密集深度图。这比对立体图像或视频进行立体匹配或SfM重建更加方便和高效。我们选择八个大型公共数据集作为其不同场景的未标记来源。它们总共包含超过 6200 万张图像。表 1 的下半部分提供了详细信息。从技术上讲给定之前获得的 MDE 教师模型 T我们对未标记集 Du 进行预测以获得伪标记集D ^ u \hat D_uD^uD ^ u { ( u i , T ( u i ) ) ∣ u i ∈ D u } i 1 N . ( 4 ) \hat {\mathcal {D}}^u \{(u_i, T(u_i)) | u_i \in \mathcal {D}^u\}_{i1}^N. (4)D^u{(ui,T(ui))∣ui∈Du}i1N.(4)利用标记图像和伪标记图像的组合集D l ∪ D ^ u D^l ∪\hat D^uDl∪D^u我们在其上训练学生模型 S。继之前的工作之后我们没有从 T 中微调 S而是重新初始化 S 以获得更好的性能。不幸的是在我们的试点研究中我们未能通过这样的自我训练管道获得改进这确实与只有少量标记图像时的观察结果相矛盾。我们推测在我们的例子中已经有足够的标记图像从额外的未标记图像中获得的额外知识是相当有限的。特别是考虑到教师和学生共享相同的预训练和架构即使没有明确的自训练过程他们也倾向于对未标记的集 Du 做出类似的正确或错误预测。为了解决这个困境我们建议向学生提出一个更困难的优化目标以获取未标记图像的额外视觉知识。我们在训练期间向未标记的图像注入强烈的扰动。它迫使我们的学生模型积极寻求额外的视觉知识并从这些未标记的图像中获取不变的表示。这些优势有助于我们的模型更稳健地应对开放世界。我们引入两种形式的扰动一种是强烈的颜色扭曲包括颜色抖动和高斯模糊另一种是强烈的空间扭曲即 CutMix 。尽管很简单但这两个修改使得我们的大规模未标记图像显着提高了标记图像的基线。我们提供有关 CutMix 的更多详细信息。它最初是为了图像分类而提出的在单目深度估计中很少被探索。我们首先在空间上插入一对随机的未标记图像 ua 和 ubu a b u a ⊙ M u b ⊙ ( 1 − M ) , ( 5 ) u_{ab} u_a \odot M u_b \odot (1 - M), (5)uabua⊙Mub⊙(1−M),(5)其中 M 是矩形区域设置为 1 的二值掩码。未标记损失 Lu 是通过首先计算分别由 M 和 1 − M 定义的有效区域中的仿射不变损失来获得的KaTeX parse error: Expected EOF, got at position 2: ̲\mathcal {L}^M_…为了简单起见我们省略了∑ \sum∑和像素下标 i。然后我们通过加权平均来汇总这两个损失L u ∑ M H W L u M ∑ ( 1 − M ) H W L u 1 − M . ( 8 ) \mathcal {L}_u \frac {\sum M}{HW}\mathcal {L}^M_u \frac {\sum (1-M)}{HW}\mathcal {L}^{1-M}_u. (8)LuHW∑MLuMHW∑(1−M)Lu1−M.(8)我们以 50% 的概率使用 CutMix。 CutMix 的未标记图像在颜色上已经严重失真但输入教师模型 T 进行伪标记的未标记图像是干净的没有任何失真。Semantic-Assisted Perception有一些工作通过辅助语义分割任务来改进深度估计。我们相信用这种高级语义相关信息武装我们的深度估计模型是有益的。此外在我们利用未标记图像的特定背景下来自其他任务的这些辅助监督信号也可以对抗伪深度标签中的潜在噪声因此我们进行了初步尝试结合 RAM GroundingDINO HQ-SAM 模型仔细地将语义分割标签分配给未标记的图像。经过后处理后会产生一个包含 4K 类的类空间。在联合训练阶段模型被强制使用共享编码器和两个单独的解码器生成深度和分割预测。不幸的是经过反复试验我们仍然无法提升原始 MDE 模型的性能。我们推测将图像解码为离散类空间确实会丢失太多语义信息。这些语义掩模中的有限信息很难进一步提升我们的深度模型特别是当我们的深度模型已经建立了非常有竞争力的结果时。因此我们的目标是寻求更多信息丰富的语义信号来作为深度估计任务的辅助监督。我们对 DINOv2 模型在语义相关任务例如图像检索和语义分割中的强大性能感到非常惊讶即使是在没有任何微调的情况下冻结权重。受这些线索的启发我们建议将其强大的语义能力转移到具有辅助特征对齐损失的深度模型中。特征空间是高维且连续的因此比离散掩模包含更丰富的语义信息。特征对齐损失的公式为L f e a t 1 − 1 H W ∑ i 1 H W cos ⁡ ( f i , f i ′ ) , ( 9 ) \mathcal {L}_{feat} 1 - \frac {1}{HW}\sum _{i1}^{HW}\cos (f_i, f_i), (9)Lfeat1−HW1i1∑HWcos(fi,fi′),(9)其中 cos(·,·) 测量两个特征向量之间的余弦相似度。 f 是深度模型 S 提取的特征而 f ’ 是来自冻结的 DINOv2 编码器的特征。我们没有遵循一些工作将在线特征 f 投影到新的空间中进行对齐因为随机初始化的投影仪使得较大的对齐损失在早期阶段主导了整体损失。特征对齐的另一个关键点是像 DINOv2 这样的语义编码器往往会为对象的不同部分例如汽车的前部和后部产生相似的特征。然而在深度估计中不同的部分甚至同一部分内的像素可以具有不同的深度。因此彻底强制我们的深度模型产生与冻结编码器完全相同的特征是没有好处的。为了解决这个问题我们为特征对齐设置了一个公差裕度α。如果f i 和 f i ′ f_i 和 f^′_ifi和fi′的余弦相似度超过 α则该像素将不会被考虑在我们的 Lf eat 中。这使得我们的方法能够享受 DINOv2 的语义感知表示和深度监督的部分级判别表示。As a side effect我们生成的编码器不仅在下游 MDE 数据集中表现良好而且在语义分割任务中也取得了很好的结果。它还表明我们的编码器具有作为中级和高级感知任务的通用多任务编码器的潜力。最后我们的总体损失是 Ll 、 Lu 和 Lf 所吃的三个损失的平均组合。ExperimentImplementation Details我们采用 DINOv2 编码器进行特征提取。遵循 MiDaS 我们使用 DPT 解码器进行深度回归。所有标记的数据集都简单地组合在一起无需重新采样。在第一阶段我们在标记图像上训练教师模型 20 个 epoch。在联合训练的第二阶段我们训练一个学生模型一次性扫描所有未标记的图像。未标记的图像由性能最佳的教师模型和 ViT-L 编码器进行注释。每批中标记图像和未标记图像的比例设置为 1:2。在这两个阶段中预训练编码器的基础学习率均设置为5e-6而随机初始化的解码器则使用10倍大的学习率。我们使用 AdamW 优化器并通过线性计划衰减学习率。我们仅应用水平翻转作为标记图像的数据增强。特征对准损失的公差裕度α设置为0.85。欲了解更多详情请参阅我们的附录。Zero-Shot Relative Depth Estimation如上所述这项工作旨在为任何图像提供准确的深度估计。因此我们在六个代表性的看不见的数据集上全面验证了 Depth Anything 模型的零样本深度估计能力KITTI 、NYUv2 、Sintel 、DDAD 、ETH3D 和 DIODE 。我们与最新 MiDaS v3.1 中最好的 DPT-BEiTL-512 模型进行比较该模型使用的标记图像比我们更多。如表 2 所示无论使用 ViT-L 编码器我们的 Depth Anything 在 AbsRel绝对相对误差∣ d ∗ − d ∣ / d |d^∗ −d|/d∣d∗−d∣/d和 δ1m a x ( d ∗ / d , d / d ∗ ) 1.25 max(d ^∗/d, d/d^∗ ) 1.25max(d∗/d,d/d∗)1.25的百分比指标方面都在广泛的场景中极大地超越了最强的 MiDaS 模型。例如在著名的自动驾驶数据集DDAD上进行测试时我们将AbsRel↓从0.251→0.230改进并将δ1↑从0.766→0.789改进。表2.零样本相对深度估计。更好AbsRel ↓δ1 ↑。我们与MiDaS v3.1的最佳模型进行比较。请注意MiDaS并不严格遵循KITTI和NYUv 2上的零样本评估因为它使用了它们的训练图像。我们基于ViT-S提供了三种用于不同目的的模型尺度24.8M、ViT-B97.5M和ViT-L335.3M。此外我们的 ViT-B 模型已经明显优于基于更大的 ViT-L 的 MiDaS。此外我们的 ViT-S 模型的规模还不到 MiDaS 模型的 1/10甚至在几个未见的数据集上表现优于 MiDaS包括 Sintel、DDAD 和 ETH3D。这些小规模模型的性能优势证明了它们在计算受限的场景中的巨大潜力。值得注意的是在最常用的MDE基准测试集KITTI和NYUv2上尽管MiDaS v3.1使用了对应的训练图像不再是零样本学习我们的Depth Anything模型在未训练任何KITTI或NYUv2图像的情况下仍明显优于它例如在KITTI测试集上AbsRel为0.127 vs. 0.076δ1为0.850 vs. 0.947。Fine-tuned to Metric Depth Estimation除了在零样本相对深度估计方面令人印象深刻的性能之外我们还进一步检查了我们的 Depth Anything 模型作为下游度量深度估计的有前途的权重初始化。我们使用预先训练的编码器参数初始化下游 MDE 模型的编码器并随机初始化解码器。该模型使用相应的度量深度信息进行微调。在这一部分中我们使用 ViT-L 编码器进行微调。我们研究了两种代表性场景1域内度量深度估计其中模型在同一域上进行训练和评估第 4.3.1 节2零样本度量深度估计其中模型在一个域上进行训练例如 NYUv2 但在不同域中进行评估例如 SUN RGB-D 第 4.3.2 节。In-Domain Metric Depth Estimation如 NYUv2 的表 3 所示我们的模型显着优于之前的最佳方法 VPD 将 δ1 (↑) 从 0.964 → 0.984 提高将 AbsRel (↓) 从 0.069 提高到 0.056。在 KITTI 数据集的表 4 中可以观察到类似的改进。我们将 KITTI 上的 δ1 (↑) 从 0.978 → 0.982 改进。值得注意的是我们针对这个场景采用了 ZoeDepth 框架具有相对基本的深度模型我们相信如果配备更先进的架构我们的结果可以进一步增强。表3.使用我们预先训练的MDE编码器对NYUv2 进行微调和评估。我们突出显示了最佳次佳结果以及最具区分力的指标。表4.使用我们预先训练的MDE编码器对KITTI 进行微调和评估。*由我们复制。Zero-Shot Metric Depth Estimation我们按照 ZoeDepth 进行零样本度量深度估计。 ZoeDepth 使用来自 NYUv2针对室内场景或 KITTI 针对室外场景的度量深度信息对 MiDaS 预训练编码器进行微调。因此我们只需用我们更好的 Depth Anything 编码器替换 MiDaS 编码器而其他组件保持不变。如表 5 所示在各种未见过的室内和室外场景数据集上我们的 Depth Anything 产生了比基于 MiDaS 的原始 ZoeDepth 更好的度量深度估计模型。表5.零样本度量深度估计。头部中的前三个测试集是室内场景而最后两个是室外场景。在ZoeDepth之后我们使用在NYUv2上训练的模型进行室内泛化而使用在KITTI上训练的模型进行室外评估。为了公平比较我们报告了在我们的环境中复制的ZoeDepth结果。Fine-tuned to Semantic Segmentation在我们的方法中我们设计 MDE 模型通过简单的特征对齐约束从预训练的编码器继承丰富的语义先验。在这里我们检查 MDE 编码器的语义能力。具体来说我们根据下游语义分割数据集微调 MDE 编码器。正如 Cityscapes 数据集的表 7 所示我们的大规模 MDE 训练编码器 (86.2 mIoU) 优于大规模 ImageNet-21K 预训练的现有编码器例如 Swin-L (84.3) 和 ConvNeXt-XL (84.6)。表 8 中的 ADE20K 数据集也有类似的观察结果。我们将之前的最佳结果从 58.3 → 59.4 改进。我们希望强调的是见证了我们的预训练编码器在单目深度估计和语义分割任务上的优越性我们相信它具有作为中级和高级视觉感知系统的通用多任务编码器的巨大潜力。表7.将我们的MDE预训练编码器转移到Cityscapes进行语义分割。我们不使用Mapillary 进行预训练。s.s./m.s.单尺度/多尺度评估。表8.将MDE编码器转移到ADE 20K进行语义分割。我们使用Mask2Former作为分割模型。Ablation Studies除非另有说明我们在这里使用 ViT-L 编码器进行消融研究。每个训练数据集的零样本传输。在表 6 中我们提供了每个训练数据集的零样本传输性能这意味着我们在一个训练集上训练相对的 MDE 模型并在六个未见过的数据集上对其进行评估。通过这些结果我们希望为未来的工作提供更多见解这些工作同样旨在构建通用的单目深度估计系统。表6.检查每个标记的训练集左到六个未见过的数据集上的零触发传输性能。更好的性能AbsRel ↓δ1 ↑。我们分别以粗体下划线和斜体突出显示每个测试数据集的最佳第二和第三好结果。在六个训练数据集中HRWSI 为我们的模型提供了最强的泛化能力尽管它只包含 20K 图像。这表明数据多样性非常重要这与我们利用未标记图像的动机非常一致。一些标记数据集可能表现不佳例如 MegaDepth 但是它有自己的偏好这些偏好并未反映在这六个测试数据集中。例如我们发现使用 MegaDepth 数据训练的模型专门用于估计超远程建筑物的距离图 1这对于飞行器非常有利。有效性1在学习未标记图像时挑战学生模型2语义约束。如表9所示简单地添加带有伪标签的未标记图像并不一定会给我们的模型带来收益因为标记图像已经足够了。然而在重新训练期间对未标记图像施加强扰动S学生模型面临着寻求额外视觉知识和学习更鲁棒表示的挑战。因此大规模未标记图像显着增强了模型的泛化能力。表9.消融研究1在学习未标记图像时用强扰动S挑战学生2语义约束Lfeat。受空间限制我们只报告AbsRel↓度量并缩短数据集名称的前两个字母。此外使用我们使用的语义约束L f e a t L_{feat}Lfeat可以进一步放大未标记图像的深度估计任务的能力。更重要的是如第4.4节所强调的这个辅助约束还使我们训练的编码器能够作为多任务视觉系统中的关键组件用于中级和高级感知。与MiDaS训练的编码器在下游任务中的比较。我们的Depth Anything模型表现出比MiDaS更强的零触发能力。在这里我们进一步比较了我们训练的编码器与MiDaS v3.1 训练的编码器的下游微调性能。如表10所示在下游深度估计任务和语义分割任务上我们生产的编码器明显优于MiDaS编码器例如NYUv2上的δ1度量为0.951 vs. 0.984ADE 20K上的mIoU度量为52.4 vs. 59.4。表10.我们训练的编码器和MiDaS 训练的编码器在下游微调性能方面的比较。更好的性能AbsRel ↓δ1 ↑mIoU ↑。与DINOv2在下游任务中的比较。我们已经证明了我们训练的编码器在微调到下游任务时的优越性。由于我们最终生产的编码器来自大规模MDE训练是从DINOv2 微调的我们将我们的编码器与表11中的原始DINOv2编码器进行比较。可以观察到我们的编码器在下行度量和下行度量方面都优于原始DINOv2编码器。深度估计任务和语义分割任务。虽然DINOv2权重提供了非常强大的初始化但我们大规模和高质量的MDE训练可以进一步提高下游传输性能。表11.原始DINOv2和我们生产的编码器在下游微调性能方面的比较。Qualitative Results我们在图3中对六个看不见的数据集进行了可视化模型预测。我们的模型对来自各个领域的测试图像具有鲁棒性。此外我们在图4中将我们的模型与MiDaS进行了比较。我们还尝试使用ControlNet 合成以预测深度图为条件的新图像。我们的模型比MiDaS产生更准确的深度估计以及更好的合成结果。为了更准确的合成我们基于我们的Depth Anything重新训练了一个更好的深度调节控制网络旨在为图像合成和视频编辑提供更好的控制信号。请参阅我们的项目页面了解有关使用我们的Depth Anything进行视频编辑的更多定性结果。图3.六个未知数据集的定性结果。图4.我们将深度预测与MiDaS进行了比较。同时我们使用ControlNet从深度图中合成新图像。Conclusion在这项工作中我们提出了Depth Anything一个非常实用的鲁棒单目深度估计解决方案。与现有技术不同我们特别强调了廉价和多样化的未标记图像的价值。我们设计了两个简单而高效的策略来充分利用它们的价值1在学习未标记图像时提出更具挑战性的优化目标2从预训练的模型中保留丰富的语义先验。因此我们的Depth Anything模型具有出色的零样本深度估计能力也可以作为下游度量深度估计和语义分割任务的有希望的初始化。Supplementary MaterialMore Implementation Details我们将所有图像的短边调整为518并保持原始长宽比。在训练过程中所有图像都被裁剪为518×518。在推理过程中我们不裁剪图像只确保两边都是14的乘数因为DINOv2编码器的预定义的补丁大小是14。通过内插预测以原始分辨率执行评估。在MiDaS 之后在零样本评估中我们的预测的尺度和偏移与地面实况手动对齐。当微调我们的预训练编码器以度量深度估计时我们采用ZoeDepth代码库。我们只是用我们更强的Depth Anything编码器替换原始的基于MiDaS的编码器修改了一些超参数。具体地说NYUv 2 上的训练分辨率为392×518KITTI 上的训练分辨率为384×768以匹配我们编码器的补丁大小。编码器学习率设置为1/随机初始化解码器的学习率为50由于我们的强初始化这比MiDaS编码器采用的1/10小得多。批量大小为16模型训练5个epoch。当微调我们预先训练的编码器以进行语义分割时我们使用MMSegmentation代码库。在ADE 20 K 和Cityscapes 上训练分辨率设置为896×896。编码器学习率设置为3e-6解码器学习率为10倍。我们使用Mask 2Former 作为我们的语义分割模型。该模型在ADE 20 K上进行了160 K次迭代训练在Cityscapes上进行了80 K次迭代训练批量大小均为16没有任何COCO 或Mapillary 预训练。其他训练配置与原始代码库相同。More Ablation Studies此处的所有消融研究均在ViT-S模型上进行。特征对准中公差裕度的必要性。如表12所示公差范围1.00和0.85或0.70之间的差距清楚地证明了该设计的必要性平均AbsRel0.188 vs. 0.175。将特征对齐应用于标记数据。以前我们对未标记数据强制执行特征对齐损失L f e a t L_{feat}Lfeat。实际上将此约束也应用于标记数据在技术上是可行的。在表13中除了对未标记数据应用L f e a t L_{feat}Lfeat外我们探索将其应用于标记数据。我们发现将此辅助优化目标添加到标记数据对我们的基线没有好处任何特征对齐它们的平均AbsRel值几乎相同0.180对0.179。我们推测这是因为标记数据具有相对更高质量的深度注释。语义丢失的参与可能会干扰这些信息丰富的手动标签的学习。相比之下我们的伪标签噪音更大信息量更少。因此将辅助约束引入未标记的数据可以对抗伪深度标签中的噪声并为我们的模型提供语义能力。Limitations and Future Works目前最大的模型大小仅限于ViTLarge 。因此在未来我们计划进一步将模型大小从ViT-Large扩展到ViT-Giant这也是由DINOv 2 预先训练好的。我们可以用更大的模型训练更强大的教师模型为较小的模型学习产生更准确的伪标签例如ViT-L和ViT-B。此外为了方便实际应用我们认为目前广泛采用的512×512训练分辨率是不够的我们计划在700甚至1000的更大分辨率上重新训练我们的模型。More Qualitative Results请参阅以下页面了解六个未知测试集的全面定性结果图5为KITTI 图6为NYUv 2 图7为Sintel 图8为DDAD 图9为ETH 3D 图10为DIODE 。我们将我们的模型与最强的MiDaS模型进行比较即DPT-BEiTL-512。我们的模型具有更高的深度估计精度和更强的鲁棒性。请参阅我们的项目页面以获取更多可视化效果。图5. KITTI上的定性结果。由于非常稀疏的基础事实很难可视化我们在这里将我们的预测与最先进的MiDaS v3.1 预测进行比较。颜色越亮表示距离越近。为解决该困境模型采用了两大核心策略。一是构建更具挑战性的优化目标对无标签图像施加颜色畸变、CutMix 等强扰动迫使学生模型主动挖掘额外视觉知识、学习鲁棒表征二是引入语义辅助约束通过与冻结 DINOv2 编码器的特征对齐继承丰富语义先验同时设置容忍阈值避免语义信息干扰深度判别性既抵消伪标签噪声又提升模型的场景理解能力。Depth Anything 在零 - shot 深度估计任务中相比 MiDaS v3.1 的核心优势体现在泛化能力更强、模型效率更高。一方面在 KITTI、NYUv2 等 6 个 unseen 数据集上其 AbsRel 指标平均下降超 15%δ1 指标平均提升超 8%且在低光、雾天、超远距离等复杂场景表现稳定另一方面小参数量的 ViT-S 模型24.8M性能可媲美甚至超越 MiDaS 的大模型 ViT-L335.3M。优势来源是62M 大规模无标签数据带来的广场景覆盖以及强扰动和语义对齐策略带来的表征鲁棒性。传统 ImageNet 预训练编码器仅学习分类级语义而 Depth Anything 的编码器在训练中通过DINOv2 特征对齐继承了细粒度语义先验同时单目深度任务迫使编码器学习了场景的空间层级结构兼具语义理解与空间感知能力因此在语义分割任务中表现更优。其多任务潜力体现在既能胜任单目深度估计的中层视觉任务又能适配语义分割的高层视觉任务具备成为通用视觉感知编码器的潜质。Depth Anything 是面向鲁棒单目深度估计的基础模型其算法设计围绕“大规模无标签数据价值挖掘”核心目标通过数据引擎构建、训练策略创新、语义先验融合三大维度工作实现了零 - shot 泛化性与下游任务适配性的突破。以下从工作内容、模型模块、损失函数、论点论据及底层逻辑展开深度解析。数据层面构建大规模有 / 无标签数据集及自动标注引擎有标签数据集构建筛选 6 个公开数据集的 1.5M 有标签图像规避 NYUv2/KITTI 以保证零 - shot 验证用于训练初始教师模型无标签数据集构建从 SA-1B、Open Images 等 8 个数据集收集 62M 无标签图像通过教师模型生成伪深度标签形成 “有标签伪标签” 的联合训练数据自动标注引擎基于预训练教师模型的前向推理实现无标签图像的高效、密集伪标注替代传统 LiDAR / 立体匹配的高成本标注方案。训练策略层面强扰动优化目标与语义特征对齐强扰动优化目标对无标签图像施加颜色畸变颜色抖动、高斯模糊与空间畸变CutMix迫使模型学习不变性视觉表征其中 CutMix 采用 50% 概率随机插值两张无标签图像分区域计算损失并加权融合语义特征对齐摒弃传统离散语义分割辅助任务引入冻结 DINOv2 编码器的连续特征空间通过余弦相似度损失实现深度模型与语义模型的特征对齐并设置容忍阈值 α 过滤高相似度像素平衡语义一致性与深度判别性。架构适配层面编码器解码器选型与初始化策略编码器选型采用 DINOv2 预训练的 ViT 系列编码器S/B/L 三尺度继承其强大的通用视觉表征能力解码器选型沿用 MiDaS 的 DPT 解码器实现深度回归保证与现有深度估计范式的兼容性初始化策略学生模型不基于教师模型微调而是重新初始化避免师生模型的预测偏差同质化。Depth Anything 的模型可拆解为4 个核心模块各模块分工明确参数调节针对不同目标优化模块名称核心作用关键参数参数调节逻辑DINOv2 编码器提取高维视觉特征继承预训练语义先验1. 学习率5e-62. 模型尺度ViT-S/B/L3. 输入分辨率短边 resize 至 518训练时裁剪为 518×5181. 编码器学习率远低于解码器避免预训练语义表征被破坏2. 不同尺度适配算力与精度需求ViT-L 精度最高ViT-S 轻量化DPT 解码器将编码器特征映射为像素级深度图1. 学习率5e-5编码器的 10 倍2. 优化器AdamW3. 学习率调度线性衰减解码器随机初始化需更高学习率快速拟合深度回归任务线性调度保证训练后期的稳定性强扰动模块增强无标签数据的优化难度提升模型鲁棒性1. CutMix 概率50%2. 颜色畸变强度自适应颜色抖动 / 高斯模糊3. CutMix 掩码 M随机矩形区域50% CutMix 概率平衡原始图像与混合图像的训练比例掩码区域保证深度预测的区域一致性语义对齐模块融合 DINOv2 语义先验提升场景理解能力1. 容忍阈值 α0.852. 损失权重与L l L_lLl/L u L_uLu平均加权3. 特征维度与 DINOv2 编码器输出一致α0.85 避免强制对齐破坏深度的局部判别性平均加权保证深度任务与语义任务的平衡编码器提取的特征同时流向 DPT 解码器深度回归和语义对齐模块特征一致性约束无标签图像先经扰动模块增强再输入解码器与语义对齐模块实现 “深度回归语义监督鲁棒性增强” 的联合优化。Depth Anything 的总损失为有标签损失L l L_lLl、无标签损失L u L_uLu、语义对齐损失L f e a t L_{feat}Lfeat的平均加权各损失的设计侧重针对不同训练阶段的核心矛盾有标签损失L l L_lLl仿射不变的深度回归损失数学表达式L l 1 H W ∑ i 1 H W ρ ( d i ∗ , d i ) , ρ ( d i ∗ , d i ) ∣ d ^ i ∗ − d ^ i ∣ \mathcal{L}_{l}\frac{1}{H W} \sum_{i1}^{H W} \rho\left(d_{i}^{*}, d_{i}\right), \quad \rho(d_{i}^{*}, d_{i})|\hat{d}_{i}^{*}-\hat{d}_{i}|LlHW1∑i1HWρ(di∗,di),ρ(di∗,di)∣d^i∗−d^i∣其中d ^ d − t ( d ) s ( d ) \hat{d} \frac{d-t(d)}{s(d)}d^s(d)d−t(d)t ( d ) t(d)t(d)为深度中位数s ( d ) s(d)s(d)为深度均值绝对偏差。解决多数据集联合训练的尺度 / 偏移不一致问题通过对预测与真值做零均值、单位尺度的归一化消除不同数据集的深度量纲差异实现跨数据集的统一监督。无标签损失L u L_uLuCutMix 分区域加权损失数学表达式L u ∑ M H W L u M ∑ ( 1 − M ) H W L u 1 − M \mathcal{L}_{u}\frac{\sum M}{H W} \mathcal{L}_{u}^{M}\frac{\sum(1-M)}{H W} \mathcal{L}_{u}^{1-M}LuHW∑MLuMHW∑(1−M)Lu1−M其中L u M \mathcal{L}_{u}^{M}LuM和L u 1 − M \mathcal{L}_{u}^{1-M}Lu1−M分别为 CutMix 掩码 M 与 1-M 区域的仿射不变损失。利用伪标签实现无标签数据的有效监督通过分区域损失加权保证混合图像的不同区域深度预测与对应源图像伪标签的一致性避免空间畸变导致的监督失效。语义对齐损失L f e a t L_{feat}Lfeat余弦相似度特征约束数学表达式L f e a t 1 − 1 H W ∑ i 1 H W c o s ( f i , f i ′ ) \mathcal{L}_{feat }1-\frac{1}{H W} \sum_{i1}^{H W} cos \left(f_{i}, f_{i}\right)Lfeat1−HW1∑i1HWcos(fi,fi′)其中f为深度模型特征f ′ ff′为冻结 DINOv2 编码器特征仅对c o s ( f i , f i ′ ) α cos(f_i,f_i)αcos(fi,fi′)α的像素计算损失。继承 DINOv2 的连续语义特征相比离散语义分割标签保留更多细粒度语义信息通过容忍阈值 α 平衡 “语义一致性” 与 “深度判别性”避免同一物体不同深度区域的特征被强制对齐。大规模、低成本、多样化的无标签单目图像是提升单目深度估计泛化性的核心驱动力其价值远超增加有标签数据集数量仅简单融合有标签与无标签数据无法发挥无标签价值需通过强扰动构建挑战性优化目标、通过语义特征对齐继承先验知识Depth Anything 可作为单目深度估计的基础模型兼具优异的零 - shot 泛化性与下游任务metric 深度估计、语义分割适配性。Depth Anything 的算法设计是“数据驱动策略创新架构适配”的典型范例通过数据引擎解决了深度标注的规模瓶颈通过强扰动与语义对齐释放了无标签数据的价值通过轻量化架构实现了精度与效率的平衡。其核心贡献不仅是单目深度估计的性能突破更是为视觉基础模型的半监督训练提供了可复用的范式。Depth Anything v1 的核心架构围绕DPTDense Prediction Transformer展开结合了 DINOv2Facebook 提出的视觉 Transformer 预训练模型的编码器实现高效的特征提取与深度预测。从depth_anything/dpt.py中的DPT_DINOv2类可见编码器选择支持三种 ViT 编码器vits、vitb、vitl分别对应小、中、大型模型平衡精度与速度。特征提取通过pretrained.get_intermediate_layers获取图像的多层特征与 DINOv2 预训练权重结合利用 Transformer 强大的全局上下文建模能力捕捉图像深层语义。深度头Depth Head通过DPTHead处理提取的特征生成与输入图像尺寸匹配的深度图经上采样至原始尺寸输出为单通道深度值depth.squeeze(1)。# 核心前向传播逻辑简化defforward(self,x):h,wx.shape[-2:]# 获取DINOv2的中间层特征含class tokenfeaturesself.pretrained.get_intermediate_layers(x,4,return_class_tokenTrue)# 计算patch尺寸与DINOv2的14x14 patch对应patch_h,patch_wh//14,w//14# 深度头处理特征并上采样至原始尺寸depthself.depth_head(features,patch_h,patch_w)depthF.interpolate(depth,size(h,w),modebilinear,align_cornersTrue)returndepth.squeeze(1)Depth Anything v1 不仅支持基础的深度估计还通过微调扩展至多种下游任务核心功能如下模型可直接对任意图像生成相对深度图像素间深度关系无需额外标注。其预训练模型如LiheYoung/depth_anything_vitl14在 1.5M 标记图像 62M 未标记图像上训练具备强鲁棒性。数据预处理需匹配 DINOv2 的输入要求如尺寸为 14 的倍数、ImageNet 标准化transformCompose([Resize(width518,height518,keep_aspect_ratioTrue,ensure_multiple_of14),NormalizeImage(mean[0.485,0.456,0.406],std[0.229,0.224,0.225]),PrepareForNet(),])metric 深度估计绝对深度, 基于相对深度模型使用 NYUv2室内或 KITTI室外的 metric 深度数据微调支持绝对深度估计单位为米。zoedepth/models/zoedepth/zoedepth_v1.py可知微调策略参考 ZoeDepth通过「bin 中心预测」「吸引子层」实现 metric 转换。性能优于 ZoeDepth例如在 NYUv2 上δ 1 \delta_1δ1指标达 0.984ZoeDepth 为 0.951AbsRel 低至 0.056更精确。

建设网站企业银行做ppt赚钱的网站

友联建设集团官方网站ps网页制作视频教程

海门住房和城乡建设局网站深圳极速网站建设公司

网络框架做百度移动网站优化排

南通网站制作wordpress 直接连接数据库

angular 做网站网站优化seo技术

网站开发回访话术免费的企业品牌策划公司