不建网站网络营销怎么做湖南长沙做网站

张小明 2026/1/12 6:03:26
不建网站网络营销怎么做,湖南长沙做网站,做网站的方案图片,今天北京发生的重大新闻前言 我在解读CHIP、WholeBodyVLA这两个工作时#xff0c;这两都提到了本文要解读的HEDA 第一部分 1.1 引言与相关工作 1.1.1 引言 来自斯坦福的研究者提出了一种面向人形机器人的手眼自主递送#xff08;hand-eye autonomous delivery,HEAD#xff09;系统#xff0c;…前言我在解读CHIP、WholeBodyVLA这两个工作时这两都提到了本文要解读的HEDA第一部分1.1 引言与相关工作1.1.1 引言来自斯坦福的研究者提出了一种面向人形机器人的手眼自主递送hand-eye autonomous delivery,HEAD系统旨在充分利用其类人形态结构以协调的方式同时完成导航、运动和触达任务论文地址为Hand-Eye Autonomous Delivery: Learning Humanoid Navigation, Locomotion and Reaching作者包括Sirui Chen, Yufei Ye, Zi-Ang Cao, Jennifer Lew, Pei Xu, C. Karen Liu项目地址为stanford-tml.github.io/HEADGitHub地址为github.com/Stanford-TML/HEAD_release如下图所示在用户从类人机器人的自我中心视角中选定目标后人形机器人能够在三维世界中导航并到达该目标尽管从人类示范中学习是一条很有前景的途径但要端到端训练这三种技能需要同时包含第一人称视觉和全身动作的异质人类数据为此作者采用了一种模块化方法将自我中心视觉感知与物理动作解耦从而能够灵活地利用不同来源的人类数据和不同算法来训练全身导航、运动和触达这一设计也缓解了训练统一视觉-运动策略所面临的挑战HEAD框架由一个高层策略和一个低层控制器构成高层策略预测仿人机器人眼睛和手部的目标位置与朝向低层控制器则执行对应的全身运动在接收到“伸手并触碰某个物体”的指令后该物体由人形机器人在其感知到的初始RGB 图像中的一个点来指示高层策略预测头部的位置与朝向从而在保持目标始终处于视野的同时引导人形机器人朝目标移动并绕开障碍物当目标进入手臂可及范围后高层策略还会控制双手与该物体接触现有的视觉导航方法 [1,2] 通常将机器人抽象为质点将动作限制为在地面平面上的 2D 移动。此类假设适用于轮式机器人但对于双足人形机器人却远远不够双足人形机器人必须协调一具多关节身体在复杂的3D 空间中导航同时在不同高度上伸手去够物体并避开障碍物为实现这种 3D 导航能力作者的方法针对不同目的混合利用多种数据集——使用互联网上的大规模人类探索数据集来提升对新场景的泛化能力在目标环境中收集中等规模的示教数据以缓解感知带来的领域偏移并使用少量特定机器人经验来缓解由具身差异引起的领域偏移低层全身控制器通过大规模人体动作捕捉数据进行训练以跟踪三个关键点——眼睛(其决定朝向)、左手和右手作者采用基于模仿的RL进行训练利用大规模数据集的多样性来处理各种各样的目标配置使用基于模仿的 RL 训练这样的全身策略面临三个主要挑战首先与全身跟踪不同HEAD的目标在空间上是稀疏的只约束三个点作者通过构建一个基于 GAN 的强化学习框架来应对第一个挑战该框架模仿人类示范数据的分布而不是依赖具体的全身轨迹作为策略输入其次全身技能要求上半身和下半身能够同时执行不同任务这需要大量示范样本来覆盖联合动作空间为解决第二个挑战作者设计了两个独立的判别器分别对上半身和下半身给予奖励从而促进两者之间的可组合性和协调性第三在真实环境中很难获取精确的根节点位置和速度信息因此需要一种在没有精确根节点数据情况下依然有效的更鲁棒的策略为了解决第三个挑战作者训练的策略不依赖于世界坐标系中的根节点位置或速度相反全局信息由导航目标推断并通过机载摄像头进行估计1.1.2 相关工作// 待更1.2 HEAD的完整方法论给定机器人在初始 RGB 图像上选定的一个点HEAD 使得人形机器人能够用手在真实三维物理世界中到达该点HEAD 是一个模块化系统由用于导航和触达的高层策略和用于全身控制的低层策略组成(见图2)HEAD 由一个包含导航和到达两个模块的高层策略以及一个协调全身运动的低层策略组成高层策略以较低频率提供手眼跟踪目标基于学习的导航模块从混合训练数据集中学习将RGB 自我视角感知映射为相机目标轨迹基于模型的到达模块生成手眼目标位姿而全身控制器则以较高频率跟踪这些手眼目标低层全身控制器使用基于模仿的强化学习在一组人体动作捕捉数据上进行训练其核心思想是导航与触达这两项任务都可以通过对同一个低层全身策略下达指令来完成该策略负责跟踪头部和双手的 6D 位姿1.2.1 全身控制器在高层策略给定目标手-眼位置和姿态的情况下低层全身控制器通过 PD 伺服器来控制人形机器人为使人形机器人在跟踪任意目标的同时表现得更接近人类作者在RL框架下采用类似 GAN 的方法 [34]从非结构化运动数据中进行动作模仿并结合面向目标的位置和姿态跟踪控制模仿人类操作中的手-眼位姿特别是眼的位姿这个HEAD是我目前所知的第一个工作了不同于两阶段的蒸馏方法 [35,19]HEAD的方法以端到端方式训练低层控制策略以便部署到真实世界第一作者特地整理了人体运动数据集作者发现动作重定向的质量会显著影响策略性能。故作者通过将来自 AMASS [36] 和 OMOMO [37] 数据集的人体动作捕捉数据重新定向到 G1 机器人整理了一个 5 小时的数据集该重定向是通过类似于 [17] 的关键点匹配实现的。所收集的运动总体上涵盖了操作与运动两个领域的代表性行为。数据集将在论文被接收后开源第二部署的观测空间为了支持在真实环境中的部署观测空间必须限制为机器人机载传感器可获取的信息作者的观测向量由机器人局部坐标系中两个连续时间步的机器人连杆位姿和局部的关节速度构成它不包含任何未来信息也不依赖世界坐标系中的任何特权数据例如根部位置和线速度这些在仿真之外很难获取作者发现去除对特权信息的依赖其效果优于任何依赖重建或预测替代量的其他方法第三运动模仿作者将全身运动解耦为上半身和下半身两组并同时使用两个判别器来进行模仿学习通过这种方式策略可以学习来自上下半身部位姿态的组合而不再受限于动作数据集中提供的固定全身姿态类 GAN 的强化学习方法使得策略能够从动作数据集中的任意片段进行动作模仿而无需事先生成或获取完整的模仿轨迹同时还可以完成跟踪任务第四稀疏目标跟踪为了避免在全局空间中引入目标信息作者通过相对变换来表示跟踪目标作为策略网络的输入其中表示相对变换算子”tar” 表示目标姿态为了执行跟踪在训练过程中作者在每个时间步执行动作之后基于定义以目标为导向的奖励第五针对sim2real的考虑除了目标跟踪的任务奖励之外作者另外定义了一个正则化项以辅助实现从仿真到现实的迁移为进一步提升鲁棒性作者在训练过程中对动力学参数和传感器噪声进行大范围的域随机化且采用文献 [38] 中提出的多目标学习框架来进行策略训练同时利用判别器给出的奖励来优化两个模仿目标并通过人工定义的奖励函数来优化目标导向的目标函数。实现细节请参见补充材料1.2.2 导航模块给定一个能够跟踪三个点的低层次全身控制器HEAD的导航模块将机器人引导至一个目标该目标被指定为机器人初始观测到的RGB 图像中的一个2D 点在推理过程中导航模型从导航相机获取当前RGB 图像以及由点跟踪器[39] 提供的已跟踪2D 目标并预测未来眼睛在位置和朝向上的轨迹(见下图图3 右)导航训练数据(左)作者对从 Aria Glasses 采集的图像进行增强去畸变和单应变换使其看起来更像机器人的视角导航模块概览(右)在推理过程中给定一幅图像和一个以二维点形式表示的目标我们提取 DINO 特征附加目标坐标并将它们输入 transformer 解码器以预测未来的眼睛(摄像头)轨迹低层全身控制器执行该预测并获得新的观测。随后利用现成的点跟踪器在新的图像中跟踪该目标具体来说作者提取输入图像的DINO 特征并向目标添加位置嵌入。然后将它们输入到一个transformer 解码器中以输出未来的相机轨迹该轨迹相对于前一帧表示为变换收集人类数据作者提出了一种自动化方法利用Aria 眼镜来收集以目标为条件的人类训练数据这些数据以图像、未来相机轨迹和二维目标的元组形式表示眼镜为所有采集到的数据提供精确的相机位姿、静态点云和视线估计—————作者通过在未来视线向量方向上在静态点云中找到最近的点并通过当前的相机位姿将其投影到图像平面上来近似当前目标领域偏移然而仅在有限的人类数据上训练得到的导航模型在两个需要解决的潜在领域偏移方面表现不佳首先为了提升在未见场景中的泛化能力作者引入大规模第一视角数据集 Aria Digital Twin (ADT) [40]该数据集包含 400 分钟的室内活动如打扫和烹饪。得益于作者的自动数据筛选管线可以将任意 AriaGlasses 数据轻松转换为目标条件导航训练数据其次由于机器人与普通成年人的具身差异在视觉感知上存在显著差距。为了将 Aria Glasses 的宽广鱼眼视野与机器人的较窄相机视野对齐作者对人类数据施加去畸变和单应性变换以生成从人类数据中得到的机器人的虚拟视角(图 3 左)细节见附录除了视觉差异之外人和机器人在运动速度上也不同。根据经验作者发现机器人移动速度大约比人类慢 7 倍因此在训练过程中我们相应地对机器人视频进行下采样此外作者还通过控制机器人执行导航任务并使用动捕mocap系统记录其头部位姿从而收集少量机器人数据并使用人类数据和机器人数据共同训练导航模块// 25年12.26白天继续更
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

做网络课堂的平台有哪些网站温州网站制作哪家好

2025 网络安全就业指南:从零基础到年薪 50W 的突围路径 一、行业现状:为什么网络安全成了 “最抗冻” 的赛道? 当传统互联网岗位陷入 “内卷”,网络安全却逆势成为就业市场的 “香饽饽”。工信部最新数据显示,2024 年…

张小明 2026/1/7 22:51:54 网站建设

百事可乐网站建设优缺点个人简介ppt模板

FaceFusion在智能零售试衣镜中的趣味互动设计在大型商场的服装门店里,你是否曾见过这样一幕:一位顾客站在一面“镜子”前,轻轻一点屏幕,瞬间戴上墨镜、换上礼帽,甚至将脸“贴”到T台模特身上试穿高定裙装?她…

张小明 2026/1/7 22:51:53 网站建设

做美图 网站有哪些东西吗网站建设需多少钱

第一章:Open-AutoGLM 电池功耗控制算法概述Open-AutoGLM 是一种面向移动设备与边缘计算平台的智能电池功耗调控框架,结合动态电压频率调节(DVFS)、任务调度优化与机器学习预测模型,实现对系统能耗的精细化管理。该算法…

张小明 2026/1/7 22:51:55 网站建设

福田网站建设信科网络山西省建设信息网站

第一章:Open-AutoGLM 任务成功率错误恢复对比在评估 Open-AutoGLM 框架的稳定性与智能决策能力时,任务成功率及其错误恢复机制成为关键指标。该框架通过动态上下文感知和多轮推理优化,在复杂任务执行中展现出较强的容错能力。错误类型与恢复策…

张小明 2026/1/9 12:39:29 网站建设

搭建网站需要多少钱塘厦东莞网站建设

只需1分钟语音数据!GPT-SoVITS带你快速入门语音克隆 你有没有想过,只需要录一段不到一分钟的语音,就能让AI“学会”你的声音?不是简单的变声器,而是真正复刻你说话时的音色、语调甚至呼吸节奏——就像另一个你在朗读别…

张小明 2026/1/8 23:22:26 网站建设

iis7 网站防盗链企业网站排行榜

第一章:Open-AutoGLM日志分析工具概述 Open-AutoGLM 是一款面向现代分布式系统的智能化日志分析工具,专为处理大规模、多源异构的日志数据而设计。它结合了自然语言处理与自动化机器学习技术,能够对系统日志进行实时解析、异常检测与根因分析…

张小明 2026/1/9 1:26:46 网站建设