盗版小说网站怎么赚钱个人怎么注册小型公司-宁德市网站建设公司-Seo优化

盗版小说网站怎么赚钱,个人怎么注册小型公司,网络维护人员必备技能,杭州微信建站序号属性值1论文名称DeeR-VLA2发表时间/位置2024-NeruIPS3Codehttps://github.com/yueyang130/DeeR-VLA4创新点 1#xff1a;论文最大的立足点是一个数据驱动的观察——在机器人执行长程任务时#xff0c;绝大多数步骤#xff08;70-80%#xff09;都是简单的机械移动论文最大的立足点是一个数据驱动的观察——在机器人执行长程任务时绝大多数步骤70-80%都是简单的机械移动只有极少数时刻需要深度的语义理解和规划。打破了传统 MLLM “无论难易必须跑完所有层”的僵化模式提出了按需分配算力的思想。2多出口机器人 MLLM1.Multi-exit MLLM基于 Flamingo 架构视觉语言交叉注意力将其改造为分段式结构。在网络的浅层、中层、深层设置多个“出口”允许数据流提前终止。2.特征压缩机制在每个出口处使用Max-Pooling将复杂的 Token 序列压缩为紧凑的特征向量降低后续处理的负担。3.时序动作头 (Temporal Action Head)不同于传统的图像分类 Early-exit机器人控制需要历史记忆。作者在每个出口后挂载了LSTM而非简单的 MLP确保即使在浅层退出模型也能结合历史观测POMDP做出连贯动作。3推理机制创新解决回归问题动作预测无法使用置信度Confidence痛点的关键设计。1.基于“动作一致性”的终止准则 (Consistency-based Termination)放弃了 SoftMax 概率因为输出是坐标改用“前后两层预测是否一致”作为判断标准。如果第 i层算出的动作和第 i−1层几乎一样说明模型已经“想清楚了”不需要再算第 i1 层了。2.受限条件下的自适应优化(Constraints-based Optimization)允许用户设定硬指标如显存 2GB延迟 50ms。提出了一套算法离线数据集估算或在线贝叶斯优化自动计算出每层的最佳阈值 η在满足硬件限制的前提下最大化成功率。4解决动态网络在训练和推理时行为不一致Discrepancy的问题。1.随机采样策略 (Random Sampling Strategy)训练时不是固定走某一层而是随机让 LSTM 接收来自第 2 层、第 10 层或第 24 层的特征。强迫 LSTM 学会“吃粗粮”无论上游传来的特征是深是浅都能稳健地预测动作。2.辅助损失监督 (Auxiliary Losses)在每个出口都安插“监考老师”辅助 Loss。倒逼 LLM 的浅层网络如前 6 层必须具备独立的语义理解能力不能总想着依赖后半段网络。5引用量通过“动作一致性”判断任务难易简单的用浅层网络解决难的用深层网络解决并配合随机采样训练保证了动作的连贯性。一提出问题机器人拥有像 GPT-4V 这样强大的大脑MLLM能看懂图像、听懂复杂指令然后去干活。这种大模型参数量几十亿甚至上百亿推理一次需要巨大的算力和显存。然后机器人的机载系统往往算力有限跑不动这么大的模型。作者发现在控制机器人完成各种任务的过程中相对简单的情况占了绝大多数而这些情况通常只需要较小的模型即可获得正确的机器人动作。机器人干活时不是每时每刻都需要“全神贯注”地进行深层推理。**比如刚听到指令“去把那个红色的杯子拿给我”这时候机器人需要用“大模型”的深层能力去理解语义、识别物体、规划路径。一旦开始移动手去抓杯子中间的几十帧动作可能只是简单的“手继续往前伸一点”。这种时候其实只需要模型的一小部分浅层网络就能算出正确动作。简单的时候用小脑就够了男的时候才用大脑。作者提出的 DeeRDynamic Early-Exit动态提前退出就是为了实现上述的动态调整。多出口架构 (Multi-exit Architecture)传统的深度神经网络像是一个单行道必须从第 1 层走到第 100 层才能输出结果。DeeR 把网络改造成了有多个“出口”的大楼。如果数据流到第 10 层模型觉得“我很确信我知道下一步该干嘛了”它就直接从第 10 层的出口输出结果不再跑后面 90 层了。动态调整 (Dynamic Inference)模型会根据当前的输入情况Situation自动判断是该在第几层“下车”。简单的动作 - 提前退出 - 省算力、省时间。复杂的决策 - 跑完全程 - 保证准确率。其次还做了两个重要的工程优化工作1.首先条件下的终止准则Constraints-based Termination机器人系统通常有硬指标。比如电池只能撑 1 小时功耗限制或者控制频率必须达到 20Hz延迟限制。DeeR 设计了算法可以根据设定的功耗、延迟或显存上限自动调整“提前退出”的阈值在性能和效率之间找平衡。2.融合时序信息 (Temporal Information)机器人的动作是连续的上一秒的手在哪影响下一秒的动作。对于“提前退出”的浅层网络来说它可能理解上下文的能力较弱。作者专门设计了训练方法确保即使是从浅层网络“提前退出”模型也能利用历史时序信息做出合理的动作预测。整合时序信息的重要性机器人控制不同于看图说话。看图说话是静态的但机器人控制需要知道“过去几秒发生了什么”。但是整合时序信息是有难度的例如如果你从第 4 层就退出了Early-exit你可能还没来得及处理完长期的历史记忆。对此作者专门设计了训练方法保证即使是从浅层网络退出模型也能“记住”之前的动作序列。二解决方案1.面向机器人 MLLM 的动态提前退出Dynamic Early-Exit for Robotic MLLM如上表所示在控制机器人完成各种任务的过程中相对“简单”的情况占了绝大多数而这些情况通常只需要小得多的模型即可获得正确的机器人动作。受此现象启发作者提出了面向机器人 MLLM 的动态提前退出框架旨在通过针对每种情况动态采用适当大小的 MLLM 来提高机器人 MLLM 系统的计算效率。1.1基础架构基于 Flamingo一种非常经典的视觉语言模型架构。Vision Encoder包含一个Vision Transformer和一个Pereceiver Reasampler(视觉token的压缩器用可学习的latent token通过交叉注意力吸收VIT的信息输出固定数量密集的视觉token。用于将高维可变长度视觉表示压缩为固定长度潜在表示的跨注意力重采样模块。)把摄像头看到的图片变成计算机能懂的一串代码Visual Tokens。LLM大脑这里有一个很关键的设计Interleaved交错架构。普通的 LLM 只有文本层蓝色层。Flamingo 在普通的文本层之间插入了新的交叉注意力层Cross-attention黄色层。文本层负责理解语言指令交叉注意力层负责“看”刚才 Vision Encoder 传过来的图片信息。这种“夹心饼干”结构意味着视觉信息是一层一层逐渐融合进去的。这也为“提前退出”提供了理论基础也许融合到第 4 层机器人就已经看懂图了不需要融合到第 12 层。1.2 多出口设计分组Grouping假设 LLM 有 24 层。作者可能把它分成 4 组每 6 层一组。Exit 1: 第 6 层输出。Exit 2: 第 12 层输出。...Max-Pooling最大池化这是一个信息压缩的步骤。LLM 输出的是一长串 Token比如“把红苹果拿给我”对应的几十个向量。直接把这么多数据扔给控制手臂的电机控制器太重了。Max-Pooling 把这几十个向量“浓缩”成一个最强的信号向量Compact Representation。这就像把一篇 1000 字的文章缩写成一句 10 个字的核心摘要。1.3 有了浓缩的特征摘要后怎么让机器人动起来值得注意的是鉴于决策环境通常被描述为部分可观测马尔可夫决策过程POMDP最优决策不仅依赖于当前的观测 ot还依赖于历史观测。因此作者采用一个序列模型作为动作头 πθ来聚合历史窗口大小 H内的信息。在不失一般性的情况下本文以一个轻量级的LSTM[64] 为例。那么作者为什么用 LSTM1.LLM 擅长理解语义“这是苹果那是桌子”但它不擅长理解物理运动的连贯性速度、加速度、惯性。机器人是连续运动的这一秒的手臂位置和上一秒紧密相关。2.LSTM长短期记忆网络是一种处理时间序列的经典小模型。它能记住“上一秒我在哪、速度是多少”结合 LLM 传过来的“当前要干嘛”计算出“下一秒该去哪”。POMDP即状态不可完全观测agent通过观测a来推断隐含状态。文中提到的这个术语意思是机器人透过摄像头看世界是不完整的比如手挡住了杯子所以它必须依靠记忆历史信息来脑补被遮挡的部分。LSTM 负责这部分“短期记忆”。总的来说完整流程是输入图片指令“抓住杯子”。第一阶段图片过 Vision Encoder指令进入 LLM。动态推理LLM 跑到第 1 个出口Exit 1。判断器Criterion“现在的特征够清晰了吗能决定动作了吗”情况 A简单比如手就在杯子边上特征很清晰。判断器说“够了”。-提前退出- 特征传给 LSTM - 输出动作。情况 B困难比如杯子被挡住了或者指令很模糊。判断器说“不行没看懂”。-继续跑- 跑到 Exit 2 - 再判断... 直到最后一个出口。1.2 自适应推理这里主要解决的问题就是怎么设置终止准则先前的方案基于分类问题比如识别图片是不是猫。如果模型在第 4 层说“99% 是猫”那就可以停了。这是基于置信度。现在的新问题是针对回归问题机器人预测手臂移动坐标 (x,y,z)。模型只会输出具体的数字不会输出“我有 99% 的把握是这个坐标”。所以没法用置信度。对此DeeR采用一致性的思想如果来自两个不同大小 MLLM 的动作预测保持一致这表明计算模型可能已经达到饱和进一步的处理不太可能产生任何改进。这就好比你在做数学题。你先做了一遍用浅层网络相当于心算得出一个结果。你再稍微认真一点做一遍多加几层网络又得出一个结果。如果两次结果几乎一样说明这道题很简单你的心算就是对的不用再动用微积分深层网络去算了。1.2.1 Budgeted task execution.作者定义了三个必须遵守的限制平均 FLOPs (B)对应功耗/电池续航。允许偶尔算得慢一点但总的来说不能太费电。峰值 FLOPs (G)对应延迟/实时性。无论任务多难每一帧的处理时间不能超过某个极限比如 0.1秒否则机器人会卡顿。显存 Mem (M)对应硬件门槛。比如显卡只有 2GB 显存。这直接决定了你最多能跑到第几层n。如果第 10 层需要 4GB那 n只能设为 5假设第 5 层只用 2GB。1.2.2 怎么找到那把尺子呢我们要找一组阈值 η{η1,η2,...}。如果 η设得太大 - 大家都容易满足一致性 - 大家都提前退出 - 速度快但精度差。如果 η设得太小 - 大家都不容易满足 - 都要跑完全程 - 精度高但速度慢。作者给了两个方案来找这个最佳平衡点1使用演示数据集求解问题离线算命Offline with Dataset--没有真机假设一个数学分布几何分布/指数衰减即假设 50% 的样本在第一层退出25% 在第二层12.5% 在第三层...根据你的预算 B算出这个比例具体是多少。去数据集里翻看看 η 设为多少时正好有 50% 的样本满足一致性条件。优点是快不需要机器人动。缺点假设的分布可能不准。2使用在线交互求解在线试错Online with Bayesian Optimization--你有真机或者仿真环境可以随便跑。效果最好量身定做。用贝叶斯优化一种聪明的试错算法。先猜一组 η跑几次任务。如果有一次超时了违反预算罚分如果成功率高得分算法会自动调整下一组 η直到找到“既不超时成功率又最高”的那组参数。DeeR 的灵活性。它不是训练完就定死了。通过调整 η你可以把同一个模型瞬间变成“省电模式”阈值大退出早或者“高性能模式”阈值小退出晚。2.训练方法网络架构的动态调整导致了训练和推理之间的差异。在推理过程中在每个时间步使用一个确定性标准*来选择合适的中间特征。然而在训练过程中缺乏明确的终止标准并且不知道特征在各个出口的分布情况。为了使模型能够学习有效地整合*时序信息提出了如下定制训练算法。推理时Inference机器人可能第一秒觉得简单用了第 3 层特征第二秒觉得难用了第 12 层特征。输入给 LSTM 的特征流是深浅不一、忽大忽小的。训练时Training如果我们只用固定的第 24 层训练LSTM 就会“娇生惯养”一旦推理时扔给它一个第 3 层的特征它就看不懂了。对策随机采样 (s1)。在训练的时候故意“折磨”LSTM。第一帧给它第 2 层特征第二帧给第 10 层第三帧给第 5 层……强迫 LSTM 学会鲁棒性Robustness。无论上游传来的是精细的深层特征还是粗糙的浅层特征LSTM 都要能利用历史记忆把动作接上。这被称为“Winding”蜿蜒路径训练。2.1 辅助损失LLM 的中间层比如第 6 层原本的设计目的是“传球给第 7 层”而不是“射门输出结果”。所以第 6 层的信息可能很含糊还没准备好做决定。对策在第 6 层旁边强行安插一个“教官”辅助动作头。教官要求“第 6 层你现在就给我预测一下动作”如果预测不准就通过 Laux惩罚模型。这会倒逼 LLM 的前 6 层更加努力。它必须在第 6 层就把图像看明白、把指令理解清楚。就像考试。原本只有期末考试最后输出。现在引入了“周考”辅助损失。如果你想在第 6 周第 6 层就放假提前退出你必须保证第 6 周的周考能及格。2.2 冻结与微调冻结 (Frozen)ViT视觉和原本的 LLM文本大脑。这两个部分参数量最大训练太费显存而且它们原本的通识能力已经很强了不需要大改。微调 (Fine-tuned)Cross-attention负责把视觉融入文本。这是 DeeR 的核心能力必须练。Action Heads (LSTM MLP)负责把特征变成动作。这是全新的任务必须从头练。这种 Parameter-Efficient Fine-Tuning (PEFT) 方法使得在有限的计算资源下训练这种巨大的机器人模型成为可能三实验作者设置了一个高难度CALVIN、多维度三种泛化设置、强对手RT-1, RoboFlamingo的竞技场并且明确了比赛规则不比谁的模型大只比谁在同样算力下干得好或者谁在干得一样好的情况下算力最省。四总结本文介绍了机器人 MLLM 动态提前退出 (DeeR)框架旨在根据机器人智能体遇到的每种情况的具体要求动态配置 MLLM 的大小。具体来说提出了一种具有多个中间出口的新型 MLLM 架构。此外基于动作一致性为 DeeR 建立了提前终止标准并通过数据集或在线交互来求解阈值。另外精心设计了一种定制的训练方法在该多出口框架内整合时序信息以增强机器人控制。广泛的机器人实验表明DeeR显著降低了 LLM 的计算成本和 GPU 显存使用量突显了其使更广泛的用户能够在资源受限的平台上管理其机器人的潜力。作者表明尽管研究显示了有希望的结果但它也存在一些局限性。我们专注于提高机器人执行的 LLM 效率因为 LLM 占据了大部分参数和 GFLOPs。然而视觉编码器Visual Encoder的计算成本也很显著。我们预计随着更高效、轻量级的视觉编码器的开发这一限制将得到缓解。此外我们的实验仅限于模拟基准测试。未来的工作将旨在提高现实环境中基于 MLLM 的整个机器人系统的推理效率。

盗版小说网站怎么赚钱个人怎么注册小型公司

杭州外贸网站建设公司价格网站负责人备案采集照

cms网站管理快手作品免费推广软件

做网站用买服务器码wordpress 主题简洁

外国网站接单做翻译备案网站名称怎么写

网站开发数据如何转化四川建设工程信息网官网

抚州市临川区建设局网站目前最好的免费网站

盗版小说网站怎么赚钱个人怎么注册小型公司

杭州外贸网站建设公司价格网站负责人备案采集照

cms网站管理快手作品免费推广软件

做网站用买服务器码wordpress 主题 简洁

外国网站接单做翻译备案网站名称怎么写

网站开发数据如何转化四川建设工程信息网官网

抚州市临川区建设局网站目前最好的免费网站

做网站用买服务器码wordpress 主题简洁