深圳好点的网站建设公司百度做广告多少钱-宁德市网站建设公司-Seo优化

深圳好点的网站建设公司,百度做广告多少钱,wordpress如何添加背景音乐,河南郑州旅游网站设计来源#xff1a;大数据文摘受权转载自智源社区采访#xff1a;李梦佳编辑#xff1a;陈然强化学习智能体在像素环境中可实现游戏高分刷新#xff0c;但关键线索隐匿时即陷入决策困境#xff1b;生成模型虽能生成光影逼真场景#xff0c;却无法解析 “积木倾塌” 背后的基…来源大数据文摘受权转载自智源社区采访李梦佳编辑陈然强化学习智能体在像素环境中可实现游戏高分刷新但关键线索隐匿时即陷入决策困境生成模型虽能生成光影逼真场景却无法解析 “积木倾塌” 背后的基础物理逻辑。人工智能对真实世界的认知受限于以 “理解” 为核心的 “世界模型” 门槛。如今任职于哈佛大学Kempner 研究所与计算机科学系的助理教授Yilun Du正是该领域的核心探索者之一。凭借 MIT 博士毕业的扎实理论基础他一直以来致力于通过生成式人工智能构建具备推理与规划能力的世界模型。他开创了用生成模型进行决策规划的新范式并提出基于可组合性和 “模型社会” 的下一代世界模型蓝图。OpenAI、FAIR、DeepMind 等诸多全球顶尖 AI 实验室都留下过他的研究足迹。这些经历让他对行业前沿动态有了多维度的深刻洞察。与此同时Yilun Du也始终坚持着能量基模型EBMs的研究方向为破解世界模型困境提供了关键思路。他早年聚焦能量景观学习提出通过建模数据能量分布捕捉事物本质。这一突破为 2020 年扩散模型迭代埋下伏笔也成了可组合生成建模的重要理论基石。他认为EBMs 能超越传统模型的浅层拟合挖掘底层能量逻辑与世界模型的需求高度契合。就像孩子靠积木凹凸拼接、堆叠平衡的基本逻辑能搭出城堡、桥梁等无数造型Yilun Du 认为复杂世界的运行也遵循着简洁深刻的底层规则。若能构建可灵活组合、动态适配这些规则的模型就能突破训练数据局限触达数据集中从未出现过的新场景。而打开世界模型的 “理解之门”还需跨越三座关键关卡当前模型缺乏因果性与物理规律、需支持良好规划和要能泛化到未见过的事物。这是模型从实验室走向真实场景的关键也是可组合建模的核心价值。关于如何突破这三重关卡他在与智源的对话中分享了诸多洞见从技术路径的探索方向到个人研究心得均有涉及其中便包括他独特的阅读经验—— “偏爱研读经典的 AI 老论文尤其是心理学、神经科学领域的相关文章”。以下是本期智源专访的完整内容。智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事记录技术世界的嬗变激发当代AI从业者的创新思维启迪认知、关注突破性进展为行业注入灵感光芒。本次专访为总第31期。简介Yilun Du哈佛大学肯普纳研究所与计算机科学学院助理教授、博士生导师。麻省理工学院电子工程与计算机科学系博士师从莱斯利·凯尔布林、托马斯·洛萨诺-佩雷斯和约书亚·特南鲍姆教授。曾任OpenAI研究员并在Meta FAIR与Google DeepMind从事研究。主要研究方向包括生成建模、具身智能、机器人学习与决策推理致力于通过生成式人工智能构建具备推理与规划能力的世界模型。相关研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次发表其在能量基模型和扩散模型方面的工作对生成式人工智能的发展具有重要影响。01学术起点高中起对生物充满热忱“对生物的兴趣是我的重要起点让我对如何创造智能产生浓厚兴趣”采访者在求学和工作过程中您认为有哪些关键经历对您的学术方向产生了影响Yilun Du第一个关键经历是从小便接触生物相关知识。那时我参加过生物奥林匹克竞赛由此对 “如何创造智能” 产生了浓厚兴趣所以高中阶段对生物的热忱成了我探索智能领域的重要起点。进入本科后我关注到 DeepMind 及其 AlphaGo 的相关成果。这些突破让我真切感受到 “创造人工智能” 这一方向的独特魅力也进一步加深了我对该领域的兴趣。本科第三年我在 OpenAI 度过了 9 个月期间主要围绕能量基模型和人工智能模型开展研究。这段经历同样意义非凡也正是从这时起我萌生了攻读博士、投身科研的想法。采访者您在OpenAI、FAIR还有DeepMind这些顶尖实验室都有过研究经历这些不同的环境在研究风格、问题选择以及目标上会有什么不同吗Yilun Du差异较大。2018年我在OpenAI时它才刚刚起步总共只有二十几个人。那时候80%的人在做强化学习20%的人在做各种深度生成模型比如语言模型或者我们当时在做的能量基模型和现在的OpenAI很不一样规模真的很小。不过那时候OpenAI的人们特别专注大家都非常相信自己所做的事情我觉得现在行业里最聪明的一批人都在那里每个人都很投入。而FAIR、DeepMind等公司规模则大得多每个公司都有好几百人甚至好几千人整体氛围会轻松一些和OpenAI的紧张专注不太一样而且大家对科研的关注点也有所不同。在人工智能领域OpenAI的研究方向和硅谷的关联更紧密大家特别想做出通用人工智能相关的成果。但DeepMind的研究更偏向科研性质有些人关注计算机科学有些人专注神经科学还有人研究人工智能在科学领域的应用研究方向更开放、没有那么局限。我几年前在FAIR的时候那里的研究氛围也比较开放当时我们在做FAIR Protein相关的研究类似ESM这种用语言模型研究蛋白质的方向整体也是比较开放的状态。采访者在这些过往经历中您觉得有没有对您影响特别大的人物或者相关的理论Yilun Du我在 OpenAI 期间经历了蛮大的转变。当初选择加入 OpenAI是因为看到他们开发出能玩《DOTA2》的智能体所以最开始我对智能体格外感兴趣。在 OpenAI 的日子里我每天都会和 Ilya Sutskever 交流他常跟我说自己不太相信通用强化学习却对通用模型格外认可尤其是能量基模型。也正因如此我从那时起开始投身能量基模型与通用模型的研究。那会儿行业里大家基本都在使用生成对抗网络且这类网络仅应用于图像领域同时智能体的研究正当火热几乎没人涉足生成模型相关方向所以我们当时做这个领域总觉得格外有意义。从那之后我便一直对能量基模型抱有浓厚兴趣。后来依托我们在能量基模型上的研究又延伸出扩散模型相关的工作 —— 由于扩散模型与能量基模型极为相似我们还将之前在能量基模型上的成果迁移到了扩散模型中。这段经历也让我最终确定了如今的研究方向。图注Ilya Sutskever图片图源CNN02EBM或将在推理领域有大突破“真正想学习的EBM是要让真实答案都是低能量其余答案都是高能量。”采访者请您分析一下基于能量基模型EBM和基于分数score的模型您认为它们有什么不一样的地方各自有什么优点、缺点呢Yilun Du其实可以说分数模型就是能量基模型的一种。传统意义上分数匹配是训练能量基模型的一种方法。但能量基模型本身有个特点当你学习到能量景观之后若想生成一张图像便可采用自适应测试时计算的方式 —— 你希望能量优化运行多久它便能运行多久。如此一来比如生成图像时你能通过运行多步朗之万动力学得到理想图像。这正是能量基模型的优势所在即可以通过控制采样时间提升生成结果的质量。而分数模型正是学习能量基模型的一种方式。像大家熟知的 Jaccard 相似系数早在 21 世纪初就有不少人探索这种方法。从这个角度来讲分数模型其实就是能量基模型的一种。注Jaccard相似系数主要用于计算符号度量或布尔值度量的个体间的相似度(一般用于解决非对称二元的相关性问题),无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。Jaccard系数等于样本集交集与样本集合四集的比值,可以用于计算两个集合的相似性,无论这些集合是文档、用户的兴趣爱好或任何其他类型的集合。采访者在未来两三年里EBM可能会最先在哪一个应用领域取得突破Yilun Du我觉得能量基模型在推理领域应该会有蛮大的突破。现在推理的一个核心问题是如何通过更多的测试时计算得到更优的答案。当下大家用链式思维做推理会发现很多推理任务其实颇具难度 —— 有些推理过程难以用语言清晰表述而且当链式思维的流程拉得很长时也很难明确它具体的运行逻辑。能量基模型有个鲜明特点就是能通过采样直接生成答案因此你可以通过多步优化逐步趋近并得到最终答案。我们最近有一篇论文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》正是将语言模型的可能性也视作一种能量再在其上通过采样开展推理。所以我认为用采样与迭代优化的思路来做推理是让模型能够依据可用时间灵活决定测试时计算量的好方式。图注《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》采访者目前最关心的研究方向是什么Yilun Du总的来说我现在对智能体的构建格外感兴趣。比如如何打造出色的机器人让它能完成各类家庭或工作任务又或者如何研发线上智能体帮人们处理发邮件、购物等事务 —— 核心就是探索智能体的构建方法。我感觉目前最大的问题在于现有系统在这方面的表现都不尽如人意。像语言模型智能体环境稍有变化便无法正常工作可靠性不足机器人也是如此一旦环境改变或接到新任务往往难以顺利运行。我认为问题的核心在于决策环节。世界本身存在无限可能我或许会给智能体设定从未见过的目标而这些目标并未包含在训练数据集中导致系统在新环境下无法给出理想答案。这便是泛化难题。通常训练神经网络时它会拟合给定的训练数据集但在决策任务中遇到未见过的目标就会超出数据集的覆盖范围。那该如何解决这个问题呢我认为必须让系统具备推理能力能够通过规划或搜索得出答案。具体该如何通过搜索与规划获取动作呢我们一直在开展能量基模型相关的研究也可以采用广度模型比如学习一个动力学模型。有了动力学模型再结合动作序列就能得到动作轨迹依据这些动作可计算出能量进而借助能量进行搜索。所以我觉得要做好决策离不开通过搜索或推理来获取答案。采访者在实际落地过程中EBM的稳定性和收敛性是否是现在的工程挑战之一目前有哪些解决思路Yilun Du有一个思路是扩散模型中的分数匹配其实就是 EBM 的一种训练方式因此可将扩散模型大致解释为 EBM。不过两者存在一点差别扩散模型通常只需运行几步从噪声起步依据时间积分即可得到答案。但若是将决策模型解释为 EBM采样过程便有所不同 —— 需在高噪声水平下运行多步以获取一个答案随后进入下一个时间步再运行多步。如此一来其实可以将未来模型转化为类似 EBM 的形态。我们最近有一篇论文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的把流匹配这类方法稍作修改便使其成为了真正的 EBM可见二者本质上十分接近。当然我们真正希望学习的 EBM需让真实答案均处于低能量状态其余答案则处于高能量状态。但通过分数匹配的方式学习能量景观时每个正确答案都会成为一个局部最小值能量在此处虽达到最低可这些能量值有高有低并非理想的 EBM 景观。因此若想真正学习到优质的 EBM 基线还必须借助对比学习 —— 需找到办法将所有正确答案的能量向下压制同时将其余答案的能量向上推升。这一过程颇具难度核心在于要设法构建出优质的负样本。图注Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers网站页面03世界模型如何泛化到前所未见的事物“世界上只有几个简单的规则构建一个组合模型就能泛化到其他”采访者目前世界模型方面要攻克的最关键问题是什么Yilun Du我觉得世界模型有几个关键问题。第一个大问题现在的世界模型不够有因果性也不够符合物理规律。比如让像Sora这样的模型去抓一个杯子杯子可能就浮起来了其实根本没抓上说明这些世界模型的物理准确性不足。第二个问题世界模型并不需要最准确的而是需要能支持良好规划的能力。比如我想规划去夏威夷旅游如果用现在的视频生成模型作为世界模型是做不到的因为让它模拟“打开网站、点击按钮订机票”这个过程每一步都模拟不出来。我觉得有些任务中世界模型不应该模拟每一张照片有时候需要模拟几张照片而有时候需要模拟更高层次的知识。所以世界知识必须是分层的不只是模拟下面几帧照片的方式。第三个大问题需要让这些模型能泛化到没见过的东西。比如YouTube上有各种视频像“抓杯子”的视频很多但“没抓好杯子把杯子摔坏”的视频很少。但如果真想把视频模型用在机器人上就必须让模型能准确模拟没见过的场景。所以怎么实现这种好的泛化能力是个很有意思的问题。我们一直在做组合结构相关的工作认为世界上其实只有几个简单的规则只要构建一个能把这些简单规则组合起来的模型就能泛化到没见过的场景。但泛化确实是个大问题现在大家展示世界模型时只放几个视频能展示几个好的案例但如果要真正用在机器人上不能只生成一两个视频而是要100%的时候都能生成好的动作规划所以泛化能力就非常重要了。采访者关于现有的那些世界模型它们的方法有哪些Yilun Du我感觉如今大家似乎把许多事物都称作世界模型。有人会说图像模型是世界模型也有人认为视频模型属于世界模型。在我看来不妨去翻阅传统 AI 的论文其中便有 “基于模型的智能” 这一概念。像逻辑专家系统这类传统 AI 系统都秉持着这样的思路先建立一个数据库或储备一些信息用以描述世界的演变规律再设计一个推理过程结合既定目标通过推理依据信息数据库与目标推导出最终答案。我认为这才是世界模型最通用的形态。采访者世界模型应该要记住世界的哪些关键信息它又是怎么筛选那些信息的Yilun Du这是个有意思的问题其实我们不太清楚到底要记哪些信息。一方面大型语言模型记了很多信息尤其是高层级信息比如想订机票去开会它知道每一步该怎么操作所以语言模型有特别多的高层级信息。另一方面视频模型则有更多低层级的物理信息比如想系鞋带视频模型可以告诉我具体怎么做。再比如动作模型、触觉模型或者音频模型它们又各自包含各种其他信息。所以我的感觉是我们也不太清楚到底需要多少信息但应该把现在这些模型都当作不同的信息源。比如我们有了这些源信息再把机器人放在真实世界中让它在真实世界里学习剩下未知的信息。怎么筛选到有用的信息这也特别重要。因为信息量大的话很难找到正确的答案或信息来完成想做的事。不过现在的语言模型其实有一个非常高效的获取信息的方式 —— 传统的数据库信息量大但查到正确答案很费劲而语言模型只要你问它问题就能给出一个答案。这个答案可能不准确所以需要多花点时间计算 / 推理来得到正确答案但至少答案应该是比较接近准确的。所以我觉得可以用现在的生成模型作为帮助找到有用信息的方式。你可以想象我有一个语言模型、一个视频模型、一个动作模型根据我需要的信息直接查询这些模型就能得到大概需要的信息了。图注Yilun Du 参加神经人工智能前沿研讨会讨论“学习世界组合模型”采访者关于具身智能领域宏观趋势下未来10年可能推动具身智能进步的核心驱动力会是什么Yilun Du我认为当前存在几个关键问题亟待解决。第一个尤为突出的问题是记忆缺失。如今我们研发的系统比如依据单张照片执行策略的模型普遍缺乏记忆能力。正因为没有记忆举个例子若要寻找某件物品它可能打开柜子后又关上过不了多久就因毫无记忆再次打开同一个柜子。这便是当下模型普遍面临的记忆短板。更关键的是即便在策略中融入记忆模块实际效果也不尽如人意 —— 这些策略往往无法真正理解记忆的价值与用途。第二个核心问题是持续学习的实现。现在的模型大多依赖庞大的数据集完成训练训练结束后进入真实世界便不再具备学习能力。但人类截然不同比如接触一款新工具、学习一项新任务都能快速掌握。因此让系统拥有快速学习新事物的能力同样是重中之重。第三个问题我认为也至关重要那就是搜索与推理能力的欠缺。如今的语言模型浏览过的文本数量远超任何人积累的知识也极为庞大却鲜少有真正的创造力。比如多数数学定理之类的内容语言模型在预训练阶段早已接触从这个角度看这些模型更像是信息检索工具 —— 即便存储了海量数据也无法在此基础上展开推理。而人类获取这些数据后能以全新的方式将其组合进而得出新的见解、找到新的解决方案。在我看来当前的神经网络系统更偏向模式识别工具仅学会了极为简单的计算逻辑并未掌握真正通用、可泛化的能力。若想研发更先进的人工智能必须打造更多具备高层级推理能力的系统。具体该如何实现我认为搜索与规划能力必不可少我们所研究的能量基模型正是实现高层级推理的路径之一这也是第三点需要突破的核心方向。采访者您现在所倡导的基于可组合能量图谱的具身智能路线和目前比较火的VLA模型路线最大的分歧点在哪里Yilun Du在我看来VLA 的逻辑对我而言并不合理。VLA 的核心是将图像、文本与动作进行映射但实际上传统机器人决策存在两种经典路径一是学习策略二是学习模型。在处理机器人相关问题时传统方法往往更倾向于学习模型。以控制机器人抓取物体为例一种简单的思路是记录每一步所需动作之后通过回放完成任务这属于无模型的方式。而基于模型的方式则是先学习机器人的运动学模型掌握物体的 3D 姿态再依据这些信息计算出抓取方案。这两种方式中前者显然更简便只需记录动作即可但后者的泛化能力要强得多 —— 即便将苹果放到新的位置依然能通过类似的计算完成抓取。我认为这正是二者的核心差异。如今的 VLA本质上更接近记录动作的思路依靠海量数据训练模型在数据中产生过拟合最终只能根据见过的图像预测动作。因此 VLA 的泛化能力极差只要遇到不同的物体或是接收到不同的语言指令便无法正常工作。比如面前放着苹果时让它去抓橘子它仍会沿用抓取苹果的方式 —— 因为模型并未掌握高层级推理能力只是机械记住了见过的演示过程。而我们的研究方向是学习世界模型或能量基模型再在此基础上展开推理更贴近传统机器人采用的基于模型的方式先学习世界模型再确立作为目标函数的能量函数最后通过运行搜索与规划得出动作。我们相信这种方式才能真正解决未见过的问题而非仅能应对已 “死记硬背” 的场景这便是我们研究的核心方向。04品读经典六十年代的神经学探索“我偏爱研读经典的 AI 老论文以及心理学、神经科学领域的相关文章。”采访者如今很多研究方向呈现同质化如何看待当前卷帙浩繁的论文Yilun Du我不太喜欢也很少去读如今大家频繁发在网上的那些论文。在我看来要是天天沉浸在这些热门论文里自己做的研究很容易就会和众人趋同 —— 毕竟大家关注的都是同一批热点文章。所以我更偏爱读一些经典论文。比如今年我在讲授一门课程时便带着学生从 1950 年开始研读各类七八十年代甚至五六十年代的人工智能文章。品读这些经典老文你会发现如今大家钻研的许多内容其实前人早已探索过但同时也能清晰看到不同研究方法的优劣所在。在我看来读老论文是个很有价值的方式。此外我还很喜欢读心理学或神经科学领域的文章毕竟人类本身就是一个极具代表性的智能范例。你可以观察人类如何学习知识再由此思考怎样让人工智能实现人类具备的能力。只要你稍微翻开几本神经科学的书籍就会发现其中有大量研究围绕记忆构建、持续学习、模型控制展开这些都是由来已久的传统研究方向。借助这些内容你能清楚意识到当前人工智能的能力与人类智能之间的差距进而发掘出许多值得深入探索的研究问题。采访者神经科学领域有没有什么让您有很大启发的ideaYilun Du从神经科学中学到的一些观点给了我不少启发。其中有一点格外有意思人脑并非一个单一的庞大模型而是由各类功能模块构成的复杂系统。比如大脑中有负责语言表达的区域、负责听觉感知的区域也有负责动作控制的区域。即便有人大脑的某一区域出现问题他依然能够正常思考、正常聆听只是无法顺利说话而已。由此可见人脑是一个高度模块化的系统各个模块各司其职又协同配合最终共同支撑起完整的智能。我们目前开展的许多研究正是在探索如何将各类模型整合起来构建出更具智能的整体系统 —— 这一思路大概就是从神经科学的研究中得到的启发。采访者有哪些看起来有些“过时”的经典论文推荐研读Yilun Du有许多极具价值的经典论文。比如 Marvin Minsky 撰写的《Steps Towards Artificial Intelligence》若你细细品读便会发现如今学界研究的几乎每一个方向文中都曾提及 —— 他不仅探讨了神经网络的学习方法还阐述了强化学习、搜索规划的实现路径以及记忆机制的构建思路。再如 John McCarthy 的《Programs with Common Sense》文中详细论述了智能系统所需的核心要素以及如何借助逻辑实现这些功能。此外Marvin Minsky 还有一本著作《The Society of Mind》专门讲解如何通过去中心化的 AI 智能体或去中心化的 AI 组件搭建起一个完整的智能系统。我觉得这些内容都格外有意思。实际上这类稍早的经典文献并不难寻稍加检索就能找到。但当你真正读进去就会发现现在我们探索的各种想法前人早已埋下过思想的种子。图注《The Society of Mind》阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

深圳好点的网站建设公司百度做广告多少钱

做网站都有什么功能物业管理

建设部招标网站孟坤WordPress博客主题模板

天津网站开发平台ssl aws wordpress

如果自己想建设网站该怎么做平面设计优秀作品

网站栏目怎么做wordpress调用代码

网站的术语制作个人网站论文