
新智慧报告编辑:LRST 【新智慧介绍】具身智能的“chatgpt时刻”尚未到来,但机器人的“幻觉”已先行?在需要数十个步骤的长序列任务中,现有的 VLA 模型经常“假装工作”并错误地认为任务已经完成。针对这一痛点,北大团队提出了自进化VLA框架evovla。该模型利用Gemini生成“困难负例”进行对比学习,并与几何探索和长期记忆配合,将复杂基准discoverse-L任务的成功率提高了10.2%,并将幻觉率从38.5%显着降低至14.8%。实体人工智能正处于爆发的前夜。从Google的RT-X到开放社区OpenVLA资源,通才机器人规则已经展现了惊人的零样本泛化能力。然而,当我们将注意力从简单的“抓取和放置”转向长远视野时对于需要数十步的操作任务,现有的 VLA 模型显示出一个令人尴尬的致命弱点:它们学会“作弊”。在长序列任务中,VLA 模型经常会遇到一种称为“护理阶段”的现象。简而言之,机器人认为它已经完成,尽管它显然没有完成。 ” 例如,在搭建积木桥时,只要机器人手臂靠近目标,即使是滑块,也没有对齐,或者根本没有夹紧,基于视觉语言模型(VLM)的评估系统往往会因为视觉相似性而给出很高的预测分数(“看起来像是在跑”)。“高分但能量低”的现象导致机器人自信地跳过当前步骤,进入下一阶段,最终导致整个任务崩溃。只写了一个“解释:”二字,就认为自己已经完成了整个大题。针对这个痛点,来自北京大学的研究团队(第一作者)或:刘泽廷、杨子达,导师:唐浩、张泽宇)提出了一种新的有监督VLA框架Evovla。论文链接:https://arxiv.org/abs/2511.16166v1 项目主页:https://aigeeksgroup.github.io/evovla 代码库:https://github.com/aigeeksgroup/evovla evovla 不仅在仿真中表现出色,而且更成功地违反了 pSim2real 会调解,平均成功率为 54.6%,超越 OpenVLA-Oft。 11.0 个百分点。 Evovla框架概述及核心任务演示(Block Bridge、Stack、Cup Stacking) 该项目由北大资助,北京大学唐浩课题组完成,第一作者为刘泽廷、杨子达、张泽宇。 Evovla:AI教会AI让模型在“内省”中进化。为了解决机器人的“白日梦”,EVOVLA引入了三个主要模块,它们基于OpenVLA-Oft架构协同工作,实现封闭式自供电学习环路(SSRL)。舞台对齐奖励(SAR):这位老师《错题集》是Evovla解决幻觉问题的王牌。传统的奖励函数往往是稀疏的(只有成功/失败),或者像素变化幼稚(容易受到背景干扰)。 Evovla 创造性地通过数据引擎设计,利用强大的 Gemini 2.5 Pro 对演示视频进行语义理解和分段,生成包含 70 多集的详细描述。更神奇的是,为了防止模型“走捷径”,团队引入了三元组比较研究,即“硬负样本”的构建。正样本(positive),对任务完成情况的准确描述(如“夹子闭合,块被紧紧夹住”)。负样本(阴性),明确失效状态。硬负面:这是关键!描述“几乎成功”的状态(例如,“夹具靠近目标但没有接触”,或“抓住了错误的物体”)。 EVOVLA 数据引擎展示了 Gem 如何ini 生成文本的正面、负面和强烈负面描述。就这样,双子座变成了“严厉的老师”,专门为VLA模型制造了如此令人困惑的“陷阱题”。该模型被迫学习区分“真正完成”和“似乎完成”,从而获得密集的、语义一致的内在奖励信号。基于姿势的对象探索 (POE):告别像素干扰。机器人不仅能判断错误,而且具有探索未知的好奇心。对内在好奇心的传统奖励通常基于像素预测误差 - 即“如果我看到的与我预测的不同,我会很高兴”。然而,在复杂的机器人场景中,阴影的移动、光照的变化甚至背景噪声都会带来错误的预测错误,导致机器人像好奇的幼儿一样探索无意义的视觉噪声。 Evovla提出POE(基于姿势的物体探索)并训练了一个没有更长地预测图像像素,但预测相对的几何姿势(夹具对象姿势)。这意味着机器人的好奇心任务是探索“如何改变物体和抓手的相对位置”(比如如何旋转、如何接近),而不是“改变图像的像素多少”。这使得探索过程非常高效,专注于操纵任务本身的几何形状。长视界记忆机制)面对几十个操作步骤,机器人可以轻松“吃了芝麻,丢了西瓜”。简单的平均或截断历史信息可能会导致遗忘。 EVOVLA不仅压缩历史,而且使用基于注意力的上下文选择机制(context Selection)。它从历史数据库中检索最高的 Kost 相关代币,并通过门控机制将它们与当前状态和奖励集成。就像当人们执行复杂任务时,他们只记得主要步骤对于当前的决策很有用(例如“我得到了 A 部分”),而不是详细重播整个生活视频。 Discover-l:长期运营的新基准。为了证明长期能力,团队不满足于简单的现有任务,而是提出了Discoverse-L基准测试,其中包含三个不断增加的任务: 1. Stack(堆叠):18个阶段,不仅是高度堆叠,还要精确对齐。 2.枣杯:19个关卡,涉及多物体交互。 3. 堵桥:74个阶段!必须安装两个桥墩并填充中间的桥墩,这严重考验了长期规划和稳定性。实验结果:在模拟环境和真机上都进行了SOTA级别的提升实验,结果令人兴奋。模拟碾压了discoverse-L基准测试,Evovla击败了许多强大的基准测试,包括Octo和OpenVLA。成功率:平均达到69.2%(比59.0%高出10.2个百分点)最强的基准测试 openVLA-Oft)。示例效率:达到 50% 成功率所需的训练步骤数减少了 1.5 倍。消除幻觉:生存率(HR)从38.5%显着降低至14.8%。与 OpenVLA 等基线相比,EVOVLA 在三项任务中的成功率有所提高。 Sim2real 真机泛化对airbot-play 机器人的扩展更令人印象深刻。 EVOVLA展示了Sim2real很强的泛化能力。尤其是在前所未有的“堆叠与插入”任务中,通过少量的实机微调,EVOVLA取得了55.2%的成功率,比OpenVLA-Oft高出13.4%,甚至比最新架构高出16.9%。机器人实际运行块桥或堆栈过程的定性分析表明,基线模型通常在与块接触之前先打开其抓手(导致幻觉),而 Evovla 可以准确地等到接触gna操作前,它的动作非常稳定,仿佛它“听懂”了工作。结论 EVOVLA 的出现为长期任务中的 VLA 模型可靠性问题提供了一个优雅的解决方案。这证明:更好的奖励设计(SAR)+更重要的探索机制(pOe)+更智能的记忆(memory)可以让大型模型进一步深入体现智能领域。使用大型语言模型(Gemini)生成“错误问题集”来逆转策略学习的“自我进化”范式可能是通用机器人迈向自主学习的重要一步。作者信息 刘泽廷是青岛大学自动化学院控制工程专业硕士研究生,师从新加坡工程院院士葛树智院士。研究方向集中在体现智能、RL4VLA 和 VLA 设备模型。参与多项科研项目,并重点研究开发通用机器人操作的基本模型。杨子达,北京大学光华管理学院管理科学与信息系统系博士研究生,致力于推进“可解释的跨模态与具身智能”的前沿研究。研究方向聚焦于具身智能、RL4VLA、3D导航、结构化推理和VLA模型的多模态认知计算,重点开发兼具高水平语义理解和低水平控制能力的通用智能体框架。研究成果应用于真实的四足机器人和多模态情感分析系统。我们期待与同行一起探索下一代智能代理的认知架构和工程技能。张泽宇是一名本科生研究员,师从 Richard Hartley 教授和 Ian Reid 教授。他的研究兴趣植根于计算机视觉领域,专注于探索几何生成建模和尖端基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿发展。唐浩,现任北京大学计算机学院助理教授/研究员、博士生导师、文科、无名青年学者,入选国家留学人员海外高层次人才计划。获得国家优秀自费留学生奖学金,连续三年入选斯坦福大学全球前2%科学家。曾在美国卡内基梅隆大学、苏黎世联邦理工学院、英国牛津大学、意大利特伦托大学工作和学习。长期从事人工智能领域研究智慧。在国际领先期刊和会议上发表论文100余篇,相关成果被引用超过12000次。曾获得ACM多媒体最佳论文提名奖,现任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025的Field Chair以及多个人工智能会议和期刊的审稿人。更多信息参见个人主页:https://ha0tang.github.io/references: [1] Liu Z,Yang Z,Zhang Z,et al. Evovla:模型新兴视觉-语言视觉[j]。 arxiv 预印本 arxiv:2511.16166,2025。 [2] Kim, M. J. 等人。 “Openvla:开源视觉-语言-动作模型”。 Corl,2025秒关注ASI⭐点赞、转发、一键观看⭐点亮星星,锁定新智元快推!
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务塞斯。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。