机器人驾驶可口可乐和玩扑克有多难?说说好手
发布时间:2025-12-18 10:20
文字|硅谷101 2026年,人形机器人将开始大规模生产的第一年。最清晰的信号来自特斯拉。 “黄金擎天柱”Optimus Gen 3预计将于2026年第一季度发布,并计划在年底前建成产能高达100万台的生产线。马斯克多次表示,特斯拉未来80%左右的价值将来自于它,而不是汽车。 “擎天柱”的关键在于它的“双手和双臂”。灵巧手在驱动方案上可分为三大路径,每一组都有各自的代表:【连杆方案】充分展现机械设计之美,但通常意味着自由度较低,但也有以韩国ILDA为代表的高自由度灵巧手。 【绳索驱动方案】bendsahe重量轻、自由度高、动力输出稳定。 Tesla 的 Optimus 和 TetherIA 在 101 Alignment Technol 上的巧手硅谷开一罐可乐的ogy会议,都是绳索驱动解决方案中“单向拉绳”的代表参与者; “双向拉绳”的代表有“影子机器人”和被誉为“灵巧之手皇冠上的明珠”的ORCA Hand。但此类方案也面临走线延伸、材料蠕变、组装难度高等问题。 【直接驱动方案】具有控制方便、精细的优点。在行业展会上,Sharpa机器人以其一双直接电机驱动的灵巧双手让所有人眼花缭乱。它一张一张地面向扑克牌,用相机按下了快门。缺点是抗冲击性和马比格特重量较差。本期《硅谷101》,鸿钧邀请了两位智能手模型算法和硬件方面的专家——前亚马逊Meta机器人研究科学家齐浩志和TetherIA联合创始人陶一伟,共同探讨智能手模型的现状。手,不同技术路线的特点,以及它在数据方面面临的挑战。参观者认为,对于智手公司来说,在短时间内成功制作一个任务的演示并不困难。真正的成功在于多功能性和可扩展性。当算法让机器人在短时间内学会打开可乐、打开门、拧紧螺丝等各种灵巧操作时,就意味着灵巧手已经达到了类似于ChatGPT的泛化突破阶段。以下为本次演讲内容节选: 01 机械手的能力与挑战 洪军:也许观众最困惑的。在很多演示中,大家都看到机器人可以拿起吸尘器、倒垃圾、烧水,甚至把盘子放进洗碗机。记得有一年特斯拉发布会的时候,擎天柱给会场的所有人倒了酒。看来这手很灵巧。那么你能总结一下什么吗?今天机器人手可以做什么?发展到什么程度了?齐浩志:好的,我觉得在远程操作的情况下,如果手的手指不需要很精细的动作,那么这是一个比较简单的问题。例如,如果擎天柱倒酒,他只需将手放在从酒中伸出的手柄上并按下即可。控制起来非常简单。以kchange为例,今天我们想要制作一个机器人,它可以在我们家里使用各种工具,例如螺丝刀和剪刀。在这个过程中,我们的手指必须更加纤细灵巧,这样的话操作起来就会比较困难。而我们需要它能够适配数千种不同的工具,难度就会呈指数级增长。 《擎天柱》展示了倒酒的样子。图片来源:X 鸿俊:您刚才提到了一个词叫“精细运动”,我理解的另一个词是它的“万能”,就是放在不同的场景中。这两个领域需要得到加强。陶艺伟:我补充一点。齐老师可能是从系统的角度讨论这个问题,而我可能更多的是从硬件的角度来看。首先是让现有的硬件方案更加可靠,即让机器人能够在真实环境中长时间稳定运行,并与自然物体交互,在长期使用中不被损坏。这实际上并没有完全实现。而这个硬件还需要继续迭代,比如增加它的自由度,增加它的触觉感应。在此过程中,随着系统复杂性的增加,其可靠性成为更大的挑战。这也是我们从硬件方面还需要做的大量工作。鸿钧:我给观众举一个更明确的例子。在我们今年的年会上,埃文用机器人在现场上演了一场可口可乐表演。事实上,排练的时候,是一种不稳定的状态。例如,我想尝试让机器人打开当时是一杯可乐,但我把它放在任意角度。这时,机器人可能需要旋转来打开可乐。机器人转动起来困难吗?陶艺伟:是的,这是一个很好的问题。首先,打开可乐本身似乎可以用双手和指甲完成,但实际上将其放在双臂机器人系统上是一项非常困难的任务,我们只是简单地演示了它。未来还有很多工作要做。如何让整个事情完全自动化,并达到非常高的成功率,还有很长的路要走。如何对可乐是精度的一个方面。它还需要了解可乐当前的状态,一个人可以以任何姿势拿起可乐罐,然后用一只手调整可乐的角度以达到最完美的状态,然后让另一只手将其拉离最完美的状态。这个机器人还是需要一个过程,包括手部的硬件设计和控制能力这些方面。洪军:我还有其他公司例如,在当今世界,人们在自由方面做得更多。他们能把可乐好好摇晃一下然后打开吗?陶一伟:我认为一些领先的公司可以通过调整和优化他们的硬件来实现这样的演示,包括在这方面投入更多的精力。但目前,说到愿意完全独立地做这件事,我认为我还没有看到任何公司可以做到这一点。我想多看看齐老师的观点。鸿俊:是的。齐老师还发挥了利用视觉和触觉进行手内旋的作用。他一定是这个领域的专家。齐浩志:我的看法是现在大家的宣传策略不同,或者是他们的一些开发或者研究的重点。例如,对于像文先生这样的硬件制造商来说,他们的目标是证明他们的硬件非常好用,无论是从机械结构还是用它构建的一些控制系统,所以展示一些合作是很棒的。ol 演示。相反,有一些针对灵巧手的算法,但不制造灵巧手硬件的公司可能在这方面表现得较少,而更多地表现出概括它的技巧。正如陶总所说,如果只是优化这个视频,有一些领先的硬件厂商或者算法研究机构可以做到。但从长远来看,我们应该更关注什么样的好的手调适合最广泛的任务,并且与算法有最好的接口。图片来源:图鸿俊:那么现在,浩智,根据你的研究,你认为有没有公司可以做到这一点,让我自愿放——我们不说任何环境、任何场景——假设这罐可乐,它的瓶子和它的开口不面向机器人手。有什么公司可以开吗?齐浩志:我认为现在还没有这样的公司。如果一家公司现在想完成这项任务,技术上他们可以花费数美元几个月的时间来完成,但他们可能需要花费大量的资源和大量的时间。也许出于考虑自己公司的路线,他们不会自己做这件事,但他们更愿意在算法上进行一些改进,以节省将来做这件事所需的时间。鸿俊:他们不会针对一项任务做这种优化,但是他们希望今天优化的方向是让它适应尽可能多的任务,也就是他们还是更注重它的泛化性。齐浩志:是的。鸿俊:我明白了。如果这么说的话,我记得Figure AI之前发布过一些视频,可能是一个可以把盘子放进洗碗机的机器人。那么这个视频可以说是从众多失败的拍摄中挑选出来的几个成功的案例吗?或者像你说的,实际上只是通过远程控制,只是一个演示视频,这不就说明机器人有这个能力吗?齐浩志:我认为这里没有具体的信息来源。但我这现有的算法很容易在一个已经固定的场景中拍摄这种视频。比如整个任务的成功率可以达到80%-90%。这样的话,拍摄视频就可以独立完成,难度也不是特别高。但这类人形机器人要走进千家万户,可能缺少的是如何在每种场景下都以100%的成功率完成这些任务。比如,把盘子放到洗碗机里,很大概率90%都不够,因为有10个盘子,如果其中一个损坏了,人们就不想使用这个机器人了。所以可能需要改进的是成功率和通常的泛化问题。鸿俊:所以现在,说到灵巧的问题,大家还是担心泛化。陶艺伟:是的,这里我还想补充一点,毕竟我们还是需要具体看每个任务的整体难度。因为就是这样,鸿钧,你提到的装入餐具并将其从洗碗机中取出。当这个任务被分解时,主要涉及机器人拿起餐具,打开洗碗机门,然后将它们放在洗碗机架上。正如齐老师所说,就是抓东西,拉几个杠杆,很简单的事。这个难度绝对和我们刚才讲的打开可乐不在一个数量级。因为如果你打开一瓶可乐,仔细研究这件事,其实就是用左手或右手从桌子上拿起可乐,调整罐口的方向,然后用另一只手从空中对准,以适当的角度插入拉环,用适当的角度和力量打开可乐。而在这个过程中,需要用双手同时操纵一个物体,另一只手必须抵抗可乐的拉力。在对峙过程中,如何保证你的手指不会产生太大的力量来压碎罐子吗?从整个机器人控制系统来看,这是一项比存放菜肴更困难的任务。图片来源:TetherIA 鸿俊:那么大家觉得,如果我们从幸福感的整体来看,瓶颈在哪里?这是整个机器人行业的问题吗?比如我们现在还在讨论这个模型问题、泛化问题还是灵巧手问题?而且,它还有很多自己行业特有的问题?陶一伟:我们不能只把灵巧手看作一个硬件模块。要发挥其价值,它必须是一个至少配备一只手臂的系统。这个双臂系统将形成可用于这项工作的最小机器人。但当我们想要将其推广到一个环境中执行任务时,就需要一个移动底盘和移动平台。有了这样的移动平台,每个人都会问车轮是否可以处理一些可能更复杂的路况,例如包括机器人的上下运动?人们还会说,拥有完整的人类形态可能更合适。因此,要真正让灵巧的双手有价值,这绝对不是简单的硬件模块能够解决的。齐浩志:确实很难,整个机器人充满了困难。人们经常问我,做好人最难的部分是什么?我觉得现在来看,硬件和软件方面还有很大的改进空间。从软件层面来说,我的理解是机械臂或者一些轮式机器人里面比较成熟的一些算法就是一些机器学习算法。当它们直接应用于更复杂的系统(例如灵巧的手或人形机器人)时,这会导致一些以前没有预料到的问题。例如,现在的灵巧手可能有四个或五个手指,每个手指都有不同的关节。每个关节都可以与环境和物体交互。那么我们怎样才能确保这些相互作用的某些影响对我们有利?比如说我们现在想要抓取一个物体,如果我们用夹具来抓取它,我们只需要考虑两个接触点。如何处理对象?但如果现在给我们10个接触点,这10个接触点分别应该如何与这件事互动呢?一些接触点可能会相互竞争,在这种情况下计算复杂度会更加困难。从硬件层面来说,我大概是在2021年或者2022年开始研究灵巧手的。那个时候,我们能买到并且仍然可以使用的灵巧手的选择非常少。最近一两年,我们的好手五金,特别是国内的厂家和美国的一些五金公司,都取得了很大的进步,所以我认为这方面的瓶颈正在逐渐减少。但我的猜测是,需要经过几轮迭代才能达到玉树机器人那样逐渐收敛的配置你今天看到了。洪军:现在市场上有好手。它们都有不同的形状和硬件,因此您必须根据这些硬件来安排自己的软件。齐浩志:嗯,大部分都是人手。不过,每个公司的技术路线都不同。例如,陶先生的公司必须有绳索驱动的技术解决方案,而有些公司则有一种驱动解决方案,可以让熟练的人触手可及。 02 盘点好手五金三大主要技术路径 洪军:其实说到技术路径,我知道现在业界比较流行的有几种,一种是链接驱动,一种是绳索驱动。绳索传动又分为单向绳索传动、双向绳索传动和电机驱动。您能否向您简单介绍一下这几种技术路线的优缺点?如今行业主要发展向哪个方向?有没有十个密度收敛?陶一伟:我先从硬件本身的角度来说一下,然后麻烦齐老师补充一下,从用户的角度来看,哪个更好一些。首先我们看一下三种主要方式,一种是连杆传动,一种是绳索传动,最后一种是直接传动。连杆首先必须是传统意义上的假手。它使用这种结构驱动方法。无论是线性推杆、电动缸还是蜗轮,它在驱动器的驱动下产生旋转运动,最终实现手指弯曲。是传统意义上的六自由度低自由度灵巧手。它更像是手的形状,但其手指的运动实际上自由度比较低。它的手指遵循固定的路线,这是一个一维的轨迹。拇指的设计是,在到达后直接与食指或中指相配合。特德。它也是以固定的轨迹闭合的,所以从使用的角度来看,它与夹爪相比,特点并不是那么明显。这是低自由度连接子的特征。鸿俊:低自由度的灵巧手,六个自由度,基本上是五个手指并在一起这样,其他的自由度在哪里?陶艺伟:这是大拇指的侧摆。洪军:拇指有两个自由度,其他手指有一个自由度。 ILDA灵巧手由韩国AJOU大学智能机器人研究实验室(IRLAB)设计并开源。图片来源:Iir LAB AJOU 陶一伟:没错。连杆手实际上有一条不同的路线,这也是一条高自由度的路线。韩国早期有一份报纸叫ILDA。本文的主要手部思想是使用相对更复杂的链接方法在每个手指的基部设计三个主动线性执行器,并且使用相对复杂的连杆系统来实现每个手指的三个自由度。这种手其实是相当先进的,但它可能存在的问题是,它的体型还是相当大,而且各个部件都是紧密相连的,在使用过程中缺乏一些灵活性。这种柔韧性不仅在搬运物体的过程中不是很柔软,而且在碰撞时也比较容易损坏。洪军:这是第一个,连杆传动的优点和缺点。陶艺伟:那我说第二个,这些直驱方式。直接驾驶的智能手实际上是近两年正在慢慢消失的解决方案。事实上,电机驱动器有很多发展。电机驱动器的小型化使得这种直接驱动解决方案成为可能。优点是它的自由度可以很高,它可以在每个关节处固定一个驱动器,并且从控制的角度来看,因为关节和d 电机直接对应,很容易做到。这样做的缺点是它往往更昂贵。我认为成本最终可能会下降,但更重要的一点是,将电机做得更小之后,它的减速比仍然相当高。其较大的减速比会使整个传动的透明度降低。换句话说,齿轮和内部部件相当精密,在实际应用中,寿命或抗冲击性可能会成为问题。而且由于悠希电机的所有部件都做得非常小,所以它的所有结构都需要高强度的金属结构,这使得整个手系统不可能做得很小、重量很轻。因此,典型的直驱灵巧手的重量约为一公斤甚至更多,这对机器人末端来说是相当大的负载。鸿俊:对于一公斤的手来说太重了。设计的平衡是一个问题。陶艺伟:其实是的,这是它的一些问题,还有一些包括e 提到的可靠性和易于维护性。也许我们应该看看这个领域的进展。图片来源:Sharpa 洪军:所以现在业界认为它是一手好牌,灵活性比较高,也就是说也可以理解为操作性比较强。各种精细运动和复杂运动。因为有人推荐了methen,所以我们应该谈谈Sharpa公司,我认为它做得很好。看起来他们采用的是这种电机直接驱动方式。陶艺伟:对对对,他们做的事情真的很了不起。它的产品完成度非常高,整体感觉也很好。整个工业设计也非常不错。每个关节都有独立的电机,非常灵活。鸿钧:哪些任务是它能做而其他人做不到的?齐浩志:我觉得从展示这个视频的角度来看,他们可能做了一些事情,比如用相机拍照,或者有一个有两只手臂和一只好手的系统来把卡片分发给每个人。这将是更困难,因为例如,当我们想象一堆卡片时,两张卡片之间的距离非常小。当我们手动发手掌中的牌时,需要控制更精准的力量,将牌从牌堆中取出,然后交给大家。如果打牌的点不是很准,或者力度太大,很容易一次处理很多张牌,或者牌堆会散开,所以他们制作的这个视频是相当惊人的。鸿俊:嗯,如果要一张张发牌的话,对手艺的要求还是蛮高的。是的,这是一个直接驱动的解决方案。然后还有另一个您应该熟悉的解决方案,Evan,即绳索拉动和绳索驱动解决方案。陶一伟:是的,目前市场上几大公司提供的绳索传动解决方案主要有两种类型。一种是双向拉绳解决方案,另一种是单向拉绳解决方案。我们可能都听说过最早的两瓦拉绳,好手皇冠上的宝石。他们的一款产品“Shadow Hand”是一款售价 15 万美元的高价产品,对于熟练的双手来说,其自由度高达 26 度。他们的计划是在每个关节处使用两根绳子同时连接旋转电机的两个方向,这样当旋转电机顺时针旋转时,它会弯曲,而当逆时针旋转时,它会变直。这是一个想法。图片来源:Shadow Robot 另一种类似的手目前已开源,名为 ORCA Hand,由苏黎世理工学院开发。他们的也是一个非常好的双向拉绳开源灵巧手解决方案。这么好的一手最大的难点在于双向拉绳和拉力问题。因为当你用一个旋转轴来控制末端的另一个旋转轴时,需要两侧绳子的长度长期保持不变,因为绳子材料在使用过程中会发生蠕变。一旦发生这种蠕变,就会出现奥辛现象。这样的松动现象会降低系统的精度,并且更加难以控制。从解决方案的角度来看,ORCA Hand 采用了更智能的方法,其设计精美,在其驱动器上使用了一系列棘轮机构,因此您可以轻松收紧绳索。但问题是这个东西在使用过程中还是需要时不时的调整一下。这是这个解决方案的一个很大的困难。成本。 ORCA Hand 中的棘轮机构。图片来源:ORCA。另一点是,尽管绳索本身并没有占用如此高的手自由度,但绳索驱动设计的布线确实有效。在机械设计中占用的空间非常小。可以这么说,这不像你在设计齿轮或任何东西,你把电机固定得太紧。你必须考虑绳子的整体对准,然后考虑绳子在整个关节运动过程中的变化范围,这是一个非常动态的事情。因此,它是需要高度自由的手,特别是绳索驱动的解决方案,使其完全在手掌内发挥作用,使其执行器延伸到手腕以下。比如暗影之手、逆戟鲸之手,以及特斯拉。其实,中国有一家公司,叫元盛智能。他们的绳索驱动解决方案包括所有手掌驱动器,但它使他们的手掌尺寸稍大。鸿钧:特斯拉的计划是什么?陶一伟:特斯拉是一种单向拉绳解决方案。然后我们说的是单向拉绳,这也是一种基本的解决方案。单向拉绳的优点是它对腱材料的蠕变不是很敏感,并且可以通过算法相对容易地克服这一问题。但它的缺点是它的调直运动没有主动力,相当于依靠弹簧来实现调直。弹簧矫直过程中,首先受力比较小。如果您想尽可能优化您的握力le,因为你在握持过程中实际上是在抵抗你的弹簧的力量,如果你有更强的拉伸力,你就会浪费你的握力。但有时当人们进行一些精细的操作并用手时,向相反的方向推动这样的力确实会产生效果,但现阶段我们仍在解决mahipressing问题。鸿俊:你不会想打开吧?陶艺伟:是啊,明天确实没怎么用。反过来想,你可能会想,如果你闭着眼睛从书包里掏出一些东西,你可能不得不把其他东西推开。它需要推动,但最重要的是,它需要全手抓握。这确实是一个非常困难的问题,现在没人考虑。鸿钧:是的,行业里的一切都往哪个方向汇聚?陶一伟:从我的角度来看,在硬件方面,现在的行业主要是在向直驱和单向拉线的方向融合,包括特斯拉和我们。直接驱动也令人印象深刻,制造连杆的公司可能比制造高自由度连杆的公司自由度要低。鸿俊:Figure AI采用什么解决方案?和身体智力。陶一伟:图AI,我看了他们的专利。这可能是一个具有六个自由度的手,可能是一个连杆,或者一些其他方法。图片来源:图 鸿俊:浩志,您还有什么要补充的吗?告诉我们您作为用户的体验。齐浩志:连杆和直驱电机我都用过,从来没有用过绳索驱动的手。今天我们做“机器人+AI”的方式可能主要有两种。第一种方法是首先使用远程操作来收集数据,然后训练神经网络来完成某些任务。这种情况下,比较经典的代表可能是Aloha,还有Physical Intelligence这样的路径。另一个更基本的途径是使用强化学习在物理中训练这样的网络l 模拟器,然后将网络直接从模拟器传输到现实世界。比较成功的案例是大家看到的会跳舞、会走路的四足机器人、双足机器人都采用了这个技术方案。就灵巧性而言,目前任何计划都存在缺陷。但是这套从模拟器训练网络然后将其转移到现实世界的方法也很受欢迎。所以这里有一个问题,就是当我们挑选一手好牌时,我们衡量的是它有多容易被模仿。之前比如我们对比连杆手和直驱手的时候,感觉直驱手比连杆手更容易模拟。因此,当我们做一些需要高自由度的花哨操作,需要通过强化学习来学习时,我们选择使用直接驱动手。正如埃文刚才所说,以前的直驱手机最大的缺陷就是当时的电机很大,直到最近几年,电机才变得越来越小,就像 Sharpa 一样。我们当时认为Sharpa很神奇的另一个原因是,在Sharpa之前,几乎与人手大小的机器人的手往往是连在一起或用绳子拴住的,这并不适合我们想要走的技术路线。所以当时我们就觉得,既然它既是人形的,又是电机驱动的,就适合我们这方面的研究。图片来源:Sharpa 鸿俊:所以我觉得还是蛮有趣的。如果您打算使用模拟来研究灵巧的手,那么您确实需要首先让手看起来像人手。甚至你的自由度和关节数量也应该尽可能接近人手。刚才大家都在谈论夏帕的手。我认为它的价格似乎是每个10万美元。还有你刚才提到的影子之手埃文,15万美元。谁买这些昂贵的手?都是科研机构、研发部门吗?大公司?齐浩志:应该有五万夏帕。鸿俊:一件5万,两件10万。两个都会被卖掉吗?齐浩志:可以成对出售。我的理解是,首先,这些厂商即使在此时此刻,也不会通过销售这个硬件来赚钱,因为他们距离量产阶段还很远。也许对于这家公司来说,他们现在最重要的事情就是首先确定他们当前的配置值得优化的地方,然后朝着正确的方向不断迭代。这样的重复可能会有很多很多轮。很多时候,我个人的理解是,他们的价格可能有一定的筛选作用,也就是说,他们只想供应那些真正对其硬件有强烈需求的人,可能是大型制造商,也可能是一些政府资助的大学。例如,Shadow Hand 当时的主要客户之一是 2017 年或 2018 年的 OpenAI。他们正在制作灵巧的产品当时他是手工转动魔方的,他没有足够的财力支持他们从事这样的工作。鸿俊:挺有趣的。我明白,其实他们现在并不是靠卖硬件赚钱,但他们还是希望能开辟这条路。事实上,他们也希望吸引开发者加入其中,然后构建整个生态系统,以便更多的人可以使用他们来改进这个解决方案。齐浩志:嗯,我是这么理解的。 Evan可以从硬件从业者的角度来讨论这个问题。陶艺伟:或者从我作为一个企业家的角度来讨论一下。我们公司的商业模式可能和他的略有不同。因为正如刚才齐老师所说,这些机构是走高端学术路线,包括选择优质客户。事实上,鸿钧,你现在也看到了,很多demo看起来已经可以在应用场景中落地了。我们的想法是创造一种坚固、可靠、廉价的产品,并且可以对该应用程序真正感兴趣的客户可以快速部署。可能我的自由度,只是整体表现,包括触感,还没有那么先进,但是我们会做出这样的产品。这样可以让大家在实施过程中逐步建立起这个生态系统,进而帮助我们获得更多客户的反馈。这是我们从初创公司角度出发的做法之一。相对便宜的灵巧手并不意味着它没有技术含量,也不意味着它没有商业价值。 03 特斯拉灵巧手研发故事 鸿俊:Evan,你加入特斯拉其实已经两年多了,也就是2023年7月吧?这种情况发生在特斯拉的 Optimus 手工打造中。能给大家简单介绍一下这整手牌是如何开发的吗?陶艺伟:没问题。其实我刚加入的时候,手工制作团队和我们整个擎天柱机械五金制作团队应该是十几个人左右的团队。阿诺斯我和这个人主要负责这个手工项目。事实上,外界当时并不太清楚那一代人有什么样的计划。它是一个蜗轮绳索驱动系统,具有六个主动自由度和十一个全关节,就像一只欠驱动的灵巧手。在那段时间里,我们已经进入了第三代复发。我加入的时候,最重要的升级之一就是增加了灵巧手的关节编码器,也就是如何获取灵巧手在空间中的位置和姿势,另外一个就是增加它的触觉。虽然这两项工作看似只是电路升级,但从整个系统设计来看,因为增加了这些新功能,整个巧手沿袭了第一代的配置,导致组装过程变得困难。我入职第一周的任务就是带领制作组亲自打造全新设计的第三代德灵活的手。这确实是一个非常痛苦的过程。也许我们不能用一只手假装从早到晚。从非机械的角度来看,这可能很难理解。您可能需要花一两个小时慢慢地完成每个过程。这实际上是硬件配置设计上的不完善。洪军:虽然特斯拉是自己做的,但并没有使用其他硬件解决方案。这意味着它会自己设计和建造一切,然后你在合适的时间来到这里,自己组装它。陶艺伟:是的。马斯克其实对当时看到的第三代手机并不是特别满意,因为外观设计,包括各方面,更像是一个实验室原型机。鸿俊:他想要什么?难道他对自己的外表不满意?或者对里面的技术方案不满意?陶艺伟:马斯克看到的一个是外观,另一个是产能。他对上诉不太满意兰斯。另当时的产能一天也只能组装一到两台。这样的产能太难了。鸿俊:所以他当时可能实际上是在质疑整个设计过程,即从外观到方案是否容易实施?陶一伟:是的,所以这是我进入项目后的第一个任务,带领整个项目重新设计。我和工业设计紧密合作,从内到外重新组织了整个结构,包括很多我们原创的设计细节。这是我们制造的一款手机,我们在内部称之为 3.1 代,但在世界范围内,我们目前在我们见过的所有已安装系统或大规模安装中都使用这款手机。图片来源:特斯拉 鸿俊:改进后,现在一只手安装需要多长时间?陶艺伟:我走的时候,我记得我们每周需要100多台。我们的技术人员在现场安装并我们有自己的生产线。从我们工程师的角度来看,我们必须先做,走一遍流程,然后再交给工人。鸿钧:马斯克在好手问题上提出了哪些想法?陶一伟:马斯克是第一性原理的坚定信仰者,所以他的很多指导都来自于panthis浪潮,包括做仿生学之类的事情。鸿俊:关于仿生学的问题,我知道特斯拉内部其实你们对人体做了分析,看人体是如何感知力的,也就是人的手是如何工作的。陶一伟:是的,首先我们读了很多生物解剖学的学术论文,了解了人体的肌腱是如何强化的。甚至还有一个小故事,那就是我们的一位合作伙伴的母亲是一名手外科医生,我们有机会去现场观察真实的人手的结构。当时的经历还是蛮有趣的。鸿俊:你刚才提到你读了很多生物学论文。世界卫生大会这是你从他们身上得到的最大的启发吗?换句话说,特斯拉对人体所做的全部工作给你带来了什么启发?陶一伟:事实上,特斯拉从上一代手机到下一代手机最大的改变之一就是将驾驶员从手掌移到了前臂。也是根据一些人的设计,因为驱动人类手指弯曲的肌肉存在于前臂。鸿俊:不是在你的手掌上,而是在你的小臂上。陶一伟:其实两者都有,所以这是我们自己的计划和特斯拉不同的地方。它的手臂控制不仅仅是一块巨大的抓握肌肉。你可以这么理解,因为它的肌肉是相当大的。分布在手掌的肌肉更多的是控制手部动作的精细细腻的操作。齐浩志:我有一个问题。刚才你们也提到,用灵巧的双手组装绳索传动装置需要花费很多时间,而且需要非常专业的人来做这件事。我更好奇的是,这与直驱灵巧手相比,其产能是否会产生很大差异?陶艺伟:是的,我想是的。直驱灵巧手可能更像是传统意义上的机械结构,包括机器人系统。它很容易通过一些传统且相对成熟的机械工艺进行组装。您可以通过拧紧螺钉或焊接来节省。这类方法都是比较成熟的方法,既能保证准确性,又能保证整体效率。但对于绳索驱动来说,由于采用腱绳方案,并没有进行传统意义上的太多集成。因此,这方面需要全行业共同推动,包括如何将固定在筋绳两端的驱动器和内部的执行器连接起来,同时保证其生产的速度和精度。这件事目前还在探索过程中。但这件事终究是这是一个工程问题,而不是一个基本的科学问题。所以,随着整个行业的发展,我们相信这个事情最终会被克服。 04 揭开灵巧手的“数据金字塔” 洪军:刚才我们讲了很多灵巧手硬件相关的问题。接下来我们可以谈谈算法层面,这也是昊志这里主要研究的。齐浩志:这几个月我主要研究了如何从一些真人视频中学习这些跑步技巧。今天大家可能比较熟悉的就是一些远程手术技术的应用。远程操作意味着我们现在有一个操作员可以戴上动作捕捉手套或动作捕捉服装,然后将这些人的动作映射到机器人的手上。但它实际上可能存在一些缺陷。第一个缺点是每个操作员都必须适应机器人。如果我们想将机器人操作数据扩展到更多的语言数据,这是非常困难的,因为有机器人不多,产能不够。所以另一种方法是询问我们是否可以使用一些现有的数据。例如,有很多人们记录他们如何做饭、如何打扫家务以及一些手势的视频。我们想研究是否可以用机器人观察手部动作,然后自己学习技能。鸿钧:今天的表现怎么样?齐浩志:现在我认为还处于研究阶段。如果我们的目标是达到最好的效果,那么直接使用遥操作从机器人本身收集数据当然是最好的。但因为我们还没有将人类视频学习数据的样本数量推广到足够大的数量。我相信从长远来看,这条道路可能会取代远程操作。鸿俊:我觉得挺有趣的,我注意到1X之前也发布过Neo机器人。这个 Neo 可以进入房子并帮助你做一些基本的家务。但可怕的是就是每个人都出卖隐私来让这个机器人工作,因为每个机器人背后都有一个远程操作员来控制机器人。嗯,我明白了。其实这也是他们自己收集数据的一种方式。 Neo演示商业图片来源:1X 齐浩志:是的,没错,我了解没有一家公司可以在用户家中销售机器人来完成他们想做的任务。所以1X相当于一个类似于特斯拉自动驾驶策略的策略。首先,汽车被卖给用户,然后用户驾驶汽车,并在驾驶汽车的同时收集数据。如果只是一个人形机器人,用户无法自己操作人形机器人,所以他们有自己的操作员来操作机器人。当然,涉及他的一些隐私问题和一些道德问题确实需要进一步讨论。鸿俊:您刚才提到,您从2021年到2022年就开始做机器人的这些部分。其实当时GPT3已经发布了,但是我们能不能用一个终结点?训练机器人和灵巧手的终极方法?我认为这不是当时市场的主要方向。当时机器人研究的主要方向是什么?齐浩志:我认为我们当时研究的机器人主要是为了让机器人能够完成一般要求有限的特定任务。由于当时硬件不多,能够对灵巧手进行科学研究的研究组并不多,也没有人愿意对灵巧手的问题做太多的事情。特斯拉宣布开发人形机器人后,整个人形机器人行业和灵巧手行业经历了一波爆发,大家也逐渐开始在这方面发力。然后近年来,越来越多的人尝试使用GPT研究方法来开发他们的端到端模型,包括在一些相对简单的机器人上做得很好。也有一些初步验证结果其,例如身体智力。他们用大规模数据和远程操作来证明这个机器人拥有强大的能力。但对于灵巧手来说,更具挑战性的方面之一是灵巧手比其他机器人更难收集数据。图片来源:TetherIA 鸿俊:你说的是手部数据吗??齐浩志:是的。因此,即使我们有操作人员不间断地收集数据,但要达到 GPT 级别的数据或物理智能级别的数据仍然不是一个非常简单的任务。鸿俊:其实我前段时间跟他们的研究人员聊过,他们的π0.5好像就是10000多个小时的数据吧?仅考虑了 10,000 多个小时,这是整个机器人行业最大的真实数据集。当然,这是高质量的数据。齐浩志:是的,数据采集过程中肯定有很多公司,他们产生的数据超过10000小时。但还有一个问题,什么样的数据对训练机器人有用?ts。鸿俊:我们来谈谈您的研究吧。我知道你学习用视觉和触觉来做,比如转动手,或者用两个多手指来学习一些复杂的操作。基本上,你的工作就是证明触摸带来的改进。您能简单给大家解释一下为什么机器人需要有触觉吗?机器人添加后有哪些能力?齐浩志:我认为触摸机器人有一些好处。不久前我做了一个有趣的实验。您可以在美国购买麻醉凝胶。当牙医进行一些小手术时,他们会将这些麻醉凝胶涂抹在牙龈上。当时我手上抹了一些麻醉凝胶。它是完全无害的。它只是让你暂时感觉不到什么。然后我尝试了。在这种情况下,我想做一些操作。很多时候这个操作可以完成,但是会很慢,因为我必须用眼睛仔细看我的手是否在触摸。我喜欢拿笔例如,il 或橡皮擦。所以我认为首先是触摸,当你的手指与物体接触时,它可以提供更准确的信息。例如,让我们想象一个人形机器人。它执行一些操作,并且有人可能已经握住了它的手。这时显然很难看出是否抓住了物体,因为手挡住了接触点,自然触觉在这种情况下会更有用。鸿俊:触觉就是增加传感器,对吗?齐浩志:是的。还有一个非常有用的点就是它可以控制力的大小。例如,回到我们前面提到的可乐瓶打开的例子,埃文刚刚提到我们需要一只手用足够的力量来控制可乐瓶,但不要压碎它。另一只手可能需要拉动可乐瓶的环。当然环必须有一定的角度,即用力的角度必须精确,否则环可能会破裂,但可乐瓶还没有被打开。在这种情况下,感受跑步时使用的力量也非常重要。感知力的最佳方法是通过一些触觉传感器。洪军:所以触觉传感器不仅能感知到我触摸物体,它还能感知到力量。感知如何发挥作用?齐浩志:现在的技术方案有很多种,我只能提两三个。例如,我们可以在手指上放置一些压力传感器。那么这个压力传感器基本上就是说当外界给予一定的压力的时候,这个电路就会产生不同的波,然后根据这个电流的大小来判断压力有多大。例如,其他一些解决方案称为视觉和触觉传感器。例如,如果我们现在有一个手指,我们在手指内添加另一个摄像头。将检查这款相机。它将包含一些在手指按压时会变形的材料,并且相机将捕获这些变形。在捕获这些变形后,它可以逆转这些变形h 外力来自的方向和强度。通过将这些信息输入到某些视觉处理器或神经网络,我们可以获得我们想要的触觉信号。陶艺伟:是的,我还可以补充一点。关于触觉,齐老师提到的都是覆盖在手指或手上的触觉传感器。事实上,从我们与客户的对话来看,一些客户最关心的力反馈信息实际上来自于驱动器中的电流量。也就是说,驾驶员拉动手指用了多大的力,也是反馈力信息的重要组成部分。它其实和人类的认知系统类似,是的,当人们触摸或操纵物体时,人类皮肤表面有一层触觉信号,还有另一层感知来自你的肌肉收缩。鸿俊:我觉得还蛮有趣的。经过多次交谈,我确实有这样的感觉:我们设计的机器如此复杂是因为我们对人体或我们自己一无所知。陶艺伟:是的。齐浩志:我认为Evan补充得很好的是,绳索驱动技术的一大优点是能够相对容易地实现力控制,因为它可以通过力收缩来实现。鸿钧:您认为像您这样的研究科学家一天能收集多少数据?齐浩志:这真的取决于我想要什么样的工作。如果对我来说最简单的是用这只手捡起一些东西并将其放在其他地方,它真的可以收集很多东西。只要我不累,我总能收集到这些数据,成功率很高。但比如说,对于一些比较困难的任务,比如我现在会操作一个远程机器人,用剪刀剪窗花或者折纸。即使收集一件也非常困难。这些也是我们创建算法时想要解决的一些任务。收集数据是一项艰巨的任务。能我们使用其他一些算法突破来解决这个问题吗?鸿俊:所以现在大家主要的计划就是看视频学习。齐浩志:是的,现在每个人都有不同的探索路径,视频是很多人正在研究的路径之一。还有就是使用模拟器作为路径。还有一个与周日的上一个非常相似,GeNeralist 使用某些工具来收集此类数据,然后将其转换为机器人可以使用的数据。图片来源:Sunday Robotics 洪军:这其实是从不同的收集数据方式来训练模型的角度来考虑的。我们说遥操作的数据量很小,但是它的数据质量很高。视频数据可能缺乏与武力一样多的信息,但它有很多优点。哪种效果最好?现在业界对此有共识吗?齐浩志:对于公司来说,他们还是更多地使用远程操作,因为他们需要追求绝对的结果。很多人都在研究使用视频数据,但我认为这是一个研究阶段。特斯拉最近发布了一些操作视频,了解到他们使用了人类视频,但就绝对能力而言,我仍然认为它不如远程操作。之所以在这种情况下我们仍然需要研究视频,是因为我们相信在未来几个月或者一年甚至更长的时间内,当视频量积累到一定程度时,它的能力可能会超过远程操作。但不应该是在这个时候。鸿俊:也许是为了别的事吧。准确性仍然需要远程数据控制。视频泛化也很重要。不知道我的总结是否正确。齐浩志:是的,我觉得可以这么理解。不同的数据有不同的属性。有些数据可以帮助您更快地提高技能,但收集起来比较困难。而且有些数据很容易收集,但如何最好地利用还没有定论。我们在进行行业研究的时候,会有一个像pyra这样的模型中。例如,当谈到远程操作时,它位于金字塔的顶部。它很小,但是非常有用。视频数据可能位于金字塔的底部,但数量很多,但并不是最能提高机器人效率的数据。中间部分有不同类型的物体,例如机器和模拟。鸿俊:是的,我记得之前在一次活动中和很多DeepMind和OpenAI的科学家聊过,我问大家最喜欢的方法是什么。那天正好是Genie3世界模型刚刚发布的时间。我发现大家分成了观点完全相反的两派。一组人认为Genie3对整个机器人行业不会有太大帮助,也不是一件很重要的事情。但另一组会认为这个东西很重要,对机器人的训练有帮助。齐浩志:我觉得从研究的角度来说,我绝对认为这个新的基础ic模型确实很有帮助,但我们必须找到一种方法来充分利用它。说它完全没用当然是有偏见的,但我认为说我们只需要训练一个大的视频生成模型,它就会解决机器人的问题是不现实的,因为原因很简单,目前的视频生成还没有完全解决它的物理真实性。尽管我们每年都看到物理层面上越来越多的进步。但我想我更愿意举一个例子,假设我们可以通过学习一个视频模型来解决预测物理世界会发生什么的问题,这意味着我们可以训练这个语言模型,让它失去它的幻觉。因为它相当于学习真实数据的一些物理规则,而不仅仅是过度拟合数据。所以我认为我们还没有在语言模型中解决幻觉,所以我认为视频模型在学习真实物理世界的规律之前还有很长的路要走。所以我们不能满我们依靠视频模型来训练我们的机器人,但它可以提供一些良好的开始或一些其他信号,这可能会有所帮助。鸿俊:挺有趣的。你认为实现良好的手部动作(比如打开可乐)有多难?回到最初的问题?已经到了GPT3时刻了吗?陶艺伟:也许我觉得是真的。如果机器人真的可以打开可乐,这将是一个很好的基准(基准测试)。已经到了GPT时刻。我想是因为这确实是对灵活性和综合能力的考虑。齐浩志:是的,我可能想进一步举个例子。比如20年前,其实已经有一些跑步机器人了,比如本田,本田的ASIMO,它可以在舞台上平稳地跑,上下楼梯。有很多质疑的声音说,为什么20多年过去了,这个人形机器人还能达到20多年前的水平?这其实涉及到一个问题,那就是要达到这样的程度有多容易。钍现有的算法可以非常简单。一旦达到跑步,然后你改变一些东西,它很容易达到跳舞。这与20年前完全不同,当时aof让一个机器人跑起来可能需要多个高端团队一起工作数月甚至数年的迭代。所以我觉得如果我们未来有一个算法,并且算法本身确定了,它可以在短时间内打开可乐机器人,而且还可以让机器人做不同的任务,比如开门、拧螺丝,那么我觉得这真的是GPT的时刻。鸿钧:我们距离这样的时刻还有多远?齐浩志:这个预言总给人一种打脸的感觉。我认为可能还需要3-5年的时间。鸿俊:那就比我想象的要快了。陶一伟:我觉得从硬件角度和产品角度来说,今年内应该会有能够满足这个能力的产品。鸿俊:你是说在任何情况下打开一罐可乐,机器人都会旋转它,然后它就可以了。同性恋无论你想去哪里?这意味着自主操作,而不是远程控制。陶艺伟:可以这么说。我认为硬件速度太快,无法实现这一目标。事实上,硬件相当于为整个机器人行业提供了基础,其上限在于软件及其背后模型能力的完善,才能带出整个系统的能力。齐浩志:根据我的观察,灵巧手这两年取得了很大的进步,我觉得它的前景非常光明。第一个方面是,在市场上,人形机器人流行起来之后,大家会更容易先有一些硬件和可以做复杂硬件的厂家,然后他们就会做灵巧手和人形机器人。第二种有许多相对简单的实体,如轮式或平行夹爪。他们开始在科研问题上做同样的事情,但没有新的观点不成功。因此,每个人都在探索如何在更复杂的系统中复制算法,比如灵巧的手和人形机器人。我认为这两点共同推动了整个研究行业的发展。鸿俊:好的,非常期待。今天的聊天很愉快,谢谢你们俩。 特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(如有,包括图片、视频)由网易用户Hao上传发布,网易用户Hao为社交媒体平台,仅提供信息存储服务。