最新的人形机器人长得很像人类,能干活、能思考,还能言善辩。它的最终价格有望降到3万美元以下,成本低于一台廉价电车,也比常年雇佣一个人类便宜。你想拥有它吗?
科幻场景已然走进现实,如何由“幻”到“真”?接入OpenAI的人形机器人Figure01给出了“触手可及”的回答。
在美国人形机器人初创公司Figure联合人工智能公司OpenAI发布的最新视频中,名为Figure 01的机器人身高1米67,具有明显的人类特征——头、双手和双脚。不但能说会看,对答如流,还会思考,会应对,能清楚理解人类意图。
名为 Figure 01的机器人身高1米67,具有明显的人类特征
当身穿黑色衣服的出镜真人演示者问及Figure 01,“你看到了什么?”它思索几秒后,张口说,“我看到桌子中间的盘子中放了一个苹果,沥水架上有几个盘子和一个杯子。我还看到你站在旁边,你的手放在桌子上。”“那我能吃点东西吗?”“当然可以!”Figure 01回答道。随后便自然而然地抬起手,拿起一个苹果递给面前的黑衣男士。
对于自己在做的事情,Figure 01还有清楚的认知,递苹果是因为这是桌上唯一能吃的东西。它还顺便把垃圾清理,把桌面收拾干净。在得到人类的感谢后,Figure 01甚至还伸开双臂,耸了耸肩,表示有任何需要帮忙的,欢迎随时来找它。
更显人性
整段2分34秒视频一镜到底,没有任何加速,也没有任何剪辑。这与前段时间凭借酷炫机械能力爆火,其实并没有多高智能化的斯坦福炒菜机器人形成鲜明对比。因为Figure01的所有行为都是基于视觉推理和语言理解,而且完全自主进行。
其背后不仅依靠Figure AI引以为傲的“端到端”神经网络技术,还得益于“强大的大脑”——一套集成了OpenAI先进人工智能技术的操作系统。这让Figure 01不仅能理解复杂的指令,还能自主学习和适应新环境,就像一位永远不会疲累的职场新人。
具体来说,Figure 01的操作系统通过整合OpenAI提供的视觉语言大模型,实现了对图像和语言的深度理解。这意味着它能够通过摄像头捕捉到的图像和麦克风接收到的语音或文字输入,进行复杂的分析和处理。而它的神经网络则以惊人的200hz频率输出24个自由度的动作,这种高速度的处理能力确保了机器人动作的流畅和精确。
换言之,Figure 01与人类的交互是通过深度自主学习而来,并非像其他机器人那样来自远程操作。而强大的模型能力还使Figure01得以拥有短期记忆,比如,视频中展示的“你能把它们放在那里吗?”“它们”指的是什么?“那里”又在哪里?正确回答需要记忆和分析能力。不仅如此,Figure01还能够进行推理,自行识别、计划和执行有用的任务。因而,更显人性。
加速进化
这并非Figure的首秀面世。
尽管这家座落于美国硅谷的初创企业成立不过2年多时间,却早已凭借一个又一个的耀眼发布跻身头号玩家队列——它只用1年时间就打破了机器人学会行走的纪录,而特斯拉花了15个月,波士顿动力花了21年。
今年1月,Figure教会机器人煮咖啡——通过观看人类的示范视频,机器人仅需10小时训练,就能学会并完全自主搞定这一任务。更准确地说是操作咖啡机。只见它打开机盖、放入咖啡包,再按下开始按钮,整个过程一气呵成。很快,一杯咖啡就可以端走享用。不仅如此,它还具备自主纠错功能:如果咖啡包没有放正,不用人类提醒,它自己就能调整好。
2.Figure成立不过2年多时间,已跻身头号玩家队列
到了2月,Figure让自家机器人Figure 01学会了搬箱子,并运送到传送带上,行走速度为1.2米/秒。
而在商业化上,Figure也已经迈出了第一步:宣布与宝马制造公司签署商业协议,将AI和机器人技术整合到汽车生产中,部署在宝马位于美国南卡罗来纳州斯巴达堡的制造工厂。
总而言之,Figure正在以前所未有的速度向着“具身智能”(指具备自主决策和行动能力)大步前进。作为对比,世界上其他鼎鼎有名的人形机器人公司,如特斯拉投入人形机器人已近3年,最近在港股上市的优必选做了12年,波士顿动力更是做了21年。
与火箭般发展速度同样耀眼的,还有Figure的受欢迎程度。其创始人兼CEO Brett Adcock不久前公布的一张公司职位申请数量增长图显示,从2023年7月到2024年2月,8个月期间想入职Figure的应聘者数量增长了218%。
今年2月,Figure更是获得6.75亿美金融资。其中,亚马逊创始人贝佐斯通过其名下的投资公司承诺投资1亿美元,微软公司将投资9500万美元,英伟达和一只亚马逊旗下基金将各自投资5000万美元,英特尔旗下的风投机构将投资2500万美元,OpenAI将投资500万美元。巨额资金的蜂拥追捧使得Figure估值高达26亿美元。也正是在这一轮融资之后,OpenAI宣布了与 Figure的合作。
彭博表示,对Figure的巨额投资是“寻找人工智能新应用争夺赛的一部分”,“机器人已成为人工智能行业的关键新前沿,能够将尖端技术应用于现实世界。”
人才涌向和资金获得与创始人兼CEO Brett Adcock的个人影响力不无关系。出生于伊利诺伊州农业家庭的Brett在科技领域有近20年的创业经验,创立过至少7家公司,其中一家以27亿美元的估值上市,一家被1.1亿美元的价格收购,“农场长大的经历告诉我,自食其力,从无到有,可能为世界带来一些有价值的东西”。
媒体甚至把他称作“下一个马斯克”。事实上,Brett是马斯克的粉丝,两人确实有相似之处,例如两人都是白手起家,自学成才,十五六岁时成立自己的第一家公司,在20多岁时实现完全的财富自由,创立的公司被知名企业收购等。当然,最大的共同点是,他们都会将一切押在下一个大胆的想法之上。
“我用Figure作为下一个学习的课程。”Brett串联起此前的数个公司创业成功的逻辑,以StreetofWalls.com的内容建立了巨大流量的网站,用它引导和建立Vettery的市场,再以Vettery的人脉网络启动Archer,“而Archer是Figure最大的投资者之一”。
成立Figure后,他招募了科学家Jerry Pratt担任首席技术官。Jerry从1998年就开始研究机器人,直至今天,他研究的方向从未改变。而他打造的算法正是波士顿机器人那台火出了圈的Atlas能够奔跑、打空翻的关键核心技术所在。
此外还有前波士顿动力、前苹果工程师 Michael Rose 担任机器人控制主管,有来自特斯拉的专家担任电池部门领导,有曾为美国电动车龙头Lucid Motors制造了驱动单元的电机团队,有来自谷歌机器人计划的操纵小组……可谓是综合了机器人、传感器、感知、导航等各方面专家。
“具身”AI
如果说OpenAI已经成功打造了人工智能的大脑,而这个大脑需要一个自主的身体来体验世界,并通过直接互动迭代进化成新的模型,那么毫无疑问,“具身”机器人必不可少。OpenAI首席科学家Ilya领衔的团队所发布的首篇论文就曾指出,要用AI监督AI,AI改进AI。在OpenAI看来,超级智能(比人类聪明得多的人工智能)很可能在未来10年内出现。
Figure创始人Brett Adcock甚至直言,“Figure的人形机器人是通用人工智能的最终部署载体。”
因为人形机器人与其他特定情形机器人的最大区别就在于,面临情形的复杂性不同。一般而言,工业机器人面临的场景基本只有搬运、上下料等特定的少数场景,而人形机器人大规模落地就需要做到通用性,涵盖的工作场景成千上万,包括但不限于工业、家庭、商业等,每一种应用场景又有多重可能性。想要机器人实现真正通用化,就需要让机器人熟悉以上所有场景,对于数据和算力的要求是指数级增长的,因此人形机器人是AI的重要应用方向之一。
正因如此,不只英伟达、OpenAI纷纷重金押注人形机器人公司,许多科技巨头也都在努力将人形机器人变为现实。波士顿动力已经开发了多种模型,而1X Technologies则在OpenAI的支持下筹集了1亿美元的资金。
得到亚马逊支持的Agility Robotics计划建设一家工厂,每年可生产多达1万台人形双足机器人Digit。目前,Digit的运营成本约为每小时10至12美元。
特斯拉的“擎天柱2代”更是声名远扬,在最新的演示视频中,可以看到其一边完成深蹲动作一边保持平衡,还能轻松“拿捏”鸡蛋,随着音乐跳舞。
高盛分析师预计,到2035年,人形机器人市场将达到380亿美元,而到2030年,人形机器人的出货量将超过25万台。
OpenAI负责产品和合作的副总裁Peter Welinder表示,“我们一直都有回归机器人技术领域的计划,而与Figure的合作让我们看到了一种探索的可能性——在高性能大模型驱动下,人形机器人能够取得何种成就?”
尽管OpenAI与 Figure的合作进展顺畅,但OpenAI并未只押注在一家机器人公司上。据彭博爆料,不久前,来自谷歌研究团队、加州大学伯克利分校、斯坦福大学等机构的研究者新成立了一家机器人AI公司Physical Intelligence,该公司也在研究未来能够成为通用机器人系统的人工智能,还成功拿到了OpenAI的融资。
软硬结合
对于人形机器人的考验,软件交互能力只是其中一部分,另一部分在于其本体的机械能力,比如如何在行走中保持平衡、各个机械部件的传动能力、如何让动作变得自然平稳、如何控制力度和精度等。
这一切都在考验人形机器人公司软件和硬件的协同开发能力,以及整个人形机器人供应链上下游的共同开发能力。而供应链也是目前人形机器人面临的最大挑战之一,其复杂程度不亚于当前的汽车产业链。与汽车产业链发展至今130多年相比,人形机器人的产业链还处于“一张白纸”的状态。
不过,相比一台Tesla Model3有约1万个零件,Figure的一台人形机器人只有约1000个零件。随着制造量增多,价格成本还将可能下降20%~30%。这意味着,机器人的最终价格有望降到3万美元以下,成本低于一台廉价电车,也比常年雇佣一个人类便宜。
而且,除了购买模式,Brett认为未来人形机器人更适配的商业模式是租赁模式,“这是一种减少前期负担的方式,而且也意味着我们可以不断翻新软件和硬件,让机器人变得更好。”
Brett表示,5年内,机器人将被部署到一些全球最大品牌的商业应用中,从而创造一个潜在价值数十亿美元的产业。人形机器人的业务价值甚至有可能高于通用汽车旗下的自动驾驶子公司Cruise和谷歌旗下研发自动驾驶的汽车公司Waymo,它们都是估值超300亿美元的公司。
当前,Figure已经制作了5个人形机器人原型,其目标是让产品应用于劳动力短缺的仓储制造领域。“打造硬件需要时间,我们预计20~30年才能真正实现这一目标。”Brett说,“毕竟,在真正的机器人世界中,重建人类功能是一项艰苦而艰巨的工作,将人形机器人带回家的努力更是一个长达数十年的漫长过程。老实说,我们还有很长的路要走。”
Q&A
“每个人都将拥有一个人形机器人”
Figure CEO Brett Adcock
Q:为何你会选择建立一个机器人公司?
A:我们这个世界正在发生巨大的劳动力短缺、人口老龄化加剧问题,光是美国就有超1000万个危险/不受欢迎的工作。人类需要更高的生产力,机器人因而有了庞大市场。我坚信,每个人都会像拥有手机一样拥有一个人形机器人,让体力劳动成为一种选择而非必然。
Q:人形机器人的潜在大市场在哪里?何时出现?
A:我们关注的领域包括医疗保健、房地产、建筑和零售等,我相信这些领域都有巨大的市场潜力。此外,还有许多行业的工作可以通过远程操作或其他技术来完成,人形机器人可以为这些行业带来新的发展机会。
Q:您认为机器人何时将与人类的能力难以区分?
A:这是一个非常困难的问题。人类真的很有能力。我们有很多自由度,非常灵活。在某种程度上,我们是柔软的。但与此同时,我们将会看到更多的机器人能够做像仓储和制造等类型的工作,做得和人类一样好,甚至可能更好。在未来几年内,我们的人形机器人将能够展示出真正高水平的行为,与人类进行互动,能够与你交谈,理解你的要求,并根据你的要求执行任务。
Q:Figure未来会如何训练人形机器人?
A:用机器人训练机器人。近似于构成一个蜂巢式学习系统,其底层技术源于强化学习和深度学习的结合。
Q:一个功能完善的人形机器人的制作成本能降低多少?
A:根据波士顿经验曲线,每当生产数量翻倍,产品的价格或成本就可能下降 20%~30%。从长期来看,我认为一台人形机器人的成本应该低于一台廉价电动汽车。这主要取决于机器人的执行器、电机组件、传感器的成本以及计算成本。
Q:Figure打算训练自己的模型,还是集成其他模型?
A:要让人形机器人从工厂走进家庭,关键在于语言,所以LLM或视觉语言模型对我们的业务帮助很大。我们要让机器人能够从语义层面理解世界,做到理解和回应用户的需求和指令,恰好LLM可以做到这点。我们很可能不会自己训练模型,但我们可以在机器人系统上训练视觉语言模型,并且关联传感器数据。
撰文—贾琦
编辑—邹健