单片机解密做大脑、推新品、扩量产
首先,单片机解密智元机器人发布了首个通用具身基座大模型“智元启元大模型”(Genie Operator-1),该大模型主打四个优势,基于人类视频学习;小样本快速泛化;一脑多形;持续进化。
紧接着,稚晖君更新视频,单片机解密正式发布双足智能交互人形机器人灵犀X2,能像人一样自然走路,甚至能骑自行车、踩滑板车。搭载了多模态交互大模型“硅光动语”,通过视觉理解和认知世界,可以做到与人进行无缝流畅的交互。
据稚晖君透露,灵犀X2研发了三个月,视频准备了一个月,是迄今为止最复杂的项目。
或许该项目的复杂点在于团队对灵犀X2的创新思考。为了寻找创新性,团队“套用”了鲁迅先生的思想,基于“从来如此,便对吗?”的想法,想一改机器人外表“钢筋铁骨”的固有形态,甚至考虑过使用化妆的美妆蛋作为材料。不过,最终还是选择了亲和的柔性材料。
做大脑、推新品、宣布1000台机器人下线,单片机解密智元机器人破圈动作频频,仿佛距离宇树科技的曝光度只差一个秧歌节目了。
然而上述举措只是智元对外输出的“表象”,其背后指向的是智元机器人在创始人稚晖君“天才少年”标签背后,打磨无限生产力的故事。以大脑为驱动,通过“一脑多形”快速部署于多种形态本体,让机器人更聪明;以产品矩阵撬动多场景落地,挖掘更多应用可能性;以量产满足需求,提速具身智能走近物理世界的脚步。
构想足够性感,但智元机器人的东西“好”到能支撑吗?
做一个能自主进化的大模型
“机器人公司,你如果不做大模型,那是属于没有未来的机器人。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青说道。在姚卯青看来,没有“智能化”支持、没有作业能力只是硬件,机器人能做的事情非常有限。
具体来看,“大模型”智能化高低决定的是人形机器人理解物理世界的程度和落地技能的水平。但这份“高低”也正是当下产业发展的瓶颈。
由于“大脑”智能化受限,单片机解密导致其泛化能力差,使得人形机器人在新场景的成功率大幅下降;不同本体的数据难以共用,致使数据采集成本高;大模型自身无法实现持续进化,迭代速度较慢。
为了解决上述瓶颈各家都找了多种技术路线的解决方法,例如通过分层端到端模型训练的方式,集百家所长提升泛化能力;推出具身操作算法,通过视频生成大模型进行后训练,基于全过程零真机样本数据,实现多平台泛化等。
智元机器人的GO-1也是延续上述脉络而诞生的。
据智元机器人方面介绍,单片机解密其提出了Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型(VLM)与混合专家模型(MoE)组成,弥合视觉、语言与动作之间的鸿沟。
基于ViLLA架构,GO-1大模型能结合互联网视频和真实人类示范进行学习,可以更好地理解物理世界;在极少数据甚至零样本下,实现技能泛化到新场景、新任务,降低了具身模型的使用门槛及训练成本;支持不同机器人形态间迁移,适配到不同本体;搭配智元数据回流系统,从实际执行遇到的问题数据中持续进化学习