惊艳首秀!OpenAI携手Figure 01,打造快速决策的智能机器人! 

人工智能领域惊艳眼球!Figure 推出首款与 OpenAI 联手研发的强力机器人 Figure 01,无论对话还是抓放,它都能轻松应对,甚至能清晰地解释自己为何如此行动!
备受瞩目的 Figure 01,究竟运用了何种神秘技术?是否与 Sora 有着千丝万缕的联系?相较以往的机器人技术,他的质变体现在哪些方面?对我们国内的机器人创业者,又寓意着怎样的新思路?
为此,我们特邀了国内大模型及机器人行业的杰出代表——包括监投人、创业者等参与讨论,以下便是他们的精辟见解。

d2b5ca33bd20240317195810

运用大模型+机器人,
OpenAI再次撬动Google格局!
李志飞:出门问问创始人兼CEO
据了解,其实Figure这条路更像走边端PalM-E加RT-1的组合,而非Google推出的全套RT-2方案。
要知道,想要使机器人与人类进行自然语言互动,大致可以分为两个阶段。首先就是机器理解自然语言,将其转变为机器可执行的抽象计划;接着是将该抽象计划转化为能实际操控的底层操作,即将简单命令转换为实际行为。
所以,RT-1主要负责后半程,模型虽无思维能力但能听令行事;PaLM-E能帮助机器人破解复杂命令,正对应前头预演阶段,它有点像是一个VLM视觉语言模型。那么RT-2呢?它集成了前两项,既可用尽大语言模型的知识和思维能力,又能达到如人类般的操控速度—实属VLA视觉语言行动模式。
令人惊讶的是,尽管RT-2存在决策缓慢的问题,难以达到Figure这种每秒 200 次的交互速度,但Figure仍以其独特优势获胜,它既发挥出大语言模型的知识储备和思维能力,又能用极快的底层操控,完成人一样的速度。
比如视频中的那个例子,当有人说“我饿了”,经过几番思量,Figure小心翼翼地拿起苹果,毫不犹豫地向对方递了上去。这份聪明在于,她懂得苹果是她当前唯一能“食用”的物品,即使没有明确指引,她也能以近似人类的速度作出回应。此外,她还利用了大语言模型的长句理解能力,解决了指代关系的模糊问题。

THE END
© 版权声明
164人围观 !
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容