今天分享的是机器人系列深度研究报告:《机器人专题:智能体打开智驾与机器人的星辰大海》。

(报告出品方:中银证券)

报告共计:26页

智能体:自动驾驶汽车与人形机器人的智能大脑

智能体不依靠被动数据投喂,具备自主学习的能力

智能体是自主完成设定的目标的代理,能够不断迭代学习以与环境相互适应。根据 MoPaaS 创始人 和 CEO 鲁为民博士在《大语言模型时代的智能体 (I):什么是智能体?》一文中的定义,智能体(AI Agents 或 Agents)是一个可以通过行动能力自主完成设定的目标的代理。智能体具备一些类似人的 智能能力和行为,比如学习、推理、决策和执行能力。智能体具备感知、观测、决策和执行四大模 块,通过反馈来感知环境及其动态变化,并将行动策略反馈作用于环境,以实现不断迭代学习与环 境相互适应。

自动驾驶汽车、人形机器人都可成为智能体的载体。根据智元机器人 CTO、首席架构师稚晖君的定 义,智能体与“本体”耦合后,即形成具备物理实体的、且能够在复杂环境中执行任务的智能系统。 其中本体作为实际的执行者(通常是具有物理实体的机器人),在物理或者虚拟世界进行感知和任 务执行;而智能体则承担智能核心的作用,负责感知、理解、决策、控制等工作。卢策吾教授在机 器之心 AI 科技年会上发表的《具身智能是通往 AGI 值得探索的方向》中提到,智能体通过感知器 和执行器与环境进行交互,能够实现获取信息、理解问题等功能,并根据环境的变化做出相应的决 策和行动。根据选择的不同具身方法,智能体能够以机器人、自动驾驶汽车等多种形式表现。

智能体相比传统深度学习模型具备自主学习的能力。CV、NLP 等传统深度学习模型主要通过第三视 角以互联网图像、视频或文本等数据集进行学习,其训练主要依靠被动数据投喂。而具身的智能体 以第一视角进行感知,并与环境交互,不依靠被动数据投喂,具备主动学习的能力以及较强的泛化 性。1963 年,麻省理工学院教授理查德·赫尔德通过对比实验发现:当猫的脚被绑住放进盒子里时, 即使其能正常观察环境,但并不能发育出正常的视觉能力;而另一只可以自由行走的猫在完全相同的环境下,则发育出了正常的视觉能力,因而他认为只有“具身”的训练,才能真正学习与理解外部 的环境与信息。

智能体带动机器人实现升维进阶

由智能体赋能的机器人以任务完成为导向,相比传统机器人大大减少了编程的需要。传统模式下, 机器人以程序执行为导向,通常需要经过任务定义、将任务分解为动作、编写程序以及执行任务等 流程。工程师需要构建高低级指令代码,并且随时更改代码以修正机器人行动,整个过程耗时长且 成本昂贵。而搭载智能体的机器人以任务目标为导向,不仅仅是机械地完成程序。具身的智能体可以根据环境变化,对行动细节进行实时修正,其自主学习能力能够消除在特定条件下为特定任务反 复编程的需要。

蓝海市场前景广阔,产业端加速落地

产业端加速落地,Gemini 有望接入机器人

英伟达推出多模态具身智能系统 Nvidia VIMA。英伟达创始人黄仁勋在 ITF World 2023 半导体大会 上表示,AI 下一个浪潮将是“具身智能”,具身智能将开启新的应用和市场,如智能机器人、智能医 疗、智能教育等。目前英伟达已推出多模态具身智能系统 Nvidia VIMA,并在 NVIDIA AI 上运行。 Nvidia VIMA 能在视觉文本提示的指导下,执行复杂任务,如在虚拟环境中搭建乐高积木、在真实 环境中操作机器人手臂等。

谷歌打造“通才”AI 模型 PaLM-E。3 月,谷歌联合柏林工业大学团队发布 PaLM-E(Pathways Language Model with Embodied),参数量高达 5620 亿。PaLM-E 是 PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型的结合,它基于谷歌现有的 “PaLM”大语言模型 (类似于 ChatGPT 背后的技术)。 谷歌通过添加感官信息和机器人控制,使 PaLM“具身化”。 PaLM-E 可以连续观察图像信息或传感 器数据,并将它们编码为一系列与语言标记大小相同的向量,使得模型以与处理语言相同的方式“理 解”感官信息。同时,PaLM-E 还借鉴了谷歌之前在 ViT-22B 视觉 Transformer 模型上的工作。ViT-22B 接受过各类视觉任务的训练,如图像分类、对象检测、语义分割和图像字幕。作为多模态具身视觉语言模型(VLM),PaLM-E 不仅可以理解图像,还能理解、生成语言,还可以执行各种复杂的机 器人指令而无需重新训练。

当被要求执行“把抽屉里的薯片拿给我”的任务的时候,PaLM-E 首先对机器人相机的数据进行分析, 而非对场景进行预处理(消除了人类预处理或注释数据的需要),以实现更自主的机器人控制。随 后 PaLM-E 引导机器人从厨房取出薯片袋,当研究人员从机器人拿走薯片后,机器人仍然能找到薯片并再次抓取它们。

Gemini 具备强泛化能力,有望成为机器人智能体。12 月 6 日,谷歌原生多模态大模型 Gemini 发布。 Gemini 可泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。它 包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro 以及适用于特定任务和端侧 的 Gemini Nano。其中 Ultra 版可用于大型数据中心等,属于处理高复杂度任务的模型;Pro 版则用 于各种扩展任务,属于日常使用模型,目前已搭载于谷歌的对话机器人 Bard 中;Nano 版则是应用 于智能手机等移动设备终端上的模型。与 BERT 等模型相比,Gemini 具有更多的参数和更深的网络 结构,此外 Gemini 还采用了更先进的训练方法,例如知识蒸馏和自监督学习等,模型泛化能力显著 提升。在 GLUE 和 SQuAD 等多项自然语言处理基测试中,Gemini 分别取得了 94.1%和 93.3%的准 确率。谷歌人工智能高管哈萨比斯在接受杂志 Wired 采访时表示,谷歌 DeepMind 已经在研究如何 将 Gemini 与机器人技术结合起来,与世界进行物理互动。

报告共计:26页

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: