自研跨模态模型,打造具身智能的“通用语法”

阅读量:129
2024-03-22

理解“具身智能”这一概念,不妨从“具身”一词出发。具身并非简单的“具备身体”,但其核心的确在于“身体”的概念。1945 年,法国哲学家梅洛·庞蒂(Merleau Ponty)在《知觉现象学》一书中提出“具身”这一理念。

他认为,身体经验构成人类与世界互动和理解世界的基础。“具身”意味着投入到现实之中,即参与到一个规定的环境中去,与某些筹划融为一体,并持续地介入到其中去。由于它的置身性,身体成为人类认知世界的基础。

“拥有一个身体就是拥有一个通用的装置、拥有一个涵盖所有类型的知觉展开图式。”巧合的是,也正是在这一时期,英国计算机科学家阿兰·图灵(Alan Turing)在论文《计算机器与智能》(Computing Machinery and Intelligence)中,提出了一种能借助传感器与环境互动并自行学习的人工智能,而这正是如今“具身智能”的最初构想[1]。

因此,可以将“具身智能”理解为一种将智能软件与感知硬件相结合的不同形态机器人,它们同人类一样置身于真实环境中,在与环境的互动过程中不断促进自身“进化”。

传统 AI 需要依靠内置模型对世界进行表征,再根据这些表征建构行为概念,这种模式高度依赖人工数据标注,不仅缺乏应对多变情况的灵活性,也无法理解与任务相关的未标注因素。

由于传统 AI 泛化能力的不足,开发者必须针对每一种可能的行为状态和情境细致入微地定义,并收集相应的训练数据。这一过程不可避免地会导致任务复杂度呈指数级增长,使得为每一个微小的变化进行预先训练变得极为困难甚至无法实现。

而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适应不同任务场景。同时,其层次化结构能做到对复杂数据深层次的抽象和解析。

因此,Transformer 架构的引入为具身智能领域带来了范式革新,使真正智能的具身机器人成为可能。这种变革可类比于从功能手机向智能手机的演进,具身智能机器人的优势正在于它所具备的交互性与通用性,即一种在开放的场景下实现自然交互的能力。

我们先来了解一下基于大模型实现具身智能的发展历史。第一代模型主要依靠大型语言模型(Large Language Model,LLM)和视觉语言模型(Visual Language Model,VLM)来处理物理世界的交互。

但是,这类模型受限于仅能通过视觉问答形式间接与现实世界互动,缺乏对复杂环境和实时交互的理解能力。

随着技术进步,以谷歌 PaLM-E /RT2 为代表的第二代模型尝试整合 LLM 与视觉 Transformer,将自然语言与现实世界更紧密地结合起来。

不过,即便如此在构建四维世界模型、有效预测未来行为、以及在复杂交互场景中进行灵活推理等方面仍然面临挑战。

自研跨模态模型,打造具身智能的“通用语法” (https://www.qianyan.tech/) AI 第1张

图丨谷歌 PaLM-E[2](来源:arXiv)

自研跨模态模型,打造具身智能的“通用语法” (https://www.qianyan.tech/) AI 第2张

由功能型到智能型的转变

总的来说,由于技术水平的限制,关于具身智能的构想并未得到充分发展。直到近来大模型技术的爆发,才重新点燃了一大批研究者对于具身智能的探索热情。

在这股热潮中,陈俊波便是其中的一员。博士毕业于浙江大学计算机科学系的他,在人工智能领域积累了不少经验。特别是在与具身智能紧密相关的自动驾驶研究方向上,他曾主导开发“小蛮驴”无人驾驶物流机器人等项目。

在发现具身智能新的发展契机后,陈俊波意识到若想探索更为广阔的应用空间,需要一个新的平台。

于是,他辞去阿里达摩院自动驾驶部门负责人的职位,于 2023 年 2 月创立有鹿机器人公司。

自研跨模态模型,打造具身智能的“通用语法” (https://www.qianyan.tech/) AI 第3张

图丨陈俊波(来源:资料图)

陈俊波和团队研发的具身智能大模型 LPLM(Large Physical Language Model)作为一个端到端的具身智能解决方案,突破了传统深度学习依赖封闭集合和人工标注数据的局限,这归功于其解码器所采用的预测未来的学习策略。

具体而言,它会从观察到的数据中,自动地推导出复杂的时间序列模式,从而理解和预测数据中隐含的动态变化。这样一来,任何一段给定的数据,都可以根据已有数据自动标注。

这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量,因为它允许模型通过自身生成的预测,来不断校正和优化理解能力和表征能力,从而实现对于真实世界动态变化的适应。

以自动驾驶为例,在遇到需要车辆会车的复杂博弈场景时,LPLM 不仅能预测其他参与者的行为意图,还能在此基础上制定出最优行动策略,比如安全左转或让行,从而确保行车安全同时提高通行效率。

此外,LPLM 还增强了对自然语言指令的理解和执行能力。谈及这项能力重要的原因,陈俊波举例说道:“为什么目前的各类 Robo-taxi 虽然可用,但依然无法取代司机?原因之一在于,当我们提供一些比较模糊的信息位置时,它无法实现对于自然语言的准确识别。”

通过引入超越原有二维 Visual Grounding 方法的 3D Grounding 机制,LPLM 能够更准确地定位物体。同时,LPLM 模型通过深度抽象和精细建模,显著提升了对物理世界复杂度的把握。

它将物理环境的信息提炼至与大型语言模型内部特征同等的高度,进行显式的逻辑映射,通过整合多模态数据,如点云、图像、声音和文字,构建出对环境的全面细致的表示。

这些不同形式的数据提供了丰富的环境信息,从三维形状和空间位置、到视觉特征、再到上下文环境指令,为模型提供了一个综合的世界视图。从而能够理解并响应非精确或模糊的指令,显著提高具身智能系统的适应性和执行效率。

自研跨模态模型,打造具身智能的“通用语法” (https://www.qianyan.tech/) AI 第4张

图丨LPLM 算法模型架构(来源:资料图)

自研跨模态模型,打造具身智能的“通用语法” (https://www.qianyan.tech/) AI 第5张

打造具身智能的“通用语法”

陈俊波表示,具身智能最大的特质就是能像人类一样自主认知、思考与学习,因此与人类行为类似的人形机器人,自然成为了具身智能中备受关注的方向之一,如特斯拉 Optimus、小米 CyberOne 等即为这类产品的代表。

但是,具身智能远不止人形机器人一种,尤其是在工业、物流等场景,与各类设备的结合才是其更广泛的价值所在。基于此,陈俊波和团队打造了一款通用“大脑”。

他们赋予这款大脑的,是一种智能设备领域的乔姆斯基“普遍语法”式的能力,旨在给各类形态各异的机器人提供一种普适的认知结构和行为指导规则。

但是,这种泛化并不简单,由于传感器模型、观察到的数据分布和交互能力的不同,一种机器人通过对象探索获得的隐性知识并不能直接被另一种具有不同形态的机器人利用[3]。

得益于 LPLM 具备对三维以至四维世界的理解能力,模型能够从数据中提取出许多共性信息,通过抽象、投影、转移等过程,充当一种适用于各类机器人的基础模型,这让它的通用化使用具有可能性。

目前,陈俊波和团队已经推出一款智能清洁机器人,并在杭州良渚古城遗址、上海中心大厦等标志性地点实地运行。

陈俊波表示,之所以首先选择清洁和物流机器人作为突破口,主要原因在于当前具身智能领域正处于“从无到有”的开创阶段。

如果一开始就直接推出通用智能机器人概念,许多潜在客户可能会因对该技术的不了解、使用的不确定性以及对其潜力认识不清而产生抵触。

因此,他和团队通过智能清洁的实际案例,更为直观地揭示出通用智能模型的潜在能力,从而促进该技术在更广泛领域的普及,以达成通用化的愿景。

在推出智能清洁机器人后,陈俊波计划将这一核心技术——智能“大脑”拓展至挖掘机、铲车等更多传统机械设备领域,实现更广泛的智能化改造。

但是,要想打破传统机器学习依赖人为编程与模块化集成的局限,并不能只依靠数据量的增长。

所以对于陈俊波而言,LPLM 以大规模数据驱动自我进化的潜能还有待充分挖掘。他补充称:“在具身智能赛道上,重要的不仅仅是技术本身的创新,更重要的是如何将这种智能技术以恰当的方式应用到不同的行业中。”

为此,他和团队也正在逐一破解应用场景中的具体难题。同时,以可持续的商业模式推动技术快速普及与产业化。

未来,他们将继续致力于实现物理世界的 Scaling Law,通过扩大数据采集和应用的覆盖面,形成数据增长与技术进步之间的正向循环,以具身智能技术的发展促进更多传统行业的变革。

THE END

发表回复

相关推荐