报告分享|具身智能理论突破及其产业应用(系列二)

这里是标题一h1占位文字


报告分享|具身智能理论突破及其产业应用(系列二)

  前言:

  吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。

  近期,具身智能正在迅速成为科技界和产业圈关注的热门趋势。2023年8月29日,开源证券机械团队举办的机器人专家线下沙龙、新华社中国金融信息中心联同上海市浙江商会主办的浙商大讲堂顺利举行,特邀嘉宾工学博士、西安中科光电精密工程有限公司董事长/创始人、仝人智能科技有限公司执行董事、中国科学院大学吴易明教授,围绕智能机器人发展现状、挑战与未来发展进行探讨和交流,并分享题为《具身智能理论突破及其产业应用》学术报告。

  在此次报告中,深耕具身智能领域研究多年的吴易明教授论述了人工智能进展、智能科学发展的新范式、具身智能的理论突破、具身智能的产业应用、工业4.0与机器人产业未来共五个内容模块,从而提升对具身智能这一前沿领域的概念认知,解密智能制造背景下的科技创新演进之路。

  报告将分系列陆续推送,本期推文摘取报告第二部分中的精彩内容,以供读者交流探讨。

  2023年5月17日,英伟达黄仁勋在半导体大会上提出具身智能将会是人工智能的下一个浪潮,引发了全球范围对具身智能的关注。

  5月以来,学术界以李飞飞、姚期智、卢策吾、李德毅以及郑南宁为代表,他们最近都发表了关于具身智能的演讲和论文。产业界以谷歌、特斯拉、英伟达、META、阿里、小米等为代表,近期的世界人工智能大会也出现了人形机器人的热潮。

  但是谁是真正的具身智能,或者说真正的具身智能的方向在哪里,我觉得还是存疑的。如果大家关注具身智能更深的学术研究,我认为卢策吾教授的观点是值得借鉴的。

  一、关于具身智能的典型观点

  李飞飞认为“大模型+机器人=具身智能”,她最早提出具身智能将成为AI领域下一个北极星问题,去年就发表了相关的论文和谈话。2023年7月展示了基于语言大模型和机器视觉大模型,在这两个大模型加持下,指挥机械臂完成越障操作,在有花瓶遮挡的时候能够拉开一个抽屉,但是这个过程需要人为介入,人输入“你偏离了1厘米”的指令。目前“人在回路中”的成果还是有些地方没有达到最终形态。

  我认为所有的智能体关键标志要回归控制论思路,智能体是一个主体,它是基于感测对象、感测信息与基准信息的比较,能够自主做出自适应决策,这是基础。如果一个系统对空间对象没有精细辨识能力,无法实现对空间对象几何尺寸的测量,那么它的智能是不完善的。

  

  姚期智院士在8月18号世界机器人大会上,强调人形机器人等于具身智能或者具身智能应该重点关注人形机器人。他在大会上指出具身通用人工智能最理想的身体形式就是人形机器人,如果要打造一个有泛应用的通用机器人,人形是最好的形态。

  世界机器人大会上彭志辉展示的也是人形机器人,他和姚院士观点有点接近,展示的是膝盖朝后的人形机器人。

  特斯拉的也是人形机器人,他们对人形机器人非常关注,投入也很大,下图右下角是他们对人形机器人训练的视频。

  

  然而,“智能”未突破的人形机器人是没有灵魂的。

  总结一下最近出现的具身智能概念:

  1.AI+机器人=具身智能?

  2.大模型+机器人=具身智能?

  3.GPU+机器人=具身智能?

  4.人形机器人/具有人身体的机器人=具身智能?

  

  “AI+机器人”和“大模型+机器人”看似离具身智能更近了一步,但是这两个简单的“加”相当于油与水的结合。所以,这四种观点都没有抓住具身智能的本质。

  二、具身智能的哲学溯源

  回归对具身智能的概念清理,需要先追溯的是“具身认知”。

  具身认知从康德的现象学到梅洛庞蒂的知觉现象学,有几百年的发展历史,是在哲学上的一元论和二元论的对抗过程中发展起来的。我们受到的教育是辩证唯物主义,即物质决定意识,意识对物质具有反作用的一元论,所以我们的哲学教育面比较窄,如果我们能够在早期受到更多关于哲学思潮的教育,是有助于我们发展科学的。

  

  以上五位学者的研究有助于我们梳理具身智能的哲学脉络。最主要关注的是哲学家梅洛·庞蒂,他认为高级的、定性的逻辑的概念和智能必须从低级的、不确定的、非逻辑的和非概念的身体智能中衍生出来,身体是经验世界所有可能的根源,也是我们观察世界的基础。所以,梅洛·庞蒂关于认知的表述对具身智能的发展是最有促进意义的,关注具身智能就绕不开梅洛·庞蒂,需要认真研读他的著述。

  三、具身智能的生物溯源

  具身认知的生物溯源,是指从生物学和脑科学角度来看具身智能研究关注哪些。

  一是生物学证据。最基础的问题是生物是不是有智能。从单细胞生物进化到复杂的生物以及到人的过程,首要的问题是单细胞生物有没有智能,如果单细胞生物有智能属性,那么单细胞生物构造本身就是信息感知与处理器官,它在自身的能力范围内实际上是有智能的,它通过物质转换、能量转换和信息转换三种交换完成生存、繁衍、迁徙等过程就是智能的表现,这样就构建了最低层次的智能。

  理解最低层次智能架构和控制论初期研究比较接近,它的智能的信息器官与物质器官是大量融合在一起的。这就引发了一个问题:人身上的单个细胞是否有智能?从我们的思考来说,我认为人身上的细胞是有智能的。细胞的自身分裂和发育中,它在扮演各自的角色实现人活体的各种机能,这个过程是自发的。人身上单细胞的智能、组织和器官的智能在进化到更高级的人整体的智能是不断的重组和涌现,所以生物智能不是说我们的大脑意识是唯一的,而是肉身和器官都有智能,并通过各种进化和组合构成更高层次的智能。

  二是神经生物学证据。镜像神经元的发现说明高层次哺乳动物在建立个体和个体之间同感过程中有镜像神经元,基于镜像神经元的机制能够理解不同个体之间的相似动作,激活大脑对应神经系统做出一定响应。

  镜像神经元一方面是高级智能,特别是高级意识的基础,另外一方面是人类能够比其他动物有更强和更好社会组织形态的基础,这是具身认知和具身智能的神经生物学证据。

  

  四、具身智能是智能科学发展的新范式

  具身智能是什么?主要是五个方面:

  ①以具身认知为指导的人工智能,体现哲学一元认识论思想;

  ②参考生物智能本质——活体生物的细胞、器官或组织、单体生物均有不同层级智能,生物智能是“肉身”物质构造的机能;图灵在1950S提出具身智能和离身智能,但是离身智能不存在,图灵所说的离身智能也是离不开计算机作为物质载体的,离开物质载体就没有智能可言。首先要强调智能信息处理依赖物质构造,智能信息处理/符号处理的载体是不可缺的,“没有飘在空中的意识,也没有浮在空中的灵魂”,人的意识或者感受都是肉体或人机体机能的涌现,这是生物学上基本的认知。

  ③具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和响应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法。该条表述具身智能的基本思路和基本方法,是我们关于这个概念最关键的表述。具身智能是智能的一个方法,下图右侧的图形表述更为直观。具身智能说主体有智能的时候,它在处理信息时一定要把关注的对象以及环境还有自体都要纳入思考范围,类似于打仗的时候要做到知己知彼才能百战百胜。知己知彼,以及知环境的态势,利用外部的自然环境和社会环境,知己、知彼、环境这是三个层次。现代战争可以通过仿真模拟或沙盘模拟使我们的推演更准确、更有指导意义。所以,具身智能的研究和我们日常思考问题的方法是相通的。

  ④具身智能方法是分级的嵌套的,(类比于细胞)最基础层单元的自体物理构造与所需认知模型同构;细胞要实现智能是一个循环图,器官、组织到人和社会都是分级嵌套的,无非是低层次的对象会在实现高层次的时候把相关的信息做缩减和抽象,这样高层次智能实现循环不至于太复杂。

  ⑤具身智能在认知与实践的矛盾运动中实现智能增长。智能增长是指整体模型的优化和构建,我们的模型在最初的时候是不准的,生物通过代际选择实现增长。另一个是人类这样的高级动物,大脑神经元是在实践过程中不断迭代,通过迭代进行训练。这里面强调实践,大脑神经元感知到信息以后,要对外输出行为或者输出语言,这样它能够实现循环的闭环,在这个过程中实现智能的增长。

  智能的增长,特别是在神经网络的训练过程中实际上是有条件的,目前人工智能或人工的神经网络让我有疑虑的点在于它的边界在哪里,很多研究深度学习的专家是说不清楚的,几乎认为深度学习神经网络是一种万能架构。目前深度学习神经网络在解决立体对象的识别问题上没有发挥出应有的作用,原因简单来说就是输入的信息和输出信息要操作的对象是不匹配的,这是它不能够发挥有效作用的关键缺陷。

  

  我在2021年的报告中提出“具身智能是智能科学发展的新范式”,我们强调:

  ①具身智能是对已有的人工智能技术路线包括前面的三大学派的批判和提升,促进智能科学发展升级和进步。

  ②基因决定不同生物种属智能水平的高低,基因编码本质是数学性的,研究中引入现代数学成果是必要的。这就是说一个生物的基因不管它是怎样的,实际上是一种数学编码,基因定了以后能够发育出什么样的物种基本是确定的。基因决定了不同生物智能的高低,基因本质上是数学性的,它是基于基因序列,是可以预测的。

  ③细胞级智能、低等生物、生物无意识行为和响应,大多服从控制论模型。包括社会层面的一些事情,人智能是无能为力的,包括物种的竞争某种意义上也服从控制论的模型,所以具身智能不是否定行为主义,实际上是行为主义的延伸。

  ④高级生物(动物)神经元后天发育中,自然物理规律扮演“监督”角色;动物一旦诞生之后,神经元、肌肉也是有智能属性的,它的发育实际上是跟环境交互作用的结果。这一条是讲联结主义在具身智能的研究中是有作用的,但是要把它的作用限定在一定范围内,它的输入端和输出端在数学上是等价的信息空间,这时候它是可以起到作用的,包括人的学习过程和人的训练过程都和人工神经网络有一定的相似性。所以第四个要点就是强调这是一个新范式。

  ⑤接近人类的通用人工智能,最基础的任务是实现对“物理实存对象空间及运动属性的认知模型建构”。人在高层次的认知模型的构建最基础的是对我们存在于物理空间中的立体对象的构建,该构建是其他方法无法跨越的关键。构建以后要对它的运动属性进行仿真和构建,我们构建形成有效的认知模型。

  ⑥语言、符号、逻辑是人类文明高级阶段的特有成果,是“人类”生物肌体映射物理世界成果的溢出和卸载,语言、符号和逻辑都是人创造出来的,构建之后成为人认识世界的工具。目前来看只有人达到了对对象空间属性的清晰辨识,一般的高级的其他哺乳动物是达不到的,包括猴子、猩猩、狼等对对象的分辨就不够清晰,它们不能有效分割对象的局部,也不能有效地对对象局部的功能属性做分解认知,而这是具身智能里最关键也是最难解决的问题。

  具身智能是构建高等级智能主体(??)的基石,两个问号说明人发展出来的包括语言、符号、逻辑等工具是实现人在社会层面更大的认知和思考的范围,这些工具使得人的理解力从古代到现在的很多文明的成果能够传承下来,并且借助仪器使我们的认知面有了非常大的扩展。如果非生物智能体能够有效运用和掌握这些工具构建的主体是很恐怖的,因为它的信息掌握能力和信息摄取能力非常强,可能会对未来产生很大的威胁。具身智能有效掌握这个方法或用具身认知作为指导突破智能最底层的东西依赖于有效解决哲学上维特根斯坦提出的“指称”问题。认识到人类在幼儿期能够有效认识到桌子和杯子的过程是如何发生的,人工智能最关键的就是要把这个过程解决了,如果这个问题不解决,深度学习或ChatGPT等都是“悬浮在空中的”。

  西安中科光电精密工程有限公司2019年突破的最基础的问题就是“指称”问题的解决,实际上是解决了数学语言和物理对象的映射问题,自然语言和数学语言之间的链接和映射从理论上已经打通了,但是工程上还没有精力和资源来实现。

  以上是对具身智能概念的澄清,希望对大家有参考意义。

相关新闻


具身智能:通向人类智慧的未来之路

随着AI技术的进展,ChatGPT等基于大语言模型的聊天机器人已成为我们解决问题的优先选择。但当我们提出非常私人化、具象化及场景化的问题时,它们给出的答案往往不尽人意。