报告分享|具身智能理论突破及其产业应用(系列一)

这里是标题一h1占位文字


报告分享|具身智能理论突破及其产业应用(系列一)

  前言:

  吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。

  近期,具身智能正在迅速成为科技界和产业圈关注的热门趋势。2023年8月29日,开源证券机械团队举办的机器人专家线下沙龙、新华社中国金融信息中心联同上海市浙江商会主办的浙商大讲堂顺利举行,特邀嘉宾工学博士、西安中科光电精密工程有限公司董事长/创始人、仝人智能科技有限公司执行董事、中国科学院大学吴易明教授,围绕智能机器人发展现状、挑战与未来发展进行探讨和交流,并分享题为《具身智能理论突破及其产业应用》学术报告。

  在此次报告中,深耕具身智能领域研究多年的吴易明教授论述了人工智能进展、智能科学发展的新范式、具身智能的理论突破、具身智能的产业应用、工业4.0与机器人产业未来共五个内容模块,从而提升对具身智能这一前沿领域的概念认知,解密智能制造背景下的科技创新演进之路。

  报告将分三个系列陆续推送,本期推文摘取报告第一部分中的精彩内容,以供读者交流探讨。

  一、人工智能和智能的定义辨析

  人工智能是研究如何使用机器复现智能的学科。定义中存在三个关键词——机器、复现、智能。最早期的人工智能出现在蒸汽机的调速系统以后,调速感测系统都是机械的,当时电机还没有发明,所以这个“机器”大家默认是指“电子计算机”。“复现”包括实现、近似、模拟、还原和超脱五个层次,“智能”包括“与环境互动、知识获取、知识编码、知识运用、通用问题求解”。

  目前人工智能的概念比较清晰,但是智能的概念不够清晰,学术界对“智能”没有公认的定义。

  2022年5月,我们梳理“智能”的定义并发布,借鉴“具身认知”的思路对“智能”做了定义,对“智能”作出定义如下:智能是“主体”的一种外显特性,在主体与环境的交互作用中显现,可简单表述为“问题求解和响应的能力”。该定义进一步拆解如下:

  ①问题包括:是什么(识别)、做什么(选择)、如何做(规划)、怎么样(评测)

  上述四个问题追根溯源是识别问题,日常体验到的识别是指人们脑中出现概念以后在物理空间寻找概念对应的对象,或者是看到对象之后在大脑里搜索对应名词的表述,因此识别直观地包括一正一反两个方面。

  无论是选择、规划还是评测其实都是在信息空间里面的识别,即把对象沿着空间方向一级时间方向展开成一种虚拟的、多维的表示,人们做选择、规划和评测的时候实际上是把不同的对象作比较,所以识别、测量是相似/相近的概念,因此选择、规划、评测最终可归类为识别的概念。概念的梳理是我们理论研究工作最重要的内容。

  ②求解:基于已知信息(现象、模式和规律、约束)获取问题的答案。

  ③响应:对问题结果的呈现。

  语言没有出现的时候,问题结果的呈现就是行动。在语言出现之后,语言成为人们第二个选择,所以一般来讲响应包含两个,即行动和语言。其实语言本身也是一种行动,说话或者写字最终都是要通过行动表达出来,而且需要被说出来或者写出来的对象必须被其他第三者能够有效感知,这样我们的响应才会有效。语言实际上是人与人之间的响应,如果你会说话,但别人听不懂你说的话,那么响应就是无效的。

  所以,我们认为“智能”的概念按“问题-求解-响应”三个层次理解。类比于方程求解的思路表达。上图右下角的方程实际上能够形象地表述对智能的理解,该方程受到认识论特别是康德以来的现象学的影响。“智能”涉及的求解的问题,简单来说就是解方程,通过已知项来求解未知项。已知X、Y求解F实际上就是总结和发展规律,已知F、Y求解X实际上就是追查原因,已知X、F求解Y正向的求解一般是做预测。直观的说,“智能”是基于本能结合经验,发现规律、总结规律、运用规律和修正规律。右边的层次越高,“智能”属性和特性会越高。

  二、人工智能的发展进程回顾

  1956年,达特茅斯会议上首次使用了“人工智能”这一术语,标志着人工智能学科的诞生。在过去六十多年里,人工智能发展跌宕起伏,经历了三次大的浪潮。

  第三次浪潮是从1997年开始,实际上,让大家兴奋的是2010年通过深度学习训练对一只猫的识别概率超过了普通人的概率达到了80%多,引起了全世界的兴趣。2016年以来这一轮引发的人工智能的高潮实际上是互联网技术和电子计算机技术发展的边际效应,学术界和产业界在讲人工智能的时候一般强调算力和数据,算力和数据如果不够,人工智能发展不下去,但大家对算法被忽略的比较多,会格外强调数据,互联网给大家带来大量的数据,算力则依靠计算机特别是GPU的发展给人工智能的发展注入很大的活力。算法是无法线性度量的东西,突破了某个算法就是突破了,没有突破的时候很难衡量算法的具体水准的界定和尺度的刻画,算力和数据可以用最简单的方法可以进行度量,所以大家会强调算力和数据。

  三、联结主义下的人工智能发展困局,

  以ChatGPT为例

  人工智能三个主要的流派:符号主义、行为主义和联结主义。符号主义认为智能是基于逻辑规则的符号操作,符号主义发展的源头是计算机发明,计算机大量操作的是符号和数学的应用,早期计算机对很多问题的解决提供了很大的帮助。行为主义的源头实际上是控制论,很多人将具身智能归类到行为主义的延伸,这个观点我认为不对,但是控制论促进了具身智能的发展或对具身智能有启示作用。

  近期最大热潮比如ChatGPT以及生成式人工智能的发展本质上是联结主义的体现,具身智能和联结主义相关性很大。具身智能有很著名的实验,双胞胎的两只猫,一只猫可以自由运动,另一只猫绑在小车上,除了头什么都不能动,如果在它的发育期一直躺着,视觉和运动的感觉就很难发育起来。再者,具身认知的研究对联结主义形成有很大的启发,联结主义是需要训练的,闭环的训练环节会对联结主义的联结网络的生成起到很大的反作用。

  具身智能的理论已经限制了当前联结主义的发展,特别是深度学习神经网络的发展,训练神经网络的人的大脑思维方式也是神经网络的,在训练神经网络的过程中,科学家大脑里的神经网络也会被训练,外部神经网络和科学家脑部的神经网络会不会形成闭环,这个闭环的交互作用会使得我们的神经网络收敛到局部极小值,所以全世界的人工智能的发展跳不出联结主义的很大原因就是在训练神经网络的时候人体大脑的神经网络也在被训练。类似于著名哲学家尼采的一句名言:“当你凝视深渊时,深渊也在凝视着你。”

  联结主义发展到现在解决了人脸识别、语音识别、机器翻译、围棋、生成式绘画、ChatGPT、图像分割等问题,这些本质上需要人为参与系统,告诉被训练的神经网络,通过类似穷举法方式实现对一类对象的分割、训练与识别。本质上还是一种穷举法,穷举法的研究类比于物理学的发展它处于牛顿前时代的科学发展,方式是通过大量观察、总结,用归纳法总结规律,形成一种统计学的认知。

  牛顿提出三大定律本质是公理性质,让物理学进化到近现代,目前的深度学习可以类比物理学发展进程中的前牛顿时代。用神经网络训练解决图像问题、语言问题、语音问题等,最近还有用于立体视觉识别,他们能解决的问题也是右下角的表述问题,通过比较粗糙的分割方式,也是人告诉系统在分割时标记椅子背、椅子腿等部分,这种直观的分割实际上越来越受制于算力和训练的时间以及训练的能耗的约束。

  ChatGPT从产生到现在,每天都要花费大量的钱来维护系统,我不好说有没有形成有效盈利。从我对大语言模型的理解,它有以下的缺陷:

  ①ChatGPT无法自我验证信息判断的真理性。思考是基于语言模型的运作,创作实际上是不同语料的排列组合。它的回答是在人工告诉他先验知识的基础上的一种概率映射,所以ChatGPT的应用落地和发展有很大局限,它在回答的时候不知道自己说的话有没有真理性,这就会引发我们在物理世界真理性的判断,真理性包括形式逻辑里的真理性和现实中的真理性两个层次,我认为一个技术要真正应用就需要具备这两个真理性,而ChatGPT这两个都不具备。一个是它的过程是概率性映射,第二是它不能回归到我们的物理现实,所以它无法自我验证信息判断的真理性,因此我个人对ChatGPT持批判态度,这个应用出来不到一周我就对它的表现和方法提出了一定的质疑。

  ②ChatGPT持续的高资源投入与生物节能生存原则互斥。深度学习发展到现在已经到极限,ChatGPT也是一个佐证。原来有一堆创业公司在做深度学习或机器学习,但在ChatGPT出现之后,只有几个大型巨头可以做,因为需要很多资源投入。从生物进化的角度,需要海量数据、大量算力、大规模网络才能形成一定层次的智能,从生物进化角度来说这种生物早就被淘汰了。生物有一个很大的生存原则就是节能,如果不能节能,那么生存环境会越来越恶劣。从出生到成长最好的方式是基于小样本可以很快对周围的对象以及周围的环境形成感知,如果需要海量数据才能让它真正发挥作用,那么在发生作用之前被淘汰掉的概率就会非常大,所以ChatGPT在数据匮乏的领域实际上是无法应用的。

相关新闻


报告分享|具身智能理论突破及其产业应用(系列二)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。