报告回顾|基于具身认知的人工智能理论、技术突破及产业应用(系列二)

这里是标题一h1占位文字


近期,由安创加速器主办的【安创芯视野】活动特邀工学博士,西安中科光电精密工程有限公司董事长/创始人,仝人智能科技有限公司执行董事,中国科学院大学教授,西安市青年科协副主席吴易明先生作学术报告,吴博士以《基于具身认知的人工智能理论、技术突破及产业应用》为主题,围绕“具身智能”与业界伙伴展开了一次深入探讨。 

 

 

第一部分讲关于具身认知的概念与脉络;

第二部分讲具身智能是智能进阶发展的新范式;

第三部分重点讲一下具身智能视觉;

第四部分是讲我们在技术突破、产业应用以及产品落地方面的进展;

第五部分是对未来的机器人产业和机器人产品技术发展做一个简单的展望。

 

具身智能是智能进阶发展的新范式

众所周知,当前人工智能发展的三种代表学派:符号主义、行为主义、联结主义。当下最热的是联结主义,但在上世纪八九十年代,符号主义是一个非常重要的分支,它的代表就是专家系统。行为主义是人工智能最早起源的阶段,源于控制论,就是人的认知是基于对外界的信息感知,然后构建模型,再施加到外部的一个交互循环。我们对具身智能研究到一定程度之后,将会对这三种学派都进行一个全新的解构。

联结主义就是人工神经网络,虽然人工神经网络经历了十年左右的发展黄金期,但是大家可以看到,从产业界、学术界展现的成果来判断,这个泡沫基本已经破裂了。人工智能领域的专家已经认识到它有非常大的局限性。还有一点,人工智能领域的寒冬周期已经到来了。

对于人工神经网络,按照我2017年到18年的认知观点:人工神经网络本质上不是神经网络基本理论的发展结果,该领域的发展本质上是互联网技术和计算机技术发展的一个边际效应。因为互联网产生了大量的数据,另外电子计算机的运算速度,特别是GPU的发展,运算速度越来越快,能够训练出深度神经网络。深度神经网络实际上是构建了对象跟语义的一种端到端的链接,这个链接本身是“刷”出来的。

因为人工神经网络里面的神经元不是活的,而人的神经元包括人体的其他细胞本身是活的,每一个细胞受到刺激之后会调整它自身的表现,形成组织的激活,然后构建出来人的、或者生物体的组织活性。目前的人工神经网络,只是用数据“刷”出来的,“刷”了之后它能解决一定的问题,但没有解决根本性问题,特别是它的所有判断都是一种概率判断,但人能够做逻辑判断。

经过七年的研究,我们也找到了概率判断和逻辑判断的一个结合点(或者说分界线),可以简单展开讲,这个结合点就在语义,我们能够对一个对象进行准确的概念和语义表达的时候,实际上是在语义层构建了一个离散空间(信息集合),我们所有概念的判断都是在离散空间里做的,它是有限的、离散的,这样才能形成有效的概念,然后才能做逻辑的推断。

目前的深度学习的神经网络,最切身的应用在于大家比较熟悉的刷脸、刷指纹、安防监控、包括目前通过神经网络训练用作智能驾驶、无人驾驶等,都是能解决一部分问题,但都遇到了很难突破的挑战。

神经网络还有两个比较重要的缺点:首先它把三维信息在二维的成像设备投射,所以它是一种降维,它需要很多的数据进行监督和非监督学习的训练,图片信息实际是二维投射,二维到三维的解是一对多的,所以它总是得不到一个准确的、完整的信息判断;另外一个缺点是,我们为了辨认一个对象,经过神经网络的对特征的抽取之后,就相当于把这个特征拆解了,就是把一个完整的对象拆解成局部的特征,等辨认完之后,这个完整的对象就不复存在了,比如说,我认识一个楼宇,它由水泥、钢筋、木的门窗等要素构成,把这些特征一个一个抽取出来做一个按比例的统计特性之后,发现这个楼没了,就是说能认出来,但是楼到底在哪里其实已经找不到了,这是神经网络比较大的一个缺陷。神经网络可以类比于归纳法,但它不能通过归纳形成有效的规律性认知和解析的表达式,实际上人在认知的过程中或者说形成一个智能判断的过程中,我们通过有效的、清晰的表达式对信息进行简并或者简约,类似于从加法到乘法,虽然信息维度上升级了,但将局部信息做了简并处理,这样会形成清晰的表达式,同时让整个认知和计算过程简化。

大家研究人工智能到现在,首先要明确人工智能的定义。人工智能的概念相对清晰,或者大家比较公认的,人工智能是研究如何使用机器复现智能的学科。但是它的基础性东西、它的主语(主题词)是什么?是“智能”。“智能”这个词的概念实际上没有权威的定义,没有公认的学术定义,而且大家在研究智能的时候,其实躲不开“信息”,对“信息”这个词的理解,目前也是不清晰的。大家在说信息的时候都会回到香农的通信的信息理论,但是“智能”的“信息”到底是什么 ,到底该怎么定义,我研究了几年也没把这个问题想清楚,但是我觉得我对“智能”的这个概念,基本上可以得到一个阶段性的、比较清楚的认识得,我把我的观点和思路抛出来,供大家批判。

按照具身认知对智能科学的启发,我们强调具身智能,首先要强调主体能动,我们认知的过程并不是一个被动的映射。第二是交互循环,即智能的各个环节要素在过程中互动,会互相发生类似于选择性或者进化的作用。第三是强调通道约束,涉及两个方面:一方面是我们信息的获取来源依托于信息通道(如感官、人造设备),如果说信息通道约束太严的话,我们得不到有效认知;另一方面,我们的大脑为了有效的认知,应该基于我们的感觉器官能够重构外部的实存,那么我们的认知才能更完善。我们如果不能想象三维空间加一维时间,其实我们在三维的空间和一维的时间里面整个行为就会受到约束。通道约束的举例:大家可以思考一下,天生的色盲对颜色的认知和天生的盲人对空间的感知,都跟普通人是不一样的。

在具身认知的视角下,我们对智能做一个简单的定义,智能是“主体”的一种外显特性,在主体与环境的交互作用中显现出来的。在这一过程中,智能可以简单的表述为问题求解和响应的能力。一方面是问题求解,就是我知道这个问题的解在哪里;第二是响应能力,就是你必须表现出来,表现一方面是行为,另一方面在人来说就是语言。语言本质上也是行为的一种,语言必须靠手写出来或者靠嘴说出来,手写出来实际上是形成了对某种行为的一种符号性的标记,它是模式或者符号性的一种标记或显现。再把智能表征一下,Y=F(X),我们说一个主体是智能的,那么表现就是对Y=F(X)的求解的内容以及求解的过程。比如说,我们能观察到X、能观察到Y,我们求解F过程其实就是总结规律,发现规律的一个过程。如果是知道Y、知道F,那么求解X过程就是倒追我们当前现象的原因的过程。如果说我们知道X和F,要求解Y,其实是我们基于当前的现象和我们已经知道的经验和规律来预测未来发展的演化过程。所以智能的另一个说法就是,主体基于先天能力及经验归纳,认识规律、把握和运用规律、修正规律、获得问题求解的能力,并通过主动干预,把握和改变问题的结果。这就是智能真正做了什么以及它的表现。

智能的几种具体任务包括识别、选择、规划、评测,目前在大家的工程实践和学术界,大家聚焦最关键的问题实际上在“识别”上。包括市面上大家使用神经网络训练来刷脸、刷指纹、认识某种花、某种动物,某种场景,解决的关键问题都是“识别”问题;我们公司已经做了大量工作,通过对一个对象进行数学表征来达到对对象的识别。这个“识别”问题重要性,哲学家-维特根斯坦有清醒和非常超前的认知,他认为,哲学的基本问题就是“指称问题”。简单的讲,就是说我想起某种符号,然后在现实的对象里找到这个对象,和这个符号建立联系,也就是指着这个对象说,这是什么东西。如果指称问题不能解决的话,哲学的逻辑、哲学的推断以及各种论证就是一种文字游戏。所以,智能的基本问题和哲学的基本问题是相通的。但是研究智能的这几种具体任务后会发现,识别、选择、规划、评测本质上也是相通的,我对这几个词做了大概一年半左右的思考和研究,如果说把识别问题解决了,其他问题也将迎刃而解,这是我的一个观点。

再讲一下智能、特别是高级智能的基础,或者说具身智能已经突破的关于“高级智能”的核心点,在这个突破里,最关键的是突破了物理存在到生物感知信息空间到语义空间的信息映射问题。第一个层次,物理空间到生物感知信息空间,其实就是我们以视觉为代表的人的感知系统,这个空间其实某种意义上具有一种唯一对应的特性,特别是在时空领域里。但是按照现象学的观点,主体或者说人永远不可能认识物体的内部实在,我们只是认识到物体的时空表象。但是从我研究智能这个角度,第一层次是可以交互倒过来的,同时,如果说生物体把视觉感知的所有信息都记下来,我们的大脑根本是记不住(装不下)所有经验的物理对象,所以必须把它规范到语义空间,就是说我们人到底是记住了什么,睁开眼睛看到的东西到底记住了什么,是怎么样记住的,这个地方是我们近七年来研究的核心成果。这一关键信息过程,首先涉及到对于时空信息的变换、抽取和简约。我们真正记住的东西,在信息空间上表现的就是对称性破缺的对象信息;对称性破缺越严重,我们记忆越深刻。比如我们感知周边环境的时候,我们看到的周围的东西,所有物体占的面积最大的,图景变化不丰富的地方我们只将它作为一个符号,比如天空是广域的蓝色,我们只记住了蓝色,类似于傅立叶变换里的白噪声,经过变换之后就是δ函数。对什么东西记忆最深刻呢?就是几何构造越醒目、亮度非常高或者运动速度非常快的对象,从信息空间来解释就是对称性破缺比较严重的,这些地方都会被记住。根据它破坏的严重程度以及相关特征的拓扑结构,我们对信息进行了抽取、简约,然后把相关的信息存下来,这样才能构成我们有效的一个记忆。如果大家对这个事情理解起来困难的话,可以想象我们是如何绘画的,或者是大家白天去某个景观,去了之后回来如何给别人讲故事,讲这个景物到底是由什么构成的。那么讲的时候,每个人头脑里一定有一个图景,这个图景你只是抽取了关键信息,要把这个表现出来,你无非是用线条做一个简单的勾勒,勾勒完之后用语言描述出来。其实一层层的意思就是逐步的简约了。通过语言描述——倾听的方法,信息接收者永远不可能复制这个经历,这是整个信息抽取的一个非常关键的要素。

最后讲一下调制,我们认识的过程不是一个被动的,而是一种交互调制。比如说我们的视觉,静态的视觉是很难复现复杂的场景,所以在人辨认周围复杂场景的时候,其实我们借助了高速眼动,借助了我们的头部微运动。微运动的引入,其实是引入了另外一个量,就是时间量。连续的时间量是有效的,但是很多地方通过多视角的观测,其实是忽略了时间在这个地方发生作用的一种模式,所以在视觉的三维重构上,调制是一个非常重要的概念。包括我们现在为了获得三维信息,用激光扫描或者用结构光扫描,它实际上是给这个对象外加了一种调制信息,这个调制信息我们是已知的,如果说不外加这个信息的时候,那我们实际上是借助的微运动和高速眼动来调制的,还会引入历史记忆信息,这是我的一个观点。

相关新闻