报告回顾|基于具身认知的人工智能理论、技术突破及产业应用(系列一)

这里是标题一h1占位文字


近期,由安创加速器主办的【安创芯视野】活动特邀工学博士,西安中科光电精密工程有限公司董事长/创始人,仝人智能科技有限公司执行董事,中国科学院大学教授,西安市青年科协副主席吴易明先生作学术报告,吴博士以《基于具身认知的人工智能理论、技术突破及产业应用》为主题,围绕“具身智能”与业界伙伴展开了一次深入探讨。本文凝结了公司持续七年突破人工智能底层理论和技术的最新成果,分为四期连载发布,希望大家能够共同研讨,助力人工智能技术和产业发展进阶发展。

本次报告主题为《基于具身认知的人工智能理论、技术突破及产业应用》,题目比较长,也比较学术化,在我们面向市场和产业界的宣传和分享过程中,一般直接讲为具身智能机器人的理论和技术突破。报告分为五个部分:

第一部分讲关于具身认知的概念与脉络;

第二部分讲“具身智能是智能进阶发展的新范式”。人工智能研究经历了八十多年的发展历程,大家现在熟悉的人工智能,会对应联想到深度学习和神经网络方面,但是深度学习和神经网络实际上是实现人工智能的一个工具,它不能代表人工智能,我们说“人工智能”实际上说的是一个设备或者是一个系统,它具有像人或者是像动物一样的智能,是一种属性,工具和属性是两个不同层次的概念;

第三部分重点讲一下具身智能视觉。因为智能突破的核心在于视觉,目前大家熟悉的成像技术或视频智能处理技术不是真正的视觉,按照具身智能的理解,视觉是构建出来的,我们对外部环境和物体的感知本身是眼睛和大脑重构的一个“信息空间”,从具身智能的视觉角度理解,就是我们所有感知的对象实际上是我们意识的一种外投射,这是具身智能另外一种理解思路;

第四部分是讲我们在技术突破、产业应用以及产品落地方面的进展;

第五部分是对未来的机器人产业和机器人产品技术发展做一个简单的展望。

 

关于具身认知

具身认知是一个哲学和心理学的概念,它认为人的认知和智力活动不是大脑的孤立计算,而是大脑、身体及环境自适应交互作用的结果。整个过程强调大脑、身体和环境的互动。

认知是以身体感觉为基础,如果没有感觉的话,我们的认知是空洞的,所以我们的“感觉”是信息获取的第一个或者说是基本的环节。身体的状况会影响到我们的认知和判断。具身认知也强调认知过程中环境的作用,就是说环境并不是一个独立的存在。

具身智能的理念其实是与我们很多方面都是息息相关的,包括生物进化/艺术领域等。按照具身认知的观点,以西方艺术的发展为例,早期的绘画,画家更关注的是场景复制和写生,画作很少呈现画家与环境的内心互动,画师是站在上帝视角透视得到绘画成果;在后期,特别是印象派发展之后,绘画开始强调人对于环境的感受,这也是具身认知的一个表现。

具身认知强调认知、身体和环境是一个整体,是一个相互作用。认知会改变身体,身体会改变环境,环境又反作用于身体和认知的过程,整个过程都是交互的,这个交互的动态循环跟生物的进化发展史是有些接近的,环境既能够改变和选择物种,物种也会改变环境,这个也是一个交互的过程。

再简单回顾一下具身认知的哲学脉络,我梳理了六位哲学家,康德、胡塞尔、杜威、海德格尔、梅洛-庞蒂、埃德尔曼。埃德尔曼其实不是一个哲学家,他是一个科学家,他因免疫系统理论而获得诺贝尔奖,获奖后他聚焦于对意识的研究,他认为人的大脑的意识产生以及各种表现与免疫系统是非常接近的,他后续的几本著作对具身智能发展有非常大的促进作用。

近现代哲学的源头一般都认为是从康德开始,康德的认认识论强调人们认识事物具有先天性,可以经验事物并形成有效的映射,就是说,人的大脑和动物的大脑对事物的认知结果和深度肯定是不一样的。他还有一个很重要的观点,人不能认识事物的本体,“物自体”不可认识,人只能认识事物的表象。人感知到的现象,只是主体接收和认识到客体事物的可感知的现象,然后在这个基础上形成关于“现象的”客观的知识。

到了二十世纪初,胡塞尔发展了现象学。他的超越主体论认为,感觉经验的特征是其依赖于正常起作用的身体,身体在感觉经验过程中起到非常重要的作用,存在和意识本质上是相互依赖的,最终在绝对的聚集中成为一体。哲学家讲话一般是比较抽象,理解起来比较麻烦,很抱歉我对胡塞尔的哲学著作读的比较少,但在查相关脉络之后发现,胡塞尔是现象学里的集大成者,是一个绕不过去的哲学家。

杜威坚持自然主义观。认为有生命的地方就有行为、有运动。为维持生命,运动就要连续,并与环境交互作用。从这个地方,我对具身认知的一个观点,就是我们的智能发生的过程,不是纯粹在大脑这个独特的活体里才有智能。生物体有智能的基本条件是每一个细胞都有智能,细胞形成器官、组织,又涌现出新的智能特性,直到形成一个完整的生物体。生物体的表现和它的器官、细胞的智能表现是不同的,但是它所有智能的发生和涌现都是基于单细胞生物层的智能或者对环境的响应,因为单细胞是智能的,所以在更高层次上才能涌现出更高层次的智能。在智能发展过程中,动物的眼睛是一个非常重要的进化结果,几乎所有的高等动物都是两个眼睛。两个眼睛既是必要的,又是非常经济的,两只眼睛的布局有助于我们视觉神经系统重构空间,两个眼睛基于交互,重构三维空间。每个眼睛的成像是二维的,再加上动态的时间维,每个眼睛就有三维,两个交互才能形成一个有效的四维时空,这在生物进化和发展过程中是一个非常重要的现象。

梅洛-庞蒂是法国哲学家,是知觉现象学的集大成者,我受梅洛-庞蒂的启发是最大的。他认为知识是主体及已有知识经验基础上建构来的,是在认知(知觉)主体的身体与认知对象、环境相互作用的过程中完成建构的,具有鲜明的涉身性、情境性与生成性特征。包括我们对时空的认知,一些经验性的如颜色、感觉的认知,都是一种建构性的,特别是时空的认知,是一种建构性的。梅洛-庞蒂的哲学和他的一些著作,标志着系统化的具身认知理论最终形成。

具身认知的神经生物学证据,直接反映在人或者是灵长类动物都有镜像神经元。在上世纪80年代末,生物学家在猴子的大脑里找到了镜像神经元。镜像神经元是高等动物在观察外部情景的过程中,神经元会重复一个虚拟的影像、虚拟的视觉空间,它能够基于虚拟的空间来记忆和模仿它外界观察到的行为和动作,因为存在镜像神经元,也能相互理解,这也是语言的基础。镜像神经系统支持认知的具身特性,认知的理解过程同身体的感知-运动是息息相关的,理解了感知-运动,在大脑里形成一种行为的记忆之后,我们对某些行为的发生或者某些语言激活了我们的镜像神经元,它就能对认知的现象进行预测,这是神经生物学的一个证据。

具身认知还要强调通道约束特性。大家可以回顾一下,早期人类对外太空的认知,认为星星是挂在天幕上的一个二维存在,随着我们对现代科学的发展理解和我们对科学仪器的认知的发展,才认识到我们的地球是太阳系里面的行星,外太空的行星其实是构建了非常大的三维立体空间。这个广袤的三维立体空间实际是我们理解了科学仪器的作用,然后理解了科学家对外太空的图的模拟之后人想象出来的,其实我们真正是感受不到外太空四维属性的存在,这是具身性一个非常明显的证据。但是我们每个人都能感觉到,自己的周边是四维的时空,我们在欧几里德空间里能感受到时间的流逝,这整个的过程是跟我们的感知以及我们运动所能触及的运动范围是息息相关的,大家对空间的感觉是随着对象远离自己的身体逐步减弱的。我们可以环顾四周,感受到四维的时空,但是我们在想一个区域的地图时,每个人的大脑就是一个二维图的概念,它是一个形象、一个符号,只有我们身临其境体验到我们的近景之后,我们才可以想象到周围的四维时空。这是具身认知一个非常重要的证据。

人的空间意识是后天生成和建构出来的,意识做了一种外部投射,是基于我们的感觉器官和我们的体验重建出来的。戴眼镜的人都有一个体验,我们第一次配镜的时候,会感觉到周围的空间、景物变小了,大概活动二十分钟左右之后这个感觉就会自然消失,实际上这是我们的大脑神经元重构了我们对周边的一个体验,这个体验在我的研究过程中得出了一个非常重要的等效性——“我们近身的视觉空间和我们的运动空间是等价的,或者说等效的”。这是我们很多认知的一个基础,也是推演我们人工智能发展的一个非常重要的基本假设。

相关新闻