报告回顾|基于具身认知的人工智能理论、技术突破及产业应用(系列三)

这里是标题一h1占位文字


近期,由安创加速器主办的【安创芯视野】活动特邀工学博士、西安中科光电精密工程有限公司董事长/创始人、仝人智能科技有限公司执行董事、中国科学院大学教授、西安市青年科协副主席吴易明先生作学术报告,吴博士以《基于具身认知的人工智能理论、技术突破及产业应用》为主题,围绕“具身智能”与业界伙伴展开了一次深入探讨。 

第一部分讲关于具身认知的概念与脉络;

第二部分讲“具身智能是智能进阶发展的新范式;

第三部分重点讲一下具身智能视觉;

第四部分是讲我们在技术突破、产业应用以及产品落地方面的进展;

第五部分是对未来的机器人产业和机器人产品技术发展做一个简单的展望。

 

具身智能视觉

第三部分讲智能视觉,视觉和成像是有本质的区别的,大家比较熟悉的成像,就是CCD、CMOS这块的成像,包括用雷达成像。这些成像本质上是获得了低层次的点像素信息或者点云信息,是电磁波与传感器作用后,信息被感知、传递、储存和呈现的过程。视觉实际上是基于眼球的成像和视神经以及大脑,它重构了空间,视觉意识被重构并附着于对象表面上,而不是呈现视网膜上的像素信息。我们看到一个对象的时候,不会说我们看到了多少个像素,我们永远只是说在我们的眼前有多少个分离的、有完整语义的对象。这个对象的语义,会在你关注某一个对象时被二次解构;比如说,我看到眼前有几把椅子,那么我关注每把椅子的时候,我们会注意到它的样式、颜色、扶手等;更进一步,我们再关注扶手的时候,会关注它的材质、纹理构成等。所以,任何时候,我们视觉感知到的,在我们意识里得到的东西永远是一个概念化的语义;除非我们要做精细的测量,这个时候意识就进入了一种对距离、面积或者某些物理量进行一个精细的、连续的信息比对,测量的过程,这个时候才会进入到一种“微观”的状态。这是视觉和成像概念直观、通俗的区别。

人类的视觉成像过程是比较复杂的,整个过程首先是晶状体成像,在眼球上有感受野的概念,眼球的信息往后传的时候,其实传的信息非常少,同时在大脑里面,左眼和右眼的信息会进行一个交汇,这个交汇是立体重构的一个关键,这是我对视觉的一些粗浅的认知。在一些脑部受损伤的病患身上会表现出视觉信息的分类缺失:比如有的图像左侧看不到、右侧能看到;有的能看到棱线但是感知不到颜色、或者感知不到运动;或者患者感知到这个对象了,但是对象的语义不能有效的表达出来,这都是脑部损伤的病人的一些表现。这说明信息进入大脑之后,其实是分层、分类处理和存储的,这些对人类的视觉研究的成果,是启发我们对机器视觉、人工视觉信息的基本架构进行梳理工作的基础

再说一下运动信息,所有动物对运动都非常敏感,对运动的敏感这一能力,使得动物能够高速、有效区分近景和远景。参照运动信息在视觉感知里的这一表现,我们借鉴光流场的概念,区分像素微分信息的相似性,就能很快的把像素信息进行一个有效的归集。结合三维重构,识别像素集合在运动上的相似性,其运动特性能够用同一个方程表达的,就可以把它进行一个有效的简并处理。

智能系统的导航技术,主要有两类:一类是内传感积分导航(惯性导航)另一类是外基准测量导航(如视觉、无线电、磁场等)。对于近景精确导航,视觉是必备甚至唯一的手段,但是从我了解中,目前绝大多数视觉导航实质是成像信息和对象深度信息融合的一种导航方式,这个跟人的视觉感知、视觉意识有本质的区别。这种导航方式在处理深度信息的时候实际上是借助的二维图像概念。因为深度信息站在人和对象的交互角度,是一种放射状的,人的视角一变之后,深度信息立马就是一种非线性的变化。所以很多做深度学习的团队在处理深度信息的时候,把深度z的方向等效为图像里的灰度信息在处理,这样它的x和y作为地址坐标,把z当做灰度,这个时候深度信息是一种放射状的,相对欧式空间它已经发生了变形,变换视角之后就会造成对象的信息不能够进行有效的比对。如果说用视觉信息来处理的话,我们的点云信息、像素信息必须要在欧式空间里表征。欧式空间表征的时候,因为物体从不同视角来看的话,它的整个信息其实是有重叠,这个表征本身是一个非常麻烦的事情。只有在欧式空间表征的信息,做信息比对分析的时候它才具有唯一性,它不会像做智能驾驶的时候用深度信息来作为一个处理的量,这整个的处理结果是很麻烦的一个事情。

具身认知对视觉另外一个解释就是——我们目光触及的对象实际上是大脑意识的一种外显。我们看到的对象不是说我们真正看到的物,而是这个对象作为我们大脑意识的一种投影屏,我们看到这个对象就感觉到我们的目光触摸到这个对象。目光触摸的对象和我们肢体触摸的对象,两个能够进行等效的时候,我们的行为和认知才具有同一性,我们主体才能够有效的活下来,否则,我们看到一个对象形态与它的实存误差很大,去捕捉它捕获肯定会扑空。从生物进化这个角度来说,很难捕获到猎物,它可能就在这个过程就被淘汰掉了,这是一个比较抽象的理解。

基于具身理论认识视觉感知智能,第一,影像是视觉的初级感测性信号形式,不是视觉本身。广义的视觉包括光、声波以及电磁波,是抽取感知对象关联空间结构及对象构造几何结构的唯一通道,基于视觉空间及视觉对象的微分信息预测对象运动,指导行动和决策;第二,为了有效获得视觉感知,过程中通过重构对象、环境以及感知工具来呈现和理解感知的过程和结果,强调感知主体的运动,以改善信息通道。通过引入运动参量,本质上是对感知信息的一种调制,基于调制过程反解析消除多解,提升感知结果的置信度。这就是视觉认知的一个基本循环,这个循环是相当复杂的,这个工作我们已经研究了有三年多。

这是三维重建的一个比较简要的模型表达,我们认知的时候其实都有预测的模型,基于差异比对来校正这个模型的参数以及校正我们的信息通道,形成有效的认知。整个的过程实际是预测模型和感测信息不断的做迭代,优化三维重构结果。

(案例展示)

基于对上述具身智能的理解,我们公司搭建的被动式双目相机的三维重建,从可查询的公开资料来看,我们已经获得了全球最好的结果当然,这是一个直观的看法,还没有形成有效的一个量化分析结果,因为公开的资料中量化表达其实不多。我们基于双目重建,右上是一个唐三彩瓶表面的纹理,我们已经做得相当清晰,还有冰墩墩、花瓶的重建等,其实这个结果已经可用于工程上,我们正在做工程化的应用,一个用在物流方面,一个是在测量方面在做进一步工程化的工作。

 

(效果比对)

这是相关的效果比对,中间这一排是我们得到的三维的效果,右侧这一排是基于某公开深度神经网络算法,得到他们重建的一个结果。

用具身智能来理解三维重建,这里讲一下我们的三维结构光工作。其实三维结构光投射器本身就是一个调制,这个调制实际上是构造出来,我们知道怎么调制,然后对它局部的信息进行了有效的编码/解码,通过成像通道,快速找到编码的对象,一个调制通道,两个成像通道,这样的话就得到一个相对比较清晰的三维重建结果。但是这里有一个比较大的影响就是空间量化过程中会引入高频噪声,这个高频噪声会造成局部的噪声比较大,另外就是它的一些高频突变的地方受噪声的干扰,处理其实相对是比较麻烦的。那么,按照具身智能的思路理解,反过来我们把噪声模型引入这个系统就能够有效的消除前期量化误差的影响。就是说,我知道“我干了什么”,我知道我的信息通道有什么缺陷,我把这个缺陷进行一个反补偿,就能达到一定的优化效果。

视觉认知何以可能,就是说我们的视觉认知到底做了哪些事情?首先,由低层次对象组合,形成高层次对象,可以被感知并有模式化表征。这个模式化表征的源头在于我们古人类的岩画和象形文字,特别是我们中国有一个非常优势的文化,就是我们文字的源头是象形文字,这个象形文字数学化表达就和我们目前解决的问题是相通的。第二,某些表征中蕴含了空间架构的信息,以及可能、有限可列的拓扑信息。用一句话表达起来很抽象,用数学方法表达也费很多的章节,所以这个地方我不展开讲。第三,基于先验的高层次模式的语义判断,区分可以有效表征部分及其余部分对象,对对象进行干预性处理。这里干预性处理其实就是说,要做干扰的剔除或者说对误差的消减,这都是属于干预性处理,就是通过这个推理和迭代,能够有效的分析哪个地方是干扰,哪个地方是非确定性因素引发的误差。第四,通过模式分析,对象与环境的交互作用能够形成有效的辨识和推理。

再讲一下识别的工作,因为智能识别实际上是人工智能研究的核心,通过几年的研究之后,我们有一个基本的认知,识别和测量的基础都是源于感知。感知包括了感知周围环境、感知任务对象、感知自身状态;基于感知、观测形成“模式”;识别过程是对实物存在模式的感知-命名-量化-区分的过程,其实“识”和“别”是一对矛盾,“识”实际上是找到同一性,“别”是区分和剔除。“识别”这个词语我认为是一个非常好的表达,我们认识一个对象的时候,一定是区分这个对象和其他对象的区别,才能对这个对象进行有效的清理和无效成分的剔除。识别过程是蕴含信息空间的对称性,以及对称性破缺,就是“识”实际上是跟对称性相关的,“别”是跟对称性破缺相关的。我们既要记住对称性破缺的东西,还要搞清楚哪个地方是对称性破缺和对称性交互形成的有效对象的一种表征。对可感知对象的命名蕴含了信息完备性的概念,比如我说这是一个杯子,其实蕴含了什么是构成杯子的基本要素,这么一个完备性的概念。完备性永远是在有限的范围内和有限的作用空间内来说的,不能在无限的语义环境下去追完备性的概念。

识别和测量的关系就是,识别是对对象的合理标记、命名和分类,包括对象识别、环境识别、场景和信息含义的识别。识别本质上是一个测量过程,是抽象空间的测量。测量是基于概念、模型的感测信息比对;测量的物理基准是测量概念的一种物化。早期测量基准是比较随意的,例如一尺是多长,那么其实是某个人可能用胳膊肘比划一下就出来,逐步的过渡到形成一个大家公认的概念,再把公认的概念物化,这样形成一个测量基准。

我们公司相关研究的基础源头是2016年度我们拿到了科技部重大专项的支持。我们解决了飞机发动机的叶片陶瓷型芯的在线识别和精密测量的问题,为了对工件(毛坯)的毛刺进行精细的加工、修型,我们必须精准的识别它的边缘,找到这个细节的结构,有些孔是阻塞的,那么要找到这个边缘,把薄的毛边和孔打掉,形成精细的加工。这个在实践的过程中就不能够用神经网络的方式,一个个的把孔、槽这些特征标记出来,标记的过程实际上是不可能完成的,我们就寻求数学的方法,经过三年左右的清理,我们把这个工作完成了。后来发现,我们应该是解决了一个智能的基本的问题,这个引出来前面一系列我讲的一些成果。

这个架构下的智能识别,还有智能相关的突破跟深度学习、神经网络比对,其实优势已经非常明显,我们能够用于所有立体对象的精准识别,不光是识别这个对象,还能识别这个对象的细节特征和细节特征的误差,都能像人一样精准去做对象的清理和识别,这是我们的成果。当然神经网络它要进行反复的训练,而且它的训练和分割实际上是一种非常朴素的分割,比如说,它的分割是把这个桌子分割成桌子面和桌子腿,匕首分割成匕首的头部和匕首的手柄部分,这个分割其实是不具有通用性的,应该说一万种物体就有一万种分割方法,而且每个分割方法感觉都是有用的。但是人基本的认知中的分割,绝对不是这样子分割,如果这样分割的话,人的记忆架构是装不下的。

相关下载

相关新闻