报告分享|具身智能理论突破及其产业应用(系列三)

这里是标题一h1占位文字


  报告分享|具身智能理论突破及其产业应用(系列三)

  前言:

  吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。

  近期,具身智能正在迅速成为科技界和产业圈关注的热门趋势。2023年8月29日,开源证券机械团队举办的机器人专家线下沙龙、新华社中国金融信息中心联同上海市浙江商会主办的浙商大讲堂顺利举行,特邀嘉宾工学博士、西安中科光电精密工程有限公司董事长/创始人、仝人智能科技有限公司执行董事、中国科学院大学吴易明教授,围绕智能机器人发展现状、挑战与未来发展进行探讨和交流,并分享题为《具身智能理论突破及其产业应用》学术报告。

  在此次报告中,深耕具身智能领域研究多年的吴易明教授论述了人工智能进展、智能科学发展的新范式、具身智能的理论突破、具身智能的产业应用、工业4.0与机器人产业未来共五个内容模块,从而提升对具身智能这一前沿领域的概念认知,解密智能制造背景下的科技创新演进之路。

  报告已分系列推送,本期推文为最后一篇内容,分享以供读者交流探讨。

  一、具身智能的实现思路

  具身智能的实现思路是指人实现高层次认知的时候是如何按照具身认知的方式来实现对智能的关键问题突破。分三个层次:

  第一个层次是重构映射。在上篇讲”智能”的概念时提到,要对对象进行有效的认知,最好的方法就是在大脑里构建关于该对象的逼真模型和模型演化,人类有效把握某个问题的关键也在于此。日常生活中对某个对象和事件的把握程度往往用事后是否闭眼就能悉数该对象或事件原貌和演化过程来衡量。这个把握分为四个层次:对象、主体、任务和环境。任务是基于价值层次的,对象是作用的客体,环境是主客体依赖的共同的范围,除了这些还有很重要的是把主体卸载在整个系统里面。重构映射最基础的是视觉信息的重构映射,视觉信息是立体的,不是图像(图像是立体信息的投影),但人的存储架构以及计算机的信息存储架构都是二维的,这是解决重构映射的最大约束,西安中科光电就是在这个地方取得了最大的突破。

  第二个层次是具身认知的过程是交互建构。我们对任务、对象和自身的认知不是一开始就有的,而是投入进去以后才做到的有效认知。有些认知则像做几何题,做了辅助线就可以看清楚。比如在战争中,打仗的时候有侦察环节,一种方式是直接进入到对方阵营中去感知,还有一种是炮火侦察,对对方的兵力部署不清楚,那就先从不同的方向打几炮看看敌人的反应。认知过程是大脑、身体、环境的互动过程中不断循环构造出来的,这个过程是动态的不是纯静态的。

  第三个层次是认知受通道约束。通道约束包括两个层面,一个层面是感知通道,另一个是信息的输出通道。动作和语言的输出都属于信息的输出通道,信息的输出通道包括手抓一个东西或者将力作用到对象上,打别人一拳或者有其他动作的输出,按照我的讲法这些都可以归结为信息的输出。这里推荐西安交通大学邬焜教授的著作,他在1982年本科毕业时发布的关于信息哲学的论文成为一本专著,邬焜老师认为人改造世界不是改造物质形态,而是改造物质存在的信息状态,所以我们的哲学不是物质和意识的关系,而是物质和信息的关系,意识是信息的高级形态,这就把马克思主义的辩证唯物主义向前推了一步。人类的认知实际上受到信息的通道约束。

  大家都有体验,飞机从起飞不断远离我们的时候,一开始可以看到飞机的详细构造,但随着飞机越来越远逐渐变成一个点,直到点完全消失,这是信息蜕变的过程。如果你一直注视飞机,那么不管距离多远,你的意识会一直把它当作飞机。反过来说,智能会经常遇到识别问题,此时不是从近及远地看对象,而是远处来了个黑点,那么这个黑点到底是飞机还是鸟,刚开始是需要猜测的,这时的信息维度是点维度,点只有x、y、z,加上它的运动轨迹dx、dy、dz,轨迹的微分是一个张量,但如果猜出来是一架飞机,那么你就会立刻在识别的思路中引入关于飞机的记忆模型,随着飞机越来越近,还会开始猜测飞机型号,这是不断的迭代。人的认知模型是基于经验和经验对象跟我们的感知对象之间不断匹配和耦合的过程,这个耦合过程就是第二个层次的交互建构。离得很远的时候信息感知是受到通道约束的,随着距离越来越近,这个过程是不断迭代的。从刚开始对对象有很少的内涵认知到逐步丰富的内涵认知,这个过程是交互建构的。这就是我们对具身认知的基本方法和思路。

  回过头解读人工智能发展初级阶段最重要的成果——控制论。如果一个系统可以有效地发挥作用,按照控制论的思路让它达到了预期目的,那么它建构的数学模型必须有效地映射和反映面临的对象,这个对象包括主体、客体和环境,如果不能有效映射环境,那么控制系统就会发生错误、混乱或失调。这是用具身智能的思路解决控制论。

  二、以具身性视角理解“视觉”概念

  机器视觉、计算机视觉本质上都不是视觉,而是图像处理,因为人类眼球后面的视网膜是传感器,计算机图像处理、机器视觉处理的是视网膜上的图片。人看到对象会感到目光在触摸对象,这种感觉和痛觉、触觉非常接近,实际上是通过视觉我们把对象、环境、主体、客体纳入到自己统一意识范围里。

  从具身认知的角度来理解世界时,我们在看的过程中要有效发挥认知和改造世界的能力,基本要进化到“天人合一”或“知行合一”的境界。把个体纳入到和环境统一的意识思考范围后,才能够有效处理我们和环境和对象之间的关系,这是具身认知理解视觉。视觉就是我们睁开眼睛构建自身所处的空间,感受到的对象、环境、自体,自身的结构和我们感知到的客体环境融为一体,实现了意识的延伸。这种意识的延伸表现可以拿开车举例,开自己的车很熟悉,基于视觉和开车的体验,开过一段时间后往往会感到车是自己身体的一部分,这样操控就会很好,换一个新车就会难免刮刮蹭蹭,这就是意识和行为的不匹配。

  视觉其实是基于眼球后视网膜和大脑重构出来的一种视觉意识,如果把这个概念灌输到机器对视觉信息的处理层面,我们的研究才能够被称为智能视觉或者机器视觉。以上关于视觉的理解很重要,但是处理起来很麻烦。现在计算机处理或者机器处理的一般是二维图像,二维图像恢复到三维的过程是多解问题,如果不能有效恢复过来,对对象的辨识就需要大量的数据来训练,算力的一部分就会消耗在这个地方。

  人眼睛处理视觉问题的基本方法有神经网络的方法和迭代解题的方法,两个眼睛重构立体的对象就是空间交汇问题,左右眼的视轴不一样,交汇于一个点形成对对象距离的判断。但是如果对象是个简单星点的话就很好处理,但我们面临的视觉对象是复杂的,眼睛感受到的是几千万像素的星点,左眼和右眼对同一星点的匹配问题就是智能识别问题。这个问题首先是智能识别问题,其次是空间交汇的几何求解问题,最后是空间信息的校正问题,因为感受到对象的立体识别信息都是有畸变的所以需要校正。这些问题对构建立体视觉会造成很大的障碍,所以现在智能驾驶领域用摄像头或者激光雷达的争论本质上是初级层次的争论,对视觉的理解没有入门或者说方法还是要画个问号的。

  激光雷达本质上也是参照于图像处理,把激光雷达得到的Z向信息当作深度信息,得到的信息是放射状的不是锥状的,XY沿着屏幕展开,另外一个方向是z,这样处理之后的储存架构很简单。但是人的视角一换,Z就变了,对象的形态就变化了,所以激光雷达如果在处理过程中产生晃动就会导致对同一个对象的信息就要重来,运算量很大,并且解决问题的方法依旧是图像处理的方法,因为图像映射的三维是一对多函数,激光雷达也是这个思路,处理起来很麻烦或者走不通。但是人感知到的视觉实际上实现了坐标系的卸载,看到静态对象后我们感受到的是脑袋在动而不是周围环境在动,我们眼睛一睁开就自然地实现了坐标系卸载到我们存在的近景空间里面。我们待在同一个办公室里,是处在欧氏空间中,三维空间中的物体在人眼中的图像是按射线投影的(如下图),看到的人物对象按照图像的原则近景大远景小,但是我们可以感受到房间里的人大小都差不多,其实是我们在意识空间中感受到的对象是一样的,实际是我们按照认知的方式将对象做了归类,这时候不管远近都是同一类,那么大小应该是相近或者相等的,这是我们对视觉的解读。

  这种解读非常重要,真正实现认知和实践的交互迭代时,视觉意识空间要和感受到的运动空间等价,这时候迭代才方便。所以机器人的技术,感知到一个对象和对外输出一种运动或者输出一种信息呈现等价时动作才会协调,这是具身智能视觉对认知的贡献。

  智能识别还有识别问题和测量问题。识别是对实物存在的模式的感知、命名、量化和区分,包括对象识别、环境识别、场景以及信息含义的识别。识别本质上是测量的概念,测量的过程是抽象空间中的测量,测量就是基于概念、模型感测信息的比对,测量的物理基准是概念的一个物化,所以这两个概念澄清很重要。

  我们最熟悉的测量一般是一维信息空间,如长度测量、电压测量和电流测量等,一般是单维度测量,这时的信息是标量信息。识别是多维度的信息,识别和测量是相关的,识别首先是维度匹配,如果维度不匹配就很容易识别出两个对象的不同。识别是智能的基本问题,人工智能大家聚焦的问题就是识别问题,识别问题实现了语义信息空间和实存对象之间的映射问题。

  三、具身智能的技术成果

  西安中科光电技术的源头是2016年拿到了科技部重大专项的课题,对于复杂的航空航天构件二次修型过程中对细节结构的精细辨识。当时求助于深度学习这一块,能够解决的成果是对飞机的识别,能够识别飞机的机身、机翼和尾巴等,但没办法实现对精细结构的识别,要识别不同部分也需要人工先训练,人为标注机翼和机身等。我们思考深度学习可能真的不能解决,所以就换了数学的方式对它进行表征,参照人是如何记忆和识别一个对象,在做的过程中对认知心理学、脑科学也做了大量的学习和借鉴。

  表征的概念是人看到一个立体的对象,大脑记住了什么,这就要回顾到文字的创生。古人结绳记事或者画岩画,岩画是白天见到了什么猎物就画下来,中国画沿用岩画的风格,不追求真实性,而是把对象的关键信息勾勒出来达到信息传递和感情传递的目的。从绘画的角度公司受到启发,人经历的事和看到某个对象就可以闭上眼睛想起来点什么,人对对象精细结构的识别也是同样的过程,人抽取对象关键信息,抽取以后我们表征的时候就用类似于画画的方式,勾勒轮廓和关键要素后进行渲染,从框架关键要素再到细节是逐步迭代的过程,这一整个过程如何用数学方法实现就是公司2016年拿到项目之后需要解决的,2019年该问题基本解决,相关成果在2019年中期考核和2021年结题的时候都被评为优秀。我公司是本课题13家参研单位中最小的单位,刚开始承接时以为该任务是个测量问题,但后来发现是识别问题。因此首先需要厘清识别和测量的概念。

  具身智能视觉解决的问题意味着什么?现在无论是ChatGPT还是深度学习都建立了非常宏伟的大厦,这些大厦都是基于人类创造的信息或者人类已经获取的信息,人通过工具获取信息后用深度学习解决信息之间的交互映射以及它之间的关系。目前它们解决的问题和成果类比于吊在气球上浮在空中的大厦,所以它是不牢靠的。具身智能要解决的问题就是实现人的信息认知过程,解决的问题就是已经创造的信息成果和物理世界的映射问题,在大厦与地基之间增加构造柱连接,让地基更可靠,这样信息感知才能回归到物理世界,实现智能更加长远的发展,特别是实现智能主体的自我发展。

  第一是智能视觉成果。智能视觉一般双目形成立体视觉的时候就是卷积神经网络,用相似度函数做匹配后,左眼和右眼的信息重构获得立体信息,但是在重构的过程中一是没有考虑环境因素,二是没有考虑左眼和右眼得到的信息,所以它是一种仿射变换,这种变换是不等价的,所以卷积在最关键的地方都会出错。如果一个对象的结构特征比较复杂,或者受到光环境污染或干扰,卷积的三维重建效果就会比较差。

  我们基于双目实现立体视觉信息的感知,把对象信息、环境信息和相机的处理能力都引入公司的模型里面实现位置重构,目前已应用在物流中实现无序分拣。公司展示的产品都不是训练的,而是基于数学模型,一导入就可以认出对象是什么,所以换产换线就会很快。

  公司机器智能视觉的成果如下图,同时双目视觉未来会在机器人视觉导航和无人驾驶上形成颠覆性的影响,公司目前没有宣传无人驾驶,但是未来一定会用于机器人的视觉导航,基于我们的立体视觉的感知和具身智能的整体方法实现复杂环境下移动机器人的自主导航。

  第二是理论成果,即具身智能成为智能科学发展的新范式。2021年公司提出该概念,2022年注册了具身智能的商标和微信公众号(具身智能、具身智能机器人),按照公司方法产生的成果目前也是全球唯一的,从我们查到的最新论文来看,目前没有人按照我们的思路做。我们的架构是数学的而不是训练的,以后可能会用到训练,但是我们会把神经网络的方法限定在一定合理的范围内。

  四、具身智能的应用

  公司2013年成立,2016年开始攻关,2019年开始定义第一个产品,到现在公司第一个产品基本上处于1-100阶段,还没有完全被市场接受,但是公司对智能机器人的基本架构做了梳理和定义,其中,具身智能机器人的关键在于视觉重构时空,涉及的底层技术有两个地方比较重要:

  第一是镜像场景。机器人要理解它面临的任务时一定是构建了一个虚拟的信息空间,这个虚拟的信息空间能够反映主体、客体和环境的构造和相关对象的属性,在这个空间里它去自主识别、决策和处置相关的对象。镜像场景和现在流行的数字孪生有很大区别,数字孪生是给人看的,镜像场景是给机器理解的,人走入一个空间以后的行动是基于大脑的记忆或者视觉感知形成的信息空间来进行有效行动的,所以镜像空间是给机器做理解用的,有点类似于人的视觉加记忆模块的构造。

  第二就是区块链的应用。因为随着智能体的发展,每一个智能体的本质是独立的,人是智能体,人与人之间如果没有语言和行动的交互,相互之间是不知道意图的,相互理解意图是在交互深度的基础上建立起来的。回到我们对具身智能的整体理解,人身上的每一个细胞都是智能体,所以未来智能社会里,每一个机器人自身都有自主的智能决策范围和能力,智能体和智能体之间的交互应是区块链架构,人与人之间的交流通过语言,但是人的行为是受到法律、社会伦理等约束,这个约束就是区块链(协议)。

  “仝人智能”机器人强调像人一样看、像人一样干,像人一样检。公司对人形不关注,认为具身智能的机器人长什么样不重要,但是它知道自己长什么样很重要。目前除了人以外的动物是不知道自己长什么样的,简单来说就是没有自我认知,大部分行为都是本能,人类自我觉醒以后才有认知,认知也是不断深化和迭代的,小孩生下来到了一定阶段后才有自我认知。

  具身智能在某个空间完成人赋予的任务时,它的自知就显得非常重要,它得知道它长什么样、它需要怎么行动、接到任务以后的职责是什么等。

  具体应用如下:

  1.具身智能的应用——智能焊接机器人。公司研发四年逐步被客户所接受。现有桥梁钢构、建筑钢构、船舶等领域的市场规模大约是1000亿(通过焊工从业人数来算的),目前焊工从业人数大约是280万,从焊枪出货量和保有量来算焊工大约500万,公司保守估计焊工从业人数280万,替代的智能机器人数量大约70万台套的装机量,相当于全球机械臂一年的出货量。我们的产品是整体机器人,包括大脑、视觉、执行机构和辅助的台架和变位机,其中系统是比较贵的,因为我们能够实现对焊工和现场工人的完全替代,实际上重新定义了机器人。按我们的理解,传统机器人公司应该称为机械臂公司,后端叫做机械臂集成应用,我们认为靠一个产品实现对工业机器人行业的概念提升与整体整合是有可能的。

  2.具身智能的应用——智能检测机器人。机器人自由运动和处置对象的核心在于识别和检测,我们能认识这个对象且知道这个对象的结构、位姿和主客体的空间关系,这时才可以自主地处置这个对象。目前检测机器人既当作独立产品在出售,又拔高了智能视觉和具身智能领域的门槛,因此将检测机器人作为我们的第二个产品。这个产品国内市场大约400亿,将会重构高端检测仪器市场,因为它是两种架构,一种是面向高端客户的三坐标架构,一种是机械臂和三维视觉形成的立体视觉感知的测量系统,实际上是为其他机器人提供了眼睛的角色。

  3.具身智能的应用——特种机器人。面向“核、军、化、危”的特种机器人可实现对复杂场景的处理,包括对月球车的视觉导航和复杂构件的智能装配(几十个零件在同一个工位上实现自主装配)。下图是典型的通用智能装配机器人架构,即眼睛指挥手干活,眼睛在中间识别对象、环境、机械手,然后机械手实现对对象的抓取以及上螺钉、处置等,该机器人本质上是万能机器人的雏形。

  4.具身智能的应用——未来规划。从公司未来发展看,目前公司的机器人产品逻辑架构像人,但实物的架构不是人的样子,未来会聚焦智能板卡和芯片工业软件的研发对行业客户赋能,比如用于需要很强的智能特性的打磨和其他专业应用场景等。再进一步公司会根据自身资源做人形机器人,对于人形机器人公司不关注其运动机构和执行机构,因为这部分已经有大量的同行在做,公司重点关注其感知系统和智能决策系统,到了合适的时间点会找合作方一起推出人形机器人。所以未来的通用人形机器人包括工业机器人、作战机器人、家庭服务机器人等,智能驾驶是公司的一个子项,人形机器人如果智能足够的话,可以像人一样开车,下车之后可以像普通佣人一样做服务,人形机器人是最大的未来。

  五、工业4.0与未来机器人产业

  随着技术的发展,在工业领域越来越多地提及工业4.0,但大家对工业4.0的定义不够清晰,或者说外部很多专家的思路并不对。

  工业4.0和智能机器人、智能发展有很大的关系。如果产线执行的生产设备和参与者单元不能形成独立智能的话就不能达到真正的工业4.0,工业4.0虽然是德国提出来的,但是并没有真正实现,只有智能机器人能够像人一样独立完成生产作业的时候才可以真正实现。工业4.0主要价值在于造飞机、舰船等高附加值领域,这种领域下的生产模式是多品种小批量不断换产换线,设备围着作业对象实现作业的时候才用得上工业4.0,普通消费品(如鼠标、纸杯、矿泉水等)的制造没必要用工业4.0,工业3.0足够。所以未来工业4.0和工业3.0是会长期并存的。只有工业4.0模块发展到一定程度了,工业4.0的成果会反过来用在3.0上,对工业3.0进行升级和改造。工业4.0的独立单元是智能的单元,单元与单元之间的交互是拟人化交互,区块链的架构用处较大。

  工业4.0的工厂典型形态不是流水线,而是网络化、可重组、可快速重构的生产形态,灵活性、智能特性和柔性非常强,其信息系统是去中心化的,决策和执行是分开的,决策单元对执行单元没有完全的控制权,而是基于协议来作业,就和公司的企业模式一样,在办公室决策的人和工厂工人不是完全的绝对控制关系,大家根据合同和管理制度来做各自岗位的工作。

  随着产业和技术的发展,公司对未来有些预测(2021年预测)

  一是机器人大量普及,第一和第二产业完全被机器人代替。

  二是机器人产业将会在20年内,成为全球第一大产业。它的基础是智能技术的成熟和家庭化普及应用。因为第一和第二产业用不了多少机器人,一年1000万台套的工业机器人就能够完成全世界的生产量,所以最大的市场是家庭服务机器人,对未来世界的影响非常大。

  在这种情况下人们的价值形态会被影响。譬如,现在的工资依托于劳动,未来的货币锚定是否是劳动。人和机器人的关系会让世界变得越来越复杂,会对未来形成很大的冲击。

  西安中科光电成立于2013年,现在已经步入正轨,主要是面向高端装备和智能制造领域开发高端智能机器人,已突破了具身智能的底层理论和技术,实现了智能焊接机器人、智能检测机器人和特种机器人产品落地,未来将持续专注智能机器人产业和技术,服务国家需求,改造生产模式,提升人类生活品质。

  *本篇报告内容分享完结。

相关新闻


报告分享|具身智能理论突破及其产业应用(系列二)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。