报告回顾|基于具身认知的人工智能理论、技术突破及产业应用(系列四)

这里是标题一h1占位文字


由安创加速器主办的【安创芯视野】活动特邀工学博士、西安中科光电精密工程有限公司董事长/创始人、仝人智能科技有限公司执行董事、中国科学院大学教授、西安市青年科协副主席吴易明先生作学术报告,吴博士以《基于具身认知的人工智能理论、技术突破及产业应用》为主题,围绕“具身智能”与业界伙伴展开了一次深入探讨。 

 
第一部分讲关于具身认知的概念与脉络,见文末系列(一);
第二部分讲“具身智能是智能进阶发展的新范式”,文末系列(二)
第三部分重点讲一下具身智能视觉,文末系列(三)
第四部分是讲我们在技术突破、产业应用以及产品落地方面的进展;
第五部分是对未来的机器人产业和机器人产品技术发展做一个简单的展望。
本文是针对第四部分和第五部分的内容整理为系列(四),欢迎学习和分享!

 

技术突破及产业应用

第四个部分讲技术突破及产业应用,我们的技术突破其实在基于视觉智能的突破之后,最能表现我们的成果与其他成果的区别的,就是智能机器人。因为它是包含了认知、信息的处理、规划以及最终执行的一个完整的体系,特别在复杂场景下,如果我们的机器人能够像人一样去认知对象、像人一样处置对象,那么它的表现已经就超越目前神经网络的发展。另外一点,具身智能的这个思路其实认知的过程一定是包含主动的调制和作用环境的过程。机器人本身是实现我们智能最有效、最合理的一个产品对象。它很复杂,我们整个的过程从技术底座看的话,有三维信息获取、语义表征及存储、智能识别、规划、运动控制以及镜像场景的运用。这个地方强调的镜像场景跟现在流行的数字孪生是有区别的。镜像场景实际是借鉴的镜像神经元的一个架构,就是说我们机器人系统自己会构建对对象、对任务、对环境以及对自身的一种镜像场景,它基于我们的需要来进行自主作业的时候,是基于镜像场景的一种仿真分析来判断它的动作和认知是否合理,这样的话达到有效的任务处置和作业。跟数字孪生不一样的是,数字孪生只是给人看的,它是一种视觉影像,人理解这个对象的时候能够直观、有效的形成一个认知。数字孪生整个过程不是给人工智能的主体而是给人使用的。这是我们对区别的一个看法,当然机器人技术还包括了多自由度机械臂以及交互过程中用于区块链进行交互,以及轮式或多肢体移动、电池、电源系统等,这个技术架构是相当复杂和繁琐的。

视觉智能对机器人技术会进行重构,这个重构的基本原因就是,在信息空间中建立对象的描述,与物理实存进行交互印证运动执行与视觉感知归一到欧式空间重合,欧式空间的解是自洽的,这个是我们研究相关的技术或者说是进行技术重建的一个基本假设。视觉感知与运动执行参量和信息量交互修正,这样的话,智能机器人未来的运动系统、感知系统的误差,很多就在运行的过程中进行自我修正。基于信息完备性和具身性概念和理论指导,同时包含上百运动自由度的类生物机器人系统成为可能。目前很多公司展示的机器人系统,包括人形的机器人或者是机器狗等,它的肢体运动还是比较僵化的。想象一下动物的肢体,首先它是连杆运动的,一种表现形式,第二是多自由度的,第三是所有精密的东西都是靠人手来实现的,就是说人的视觉与肢体的交互运动会形成非常高级的或者高精度的运动结果。

视觉智能在机器人产业和生产过程中有很大优势,一个是自主性、柔性智能,还有对制造偏差的自适应及来料品质的检验能力,再一个就是整个通用的智能和感知架构。其实通用实际强调的是泛感知以及拟人化的感知以及信息交互,这是相关的发展可能带来的优势。

我们公司在相关理论突破之后,要证明我们这个理论是正确的,我们就选择智能焊接机器人作为我们第一个产品。从19年底到现在,经过三年左右的研发,我们突破了智能焊接机器人这个产品。这个产品为什么说是一种突破性或者颠覆性的进展,就是说我们面对的对象是多品种、小批量的工作对象,这个前序的制造误差、加工误差都比较大,那么在这种情况下,我们的视觉系统能够自主的识别对象,找到对象的特征结构,然后在特征结构的误差进行精准的分析,再控制它的执行端进行自适应的作业,整个的过程都是机器自主闭环的。这个过程其实模仿了整个人的认知和思维以及动作的过程。它虽然看起来比较笨拙还像个机器,其实它的逻辑架构已经越来越接近生物智能了,它的整个过程都是一个交互循环,以交互循环为实现它能力的基础。当然它还有一个很重要的点,就是对对象、本体,以及环境进行镜像映射,这个镜像映射是关键。

我们的产品、相关承接客户的业务已经覆盖了钢构、桥梁、航空发动机以及核设施的容器焊接,它所有的应用环境表现都是面向多品种、小批量,主要放在作业区,以工件为中心进行自主作业,这是我们智能焊接机器人的产品表现。

公司定义的第二个产品,是立体视觉智能检测机器人。我们的检测机器人其实就是完成对一个结构、一个对象的几何尺寸的检测,因为在所有的检测里,这是最基础的,而且是最抽象的。检测的前提是我们能够准确的识别这个对象,识别待检测对象的特征结构,获得这个特征结构的点云信息后,能够对这个特征结构的点云进行有效的区分和分割,这时才能进行信息和数据的拟合所以智能检测机器人首先是个产品,其次,它是所有其他机器人的眼睛。就是我看到这个对象,我知道这个对象的细节特征是什么,细节结构在哪里,这个时候我要进行处置就非常方便了。

 (应用案例)

上图是客户现场的应用案例,右侧这个是三坐标测量机的智能化改造,让三坐标测量机能够实现自主的对象识别、路径规划、测量作业以及后续的数据合成,整个过程都是一个无人化的操作。那么这里面的数据合成或者说是信息拼接的基础是什么?就是对特征结构或者细节结构的精准的识别。

我们公司在特种机器人方面已经承接了相关在核领域的自主作业机器人研发开发以及卫星领域的星敏感器自主装调的研发。上图左图中展示了整个装调的过程,机械臂夹持以及上螺钉的操作,都是在视觉感知模块指挥下自主作业,它是一种真正的协作机器人,就是眼睛指挥手来干活,手眼协作。跟现在的双臂协作有本质的区别,双臂协作还需要人介入这个过程。

 

机器人产业发展展望

最后对未来机器人的发展做一个简单的展望。早期,1939年就出现了人形机器人,但是当时也就类似于战争里面的木牛流马。它的整个的过程只是说样子上看起来像人了,但是真正的东西都没有实现。后来出现机器人发展最快和最典型的就是在制造领域的多臂或者是桁架结构机器人的运用,这整个的发展其实从1959年到现在一直在发展。这整个的产业其实是汽车产业带起来的,因为只有汽车产业这种比较庞大的、高附加值的产业才能带动它的工具的适应性的革新。直到现在发展工业机械臂,有些机械臂公司其实已经发布很多的产品,但是相对来说再往上走,研发的难度就非常大。近几年出现的比较重要的就是机械狗和人形机器人,机械狗的代表公司是波士顿动力。他们一直在秀,但是所有这些发展其实都是运动控制技术的一个迭代和成长,因为视觉技术没有获得根本性的突破,所以在脱离人参与的自主作业机器人,是大家很想突破但又没有突破的一个难点。包括波士顿动力整天在秀,跟人的打架之类,它实际上都是编导出来的,因为它的视觉用的还是汽车驾驶智能导航的视觉,它不能够精准的识别周围的环境和对象,所以它也没有产品在生产领域有实际的大规模落地可能。当然,听说波士顿动力用在军方上,那么军方在远距离目标的打击上出现错误的判断没关系,因为70%的可能性是一个感兴趣的目标,或者是一个坏人,开枪击杀,其实在军事行动上是允许的。当然,如果有90%、95%或者98%那就更好,但它再提高都是一种概率性的判断。这种机器人要用在真正的生产领域的话,特别是多品种、小批量复杂环境生产的时候,那就不能出现这种错判,否则从经济上就很难承受得了。

我们现在的视觉智能架构,实现了对一个对象的精准识别之后,就能够形成有效的一个判断,所以我们这个架构是高附加值的应用场景、自主作业的核心技术。现在我们公司除了焊接机器人之外,在军工几乎各个领域的核心的需求上,都拿到了委托研发业务,因为客户已经看到我们的技术实现他们任务的可能性。

智能机器人的技术发展总结成六句话,就是从开环执行到闭环执行从结构化感知到泛感知,结构化感知是预设传感器,泛感知是类似于人的视觉、听觉、触觉从机器接口到拟人化交流从执行任务到适度自主决策从人为设定到自我提升能力从使用规律到发现规律

 (机器人技术架构)

上图是我们公司经过几年的研究总结的一个机器人技术基本架构。它包括了感知层、决策层、运动层、交互层,这之间都是相互关联和相互作用的,整个架构的核心就是视觉重构时空是具身智能机器人的关键

随着机器人技术和相关产业的发展,我们认为机器人技术在未来会发生非常大的变革。视觉智能是当前技术革新的关键,包括它的价值形态、价格、市场规模,是有非常大的影响,另外对机器人的技术架构也会形成非常大的影响。在这个影响下,未来20年左右,机器人产业将超越汽车产业,成为全球第一大产业。现在很多单位在研究无人驾驶汽车,而未来可能出现了一种形态,就是机器人开车。机器人开着汽车,有的需要智能驾驶,有的不需要智能驾驶,因为如果有一个像人一样智能和灵活的机器人的话,那么它能够给人形成各种服务。还有一点,生产领域可能完全交给机器人主导,机器人掌握无人工厂。目前的工业3.0,那种流水线作业、工厂的无人化已经发展到一种极致了,但是决定真正无人化工厂的核心,就是智能机器人的应用,特别是在多品种、小批量、高附加值领域的生产,以及现有的流水线生产还不能够完全脱离人的这个环节,比如说机器的维修,还有过程中需要非常柔性化的环节、需要人参与的部分,都会形成机器人化,这是我们对产业和经济发展的预测。还有一点,整个的经济结构会发生变化。因为目前产品的价值或者说货币的价值是由劳动形成的,那么未来如果劳动都交给机器人的话,整个的货币价值到底还有什么意义?另外,目前大家都在建太空站,包括潜在的星际移民。星际移民的第一个批次应该是机器人先到,比如说到火星先去建宜居的城堡,然后人再上去,这是有可能的。这是我们对未来的一个预测,大概20到30年左右应该能实现。看起来我们做的工作有点像科幻片,但是这个事情我们经过七年左右的推进,公司活下来了,我们的技术也基本上按照我们的预想达到了一定的高度。

 

中科光电是在2013年成立的,我从2016年开始介入研究人工智能,做这个工作有七年,有幸逐步的实现了公司的聚焦和产品的落地。研发队伍比较年轻,是我一手带领和培养起来的。公司在2020年的元旦的时候,我给大家宣布了一个比较宏远的使命,专注智能机器人产业和技术,引领智能机器人的发展,服务国家需求,改造生产模式,提升人类生活品质,这是我对公司使命的一个描述。我的报告就讲到这里,谢谢大家!

相关新闻


报告分享|具身智能理论突破及其产业应用(系列三)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


何为“具身智能”?

算力霸主”英伟达(NVIDIA)创始人兼CEO黄仁勋在ITF World 2023半导体大会上称,“具身智能”将引领下一波人工智能浪潮,引发了全球范围内对“具身智能”的关注。


报告分享|具身智能理论突破及其产业应用(系列二)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


报告分享|具身智能理论突破及其产业应用(系列一)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


Bengio、LeCun等人联名发布NeuroAI白皮书:智能的本质是感觉运动能力,AI迎来具身图灵测试大挑战

历史上,神经科学一直是人工智能发展的关键驱动力和灵感来源,特别是视觉、基于奖励的学习、与物理世界的互动以及语言等人类和其他动物非常擅长的领域,人工智能曾借助神经科学在这些领域取得长足进步。但近年来,人工智能的研究方式似乎正在远离神经科学,与此同时,人工智能在追赶人类智能的路上困难不断。在此背景下,一股回归神经科学的人工智能热潮正在形成。


具身认知思想起源之梅洛-庞蒂—知觉现象学

在具身认知思想的发展中,法国哲学家梅洛-庞蒂扮演了重要的角色。他反对笛卡尔的身心二元论,在其代表作《知觉现象学》一书中提出了具身哲学的思想,因为知觉和身体在其哲学中所具有的核心地位,所以他的哲学也被称为“知觉现象学”或“身体现象学”。梅洛-庞蒂知觉现象学思想脉络的展开受到胡塞尔现象学的影响与启发,同时亦有对海德格尔的某种继承。“知觉现象学”思想为具身认知的研究提供了最直接的哲学启蒙。


具身认知系列思想起源之海德格尔-存在

如果说胡塞尔是现象学中的先行者,那么海德格尔则是一位更为成熟的开拓者。继胡塞尔之后,海德格尔从存在论的角度对笛卡尔“身心二元论”进行了反思。


具身认知视角下“智能”的概念

在过去的十余年中,基于深度学习的应用、大数据集的创建以及计算机算力的提升,人工智能技术在语音识别、人脸识别、围棋、机器翻译、目标检测、语义分割等任务中取得了重大进展,在很多单项能力方面甚至超越了人类。


潮起潮落——人工智能发展史中的三大浪潮

人类未来的发展篇章,离不开人工智能这个新兴领域的崛起,它将给诸多行业带来颠覆性的影响。作为这个时代的热浪大潮,人工智能正被技术人员、学者、财经记者和风险投资人共同吟诵。但这个领域本身就是很多学科的交叉融合,哪怕是最简单的定义,不同学科也有不同的声音。鉴古知今,我们就先回顾人工智能的起源与历史,再展开下一步的探讨吧。