智能的跨越(1):感知智能路在何方?——从视觉领域分析人工智能

这里是标题一h1占位文字


01 眼是智能之窗

人工智能(Artificial Intelligence),即我们通常所说的AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门全新科学。它融合了数学、计算机科学、信息理论、脑神经科学等诸多学科,模拟人类大脑的工作模式,包括能够体现人类智能特征的能动性,创造性思维等。

人类收集信息的方式有多种, 包括听觉、视觉、触觉、味觉等各种感官,机器智能的传感器也是参考这一原理而设计的。人类还有一个信息处理中心, 即大脑, 机器智能采用的信息处理方式也与之相似。

其中视觉是人类感知外部世界获取信息的最重要途径之一,也是人脑连接真实世界的通道。视觉是人工智能的重要组成部分,是人工智能的大门。

简单来说,光线进入眼睛,经过视神经对信息的整合,以电信号的形式传递给大脑;大脑经过逐层的提取分析,将关键信息传递给其他脑区,实现对场景的观察;最终高级脑区会通过反馈控制信号,进一步调节眼睛的运动,从而更加精细地控制信息流的入口,帮助大脑更加精细地认识外在世界。

通过“信息输入-信息提取分析-反馈控制”这样的流程,人可以完成对事物的观察,认知,并影响其行为思想。

视觉不仅仅是感知层面的东西,也与和语义能力相关的高级智能密不可分、息息相关。大脑中大约70%的大脑皮层活动是在处理视觉相关信息。我们可以用大脑对视觉信息的处理为例说明其工作方式。

图1:大脑对视觉信息的处理

(图片来源网络,联系删除)

02 感知智能的工作原理

所谓感知智能,是指人和动物都具备的感知能力,如视觉、听觉、触觉等。感知智能的主要思想可以概括为:以一种统计学习的方式,通过学习历史行为来对未来进行预测。随着计算机算力的发展,并结合DNN(深度神经网络Deep Neural Network)和大数据的辅助,机器在感知智能方面已日益接近于人类。

我们知道,人类大脑智能主要依赖于神经系统来完成。大脑神经系统包含大约一百四十亿 (超过 10^10) 个计算单元, 它们之间有着大约一百万亿 (超过 10^15) 个连接, 时刻进行着广泛而复杂的联系, 这就是高级神经活动的中枢【1】。

神经网络结构就是直接模仿大脑中的神经元连接处理机制来设计的,将大脑中神经元的处理方式抽象为数学上的表示,形成单层、多层的人工神经网络。深度神经网络(DNN)就是层数更多的人工神经网络。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”,而在图像识别中20层以上的网络屡见不鲜。

我们用图2左侧来简单说明人脑中的神经元形状:一个神经元通常具有多个树突,用来接受传入信息;一条轴突,主要将神经冲动由胞体传至其他神经元。轴突尾端的多个轴突末梢跟其他神经元的树突相连接,从而传递信号。

图2:真实神经元结构与人工神经元结构

(图片来源网络,联系删除)

仿照上述结构开发的人工神经元如图2右侧所示:它是一个包含输入、输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。

将多个神经元之间进行互联就能得到一个单层神经网络(如图3左侧)。单层的神经网络已经具备一定的表征能力,但当我们在更庞大、复杂的真实数据上应用时,其分布函数往往需要更多的参数量进行拟合,因此需要右侧表示的多层神经网络来处理。当层数加深后,网络对原始数据特征进行非线性转换的次数随之增多,使得网络内部的参数可以拟合更复杂的函数模型,表征能力更强。

这就是我们通常说的深度学习,其中的“深度”就是指它使用了层数更多的神经网络。此时神经元之间的参数会通过一个反向传播的最优化过程来自发学习,在多次迭代过程中通过缩小预测与实际的差距来进行更新,最终建立一个最优预测模型。

图3:单层与多层神经网络

(图片来源网络,联系删除)

03 视觉领域的卷积神经网络

视觉领域存在一个特例,由于图像数据的平移不变性,神经元之间的连接不再需要像图3中那样全部互联。每个神经元只与输入数据的一个局部区域连接,该连接的空间大小叫做神经元的感受野(receptive field)。神经元以感受野的大小对输入图像进行处理,并在全图范围进行滑动遍历,参数权值共享,这个处理流程就是图像的卷积操作。

此类网络也称为卷积神经网络(CNN),它属于深度神经网络的一种。我们知道,深度神经网络结构中,下层神经元和所有上层神经元都能够形成连接,带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1K*1K的图像,隐含层有1M个节点,光这一层就有10^12个权重需要训练。

而在卷积神经网络中,上下层神经元可以通过“卷积核”作为中介,同一个卷积核在所有图像内共享,图像通过卷积操作后仍然保留原先的位置关系。

这种操作实质上广泛借鉴了视网膜中细胞的感知能力。以视网膜终端的神经节细胞为例:它通常在感受野内部,产生一种“中心-周边拮抗”的同心圆结构来达到识别轮廓的能力。常见的“拉普拉斯卷积核”,其操作就模拟了神经节细胞的轮廓提取能力。图4左侧为拉普拉斯卷积核函数,即为和神经节细胞相似的“中心-抗结同心圆”结构,右侧展示了该卷积核在提取轮廓上的效果。

在图像处理中,轮廓提取十分重要。只有提取了外部世界的结构轮廓信息,我们才能把物体和背景区分开,从而做进一步的分析。

图4:“中心-抗结同心圆”卷积核及其效果

(图片来源网络,联系删除)

完整的卷积神经网络,在整体架构上由堆叠的卷积层,池化层,激活层构成,如图5左侧所示。其整体流程与人类视觉原理类似(图5右侧),实质上是对视网膜整合视觉信息的一种模拟。从原始输入开始,图像像素对应眼睛所看到的场景,网络先做初步处理,提取边缘和方向等显著特征,进一步得到抽象局部,以较大的感受野提取关键的视觉信息,最后进行分析判断。

图5:卷积神经网络及与人类视觉原理的对应

(图片来源网络,侵权删除)

04 感知智能的不足

深度神经网络的主要目的是对海量信息的一种特征提取与分析,重心只关注于智能的“感知”部分。但模型的层数越深,神经元越多,其参数量就越庞大,黑盒问题也就越严重。由于其逻辑分布在数以百万计的参数中,因此每个参数的含义就变得难以解释。若简化人工神经网络的结构(例如,减少层或神经元的数量)将提升可解释性,但无法处理自然界中复杂而混乱的数据。

大体来说,对现有大部分特定任务下的神经网络而言,其缺陷主要体现在两个方面:

其一,模型可解释性差。由于模型参数量过于巨大,需要海量数据进行训练,学习的实质变成了对数据的拟合。当训练数据分布与真实数据分布差异较大时,会存在模型泛化性差,易受攻击的特性。

其二,整体架构上缺乏真正智能的的核心部分。我们知道,人类在学习、观察新事物时,离不开已构建的经验知识,离不开自身较强的对特征的分析关联、联想推理能力。尤为重要的是,离不开人脑的反馈调节行为。单一的神经网络架构仅仅是人工智能的一个部分,它可以作为真正智能架构的一个环节,但绝非真正完整的智能。

真正的智能应该具备一定的“类人脑”逻辑思维能力、推理联想能力,以及理解和运用知识的能力。从这个方面看,感知智能面临的两大缺陷是注定无解的。那么人工智能的新路又在哪里呢?业内人士越来越多地把目光瞄向认知智能,即具备了一定认知能力的人工智能。那么,这一领域目前发展情况如何呢?我们在下一篇再详细介绍。

(图片来源网络,联系删除)

 

参考文献:

[1] 孙久荣. 脑科学导论. Vol. 12. 北京大学出版社, 2001.

相关新闻


何为“具身智能”?

算力霸主”英伟达(NVIDIA)创始人兼CEO黄仁勋在ITF World 2023半导体大会上称,“具身智能”将引领下一波人工智能浪潮,引发了全球范围内对“具身智能”的关注。


报告分享|具身智能理论突破及其产业应用(系列三)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


报告分享|具身智能理论突破及其产业应用(系列二)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


报告分享|具身智能理论突破及其产业应用(系列一)

吴易明教授认为,具身智能是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和相应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法,它强调信息层与物理层的互动(大脑、身体、环境的互动)。


Bengio、LeCun等人联名发布NeuroAI白皮书:智能的本质是感觉运动能力,AI迎来具身图灵测试大挑战

历史上,神经科学一直是人工智能发展的关键驱动力和灵感来源,特别是视觉、基于奖励的学习、与物理世界的互动以及语言等人类和其他动物非常擅长的领域,人工智能曾借助神经科学在这些领域取得长足进步。但近年来,人工智能的研究方式似乎正在远离神经科学,与此同时,人工智能在追赶人类智能的路上困难不断。在此背景下,一股回归神经科学的人工智能热潮正在形成。


具身认知思想起源之梅洛-庞蒂—知觉现象学

在具身认知思想的发展中,法国哲学家梅洛-庞蒂扮演了重要的角色。他反对笛卡尔的身心二元论,在其代表作《知觉现象学》一书中提出了具身哲学的思想,因为知觉和身体在其哲学中所具有的核心地位,所以他的哲学也被称为“知觉现象学”或“身体现象学”。梅洛-庞蒂知觉现象学思想脉络的展开受到胡塞尔现象学的影响与启发,同时亦有对海德格尔的某种继承。“知觉现象学”思想为具身认知的研究提供了最直接的哲学启蒙。


具身认知系列思想起源之海德格尔-存在

如果说胡塞尔是现象学中的先行者,那么海德格尔则是一位更为成熟的开拓者。继胡塞尔之后,海德格尔从存在论的角度对笛卡尔“身心二元论”进行了反思。


具身认知视角下“智能”的概念

在过去的十余年中,基于深度学习的应用、大数据集的创建以及计算机算力的提升,人工智能技术在语音识别、人脸识别、围棋、机器翻译、目标检测、语义分割等任务中取得了重大进展,在很多单项能力方面甚至超越了人类。


潮起潮落——人工智能发展史中的三大浪潮

人类未来的发展篇章,离不开人工智能这个新兴领域的崛起,它将给诸多行业带来颠覆性的影响。作为这个时代的热浪大潮,人工智能正被技术人员、学者、财经记者和风险投资人共同吟诵。但这个领域本身就是很多学科的交叉融合,哪怕是最简单的定义,不同学科也有不同的声音。鉴古知今,我们就先回顾人工智能的起源与历史,再展开下一步的探讨吧。