人工智能“称霸”了围棋，但机器视觉能赢过人类视觉吗？

人类与机器都依赖于神经网络来进行目标与面部识别。最新的证据显示，这两类视觉系统也具有相同的缺陷。

深度卷积神经网络以排山倒海之势席卷了人工智能领域。确实，现在这些机器视觉已经在面部识别、物体识别甚至是下围棋等众多领域频频完胜人类对手。

当然，颇为讽刺的一点是，神经网络的设计框架很大程度上模拟了人类的大脑结构。因此，机器视觉的深度神经网络宏观结构与人类大脑负责视觉的部分十分类似。尽管人类大脑经历了数百万年的进化，而另一者才刚刚问世数十年，但是这两者的内在的机理却十分相似。

这种高度相似性就引发了一个有趣的问题：如果机器视觉与人类视觉工作机理相似，那么它们是否也受到相似的制约？面对相似的视觉挑战时，机器视觉与人类视觉的表现是否一致？

近日，伊朗德黑兰大学的萨义德·克莱德皮舍（Saeed Reza Kheradpisheh）和其合作者们为我们揭开了这一问题的答案。他们使用了同样的图片，对于人类和机器分别进行了测试。研究发现，人类和机器确实会受到相同问题的困扰。

首先容小编介绍一点背景。在人类大脑中，负责视觉的通路包含了数层神经元，每一层神经元的作用，是逐步地从一张图片中发掘出更多的信息，比如移动，形状，颜色等等。这些神经元之间相互联接，形成了巨大的网络。

深度卷积神经网络也拥有类似的结构。它们也包含了许多层，每一层都包含了模拟神经元的网络回路，因此得名神经网络。

通过不断的研究，计算机科学家们发现，当神经网络中每一个神经元层都用来从图片中逐步发掘新信息时，神经网络具有最好的计算性能。科学家们研究单一神经元层时发现，这些神经元层所具有的功能与大脑中某些特定的神经元具有惊人的相似性。

但是，尽管人类大脑擅于进行目标识别，但它并不是完美的。比如说，将一张图片进行某种变形，人类可能并不能很轻易地识别图像中的目标。

举个例子，想象一下一张从侧面拍摄的汽车照片。人们已经开发出了成千上万种对于图片进行变形的方法。比如说对图片中的对象进行平移，分割，或者是将其放大或者缩小。

除此之外，还有两种旋转方式。其一是“平面旋转”，比如说将照片中的汽车上下颠倒。

另一种是“深度旋转”（或者说立体旋转）。在这种情形下，你需要将这个汽车想象成一个3D的物体。在深度上对汽车进行旋转，你看见的可能是汽车的前部，后部或者是四分之三侧视像，等等。

但是，就两张拥有着相同汽车的图片而言，改变不同的视角对于识别汽车会造成多大的影响？显然，有一些变形比另一些更为困难，但是具体是哪些变形？机器视觉是否也会遇到相同的困难？

为了找出答案，克莱德皮舍和其合作者们制作了多张含有四类不同物体的图片。随后，这些图片被用于测试人类与深度神经网络物体识别能力。

在人类受试环节，电脑屏幕上会随机出现一张照片，并显示大约12.5毫秒。受试者们需要按下四个按钮中的一个，来指出刚才看到的图片中出现的是一辆车，一艘船，一辆摩托车或是一个小动物。

一共有89名受试者参加了实验，每一名受试者都浏览了960张图片。研究者们根据每位受试者的反应速度与正确率来衡量他们辨别物体能力的高低。

与此同时，研究团队使用了两个目前在目标识别领域最为强大的深度卷积网络模型进行了相同的测试。这两个神经网络模型分别来自加拿大的多伦多大学和英国的牛津大学。

研究团队最终得出的结论颇为有趣。克莱德皮舍说，“我们发现，人类视觉与深度卷积神经网络识别不同变形的水平大致相当。目前看来，对于两者而言，深度旋转是最具挑战性的变形方式，之后是图片的缩放，平面旋转和平面移动（最简单）。”

这一看似有趣的研究实际上有着极为重要的应用。简单来说，计算机科学家们在未来为测试机器视觉创建图像数据库时，需要更加谨慎。将来，他们需要对那些机器难以识别的因素加以控制。

同时，这项研究也展示了利用卷积神经网络来帮助研究者们研究人类认知的巨大潜力。在许多应用场合中，某些特殊图像的设计是一项至关重要的任务，比如航空管制识别，紧急出口标志设计，救生设备说明书设计等。

使用人工对这些图像进行评估既耗时，又昂贵。但是，或许神经网络可以替代人类完成这些任务，或者至少过滤掉那些最差劲的设计样本，从而大大减轻人类的工作负担。

除此之外，基于这项研究，研究人员们或许还得以开发出不会与人类犯同样错误的机器视觉系统。这类系统可以用来辅助人类在某些重要场合下，比如驾驶时的决策。

当然，这一切都只是一个开始。神经网络的到来，对于那些原来只能由人类负责的任务而言，不啻于一次变革，在将来，这一变革还将继续加速。

eFOCUS