文 | AI国际站 唐恩 编 | 艾娃 本文由AI国际站 原创出品,未经答应,任何渠道、平台请勿转载,违者必究。 经过漫长的冬季之后,人工智能的展开阅历了酷热的夏天,这主要归功于深度学习和人工神经网络的展开。更精确地说,对深度学习的新兴味很大水平上归功于卷积神经网络(CNN)的胜利,卷积神经网络是一种特别擅优点理可视数据的神经网络结构。 但是,假如我通知您CNN基本存在缺陷怎样办?这就是深度学习的先驱之一Geoffrey Hinton在AAAI会议(主要的年度AI会议之一)上的主题演讲中谈到的内容。 Hinton与Yann LeCun和Yoshua Bengio一同参与了会议,他与他共同构成了都灵奖的“深度学习教父”三人组,他谈到了CNN以及胶囊网络的局限性,这是他在AI上的下一个突破的总体规划。 与他的一切演讲一样,Hinton讨论了很多技术细节,以了解与人类视觉系统相比,使convnet效率低下或与众不同的缘由。以下是他提出的一些关键点。但是首先,作为我们的习气,有一些关于我们如何抵达这里以及为什么CNN对AI社区如此重要的背景。 处置计算机视觉 自从人工智能降生之初,科学家就试图制造能够像人类一样看到世界的计算机。这些努力招致了他们自己的研讨范畴,统称为计算机视觉。 计算机视觉的早期工作触及运用符号人工智能,该软件中的每个规则都必须由人类程序员指定。问题在于,并非人类视觉设备的每个功用都能够在明白的计算机程序规则中合成。该措施最终取得的胜利和运用十分有限。 一种不同的措施是运用机器学习。与意味性AI相反,机器学习算法具有普通结构,并经过检查锻炼示例来释放它们自己的行为。但是,大多数早期的机器学习算法依旧需求大量的人工来设计检测图像中相关特征的零件。 经典的机器学习措施触及许多复杂的步骤,并且需求数十位范畴专家,数学家和程序员的协作。 另一方面,卷积神经网络是端到端的AI模型,它们展开了自己的特征检测机制。锻炼有素的多层CNN会自动以分层的方式辨认特征,从简单的边角开端到复杂的对象(例如脸,椅子,汽车,狗等)。 CNN最早是在1980年代由LeCun提出的,当时是多伦多大学欣顿实验室的博士后研讨员。但是由于它们对计算和数据的庞大需求,它们被甩在了一边,取得了十分有限的采用。经过三十年的展开,CNN的计算硬件和数据存储技术取得了长足的展开。 往常,由于大型计算集群,专用硬件和大量数据的可用性,卷积网在图像分类和对象辨认中发现了许多有用的应用程序。 神经网络的每一层将从输入图像中提取特定特征。 CNN和人类视觉之间的区别 “ CNN学会了端到端的一切。事实是,假如一项功用在某个中央很不错,那么在其他中央也很不错,因而他们取得了庞大的胜利。辛顿在AAAI演讲中说:“这使他们能够分离证据并很好地概括各个职位。”“但是它们与人类的感知有很大不同。” 计算机视觉的主要应战之一是处置理想世界中的数据差别。我们的视觉系统能够从不同角度,在不同背景下以及在不同光照条件下辨认物体。当物体被其他物体部分遮挡或以偏心的方式着色时,我们的视觉系统会运用线索和其他学问来填充缺失的信息以及我们所见事物的缘由。 理论证明,创建能够复制相同对象辨认功用的AI十分艰难。Hinton说:“ CNN在对付翻译。”这意味着锻炼有素的卷积网络能够辨认对象,而不论其在图像中的位置如何。但是他们不能很好地处置改动视点的其他影响,例如旋转和缩放。依据Hinton的说法,处置此问题的一种措施是运用4D或6D映射来锻炼AI,然后再执行对象检测。他弥补说:“但这真是令人望而却步。” 目前,我们最好的处置计划是搜集大量图像,以不同位置显现每个对象。然后,我们在这个庞大的数据集上锻炼我们的CNN,希望它能看到足够多的物体实例以中止概括,并能够在理想世界中以牢靠的精确性检测物体。诸如ImageNet之类的数据集在完成这一目的,该数据集包含超越1400万个带注释的图像。 “这不是很有效,”欣顿说。“我们希望神经网络能够毫不费力地推行到新观念。假如他们学会了辨认某些东西,并且将其放大10倍并旋转60度,那么这基本不会给他们带来任何问题。我们知道计算机图形就是那样,我们希望使神经网络更像那样。” 实践上,ImageNet(目前是评价量算机视觉系统的首选基准)存在缺陷。固然数据集庞大,但无法捕获对象的一切可能角度和位置。它主要由在理想照明条件下以已知角度拍摄的图像组成。 这关于人类视觉系统是能够接受的,它能够轻松地概括其学问。实践上,从多个角度看待某个对象后,我们通常能够想象它在新位置和不同视觉条件下的外观。 但是,CNN需求细致阐明他们需求处置的案件,而且他们没有人脑的发明力。深度学习开发人员通常尝试经过应用称为“数据增强”的过程来处置此问题,在该过程中,他们在锻炼神经网络之前翻转图像或旋转少量图像。实践上,CNN将在每个图像的多个副本上锻炼,每个副本略有不同。这将辅佐AI更好地概括相同对象的变更。数据扩展在某种水平上使AI模型愈增强壮。 但是,数据增强将无法掩盖CNN和其他神经网络无法处置的极端状况,例如上翘的椅子或躺在床上的皱褶T恤。这些是像素支配无法完成的理想状况。 ImageNet与理想:在ImageNet(左列)中,对象放置划一,处于理想的背景和光照条件下。在理想世界中,事情变得愈加紊乱(来源:objectnet.dev) 曾经经过创建更好地表示理想世界的紊乱视觉的计算机视觉基准和锻炼数据集来处置该泛化问题。但是,固然它们能够改善当前AI系统的结果,但是它们并不能处置跨观念中止归结的基本问题。这些新数据集将一直不包含新的角度,新的照明条件,新的颜色和姿势。那些新状况将使最大,最先进的AI系统困惑不已。 差别可能很风险 从上面提出的观念来看,CNN显然以与人类截然不同的方式辨认物体。但是,这些差别不只限于泛化才干弱,而且还需求更多示例来学习对象。CNN产生的对象的内部表示方式也与人脑的生物神经网络十分不同。 这如何表示呢?“我能够拍摄一张图像,并产生一点点噪点,而CNN会将其辨认为完整不同的东西,我简直看不到它曾经改动了。这似乎真的很奇特,我以此为依据证明CNN实践上是在运用与我们完整不同的信息来辨认图像,”欣顿在AAAI会议上的主题演讲中说。 这些经过细微修正的图像被称为“对立性示例”,并且是AI社区研讨的抢手范畴。 对立性示例可能会招致神经网络对图像中止错误分类,而对人眼却坚持不变 Hinton说:“并不是说错了,他们只是以一种完整不同的方式来做,而且他们的完整不同的方式在推行方式上有一些差别。” 但是许多例子表明,对立性干扰可能是极端风险的。当您的图像分类器错误地将熊猫标记为长臂猿时,一切都很心爱有趣。但是,当自动驾驶汽车的计算机视觉系统短少停车标记,邪恶的黑客绕过面部辨认保险系统或Google Photos将人类标记为大猩猩时,您就会遇到问题。 关于检测对立性漏洞并创建可抵御对立性扰动的强大AI系统,已有许多研讨。但是,对立性的例子也提示我们:我们的视觉系统经过几代人的进化,能够处置我们周围的世界,我们也发明了我们的世界来顺应我们的视觉系统。因而,只需我们的计算机视觉系统以与人类视觉基本不同的方式工作,它们将是不可预测且不牢靠的,除非它们得到激光雷达和雷达测绘等互补技术的支持。 坐标系和整体关系很重要 杰弗里·欣顿(Geoffrey Hinton)在AAAI主题演讲中指出的另一个问题是,卷积神经网络无法从物体及其部位了解图像。他们将它们辨认为以不同图案排列的像素雀斑。它们没有实体及其关系的显式内部表示。 “当您将CNN定位在各个像素位置的中心时,您会越来越多地描画该像素位置上发作的状况,这取决于越来越多的上下文。最后,您取得了如此丰厚的描画,致使于您知道图像中存在哪些对象。但他们没有明白解析图像,”欣顿说。 我们对物体组成的了解有助于我们了解世界并了解我们之前从未见过的事物,例如这个奇特的茶壶。 将对象合成为多个部分有助于我们了解其性质。这是马桶或茶壶吗?(来源:粉碎列表) CNN还短少坐标框架,这是人类视觉的基本组成部分。基本上,当我们看到一个物体时,我们会开发一个关于其方向的心理模型,这有助于我们解析其不同特征。例如,在下面的图片中,思索右边的脸。假如您将其上下颠倒,则脸会在左侧。但实践上,您无需实践翻转图像即可看到左侧的脸部。只需在肉体上调整您的坐标系,就能够看到两张脸,无论图片的方向如何。 依据所施加的坐标系,您会有完整不同的内部感知。卷积神经网络的确无法解释这一点。您给他们一个输入,他们有一个感知,并且感知不依赖于施加坐标系。我想这与对立性例子有关,也与卷积网以与人完整不同的方式中止感知这一事实有关。 学习计算机图形学课程 Hinton在AAAI会议上的演讲中指出,处置计算机视觉的一种十分方便的措施是制造逆图形。3D计算机图形模型由对象的层次结构组成。每个对象都有一个转换矩阵,该矩阵定义了与其父对象相比的平移,旋转和缩放比例。每个层次结构中顶级对象的变换矩阵定义了其相关于世界原点的坐标和方向。 例如,思索汽车的3D模型。基础对象具有4×4变换矩阵,该矩阵表示汽车的中心位于具有旋转(X = 0,Y = 0,Z = 90)的坐标(X = 10,Y = 10,Z = 0)处。汽车自身由许多对象组成,例如车轮,底盘,方向盘,挡风玻璃,变速箱,发起机等。每个对象都有自己的变换矩阵,与母矩阵(中心点)相比,它们定义了位置和方向。汽车)。例如,左前轮的中心位于(X = -1.5,Y = 2,Z = -0.3)。左前轮的世界坐标能够经过将其变换矩阵乘以其父矩阵得到。 其中一些对象可能具有自己的子集。例如,车轮由轮胎,轮辋,轮毂,螺母等组成。这些子项中的每个子项都有自己的变换矩阵。 运用这种坐标系层次结构,能够十分轻松地定位和可视化对象,而不论它们的姿势和方向或视点如何。当您要渲染对象时,将3D对象中的每个三角形乘以其变换矩阵及其父级的变换矩阵。然后将其与视点对齐(另一个矩阵乘法),然后在栅格化为像素之前转换为屏幕坐标。 “假如您(对从事计算机图形学的人说),'您能从另一个角度通知我吗?'他们不会说,'哦,我想,但是我们没有从那个角度锻炼因而我们不能从那个角度向您展示它。”他们只是从另一个角度向您展示,由于它们具有3D模型,并且它们对空间结构中止建模,由于零件和整体之间的关系完整不依赖于视点。”欣顿说。“我以为在处置3D对象的图像时不运用这种漂亮的结构是很猖獗的。” 胶囊网络是Hinton雄心勃勃的新项目,它试图做逆计算机图形学。固然胶囊应该有自己的一套物品,但其背地的基本思想是拍摄图像,提取其对象及其零件,定义其坐标系并创建图像的模块化结构。 胶囊网络仍在研发中,自2017年推出以来,它们阅历了多次迭代。但是,假如欣顿和他的同事们胜利地使他们发挥作用,我们将更接近复制人类的视野。 |