名奢网 名表 名表日报 查看内容

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...

2023-3-16 18:57| 发布者: fuwanbiao| 查看: 150| 评论: 0

放大 缩小
简介:全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vision)行将于9月8 -14日在德国慕尼黑拉开帷幕。届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。而 ...

全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vision)行将于9月8 -14日在德国慕尼黑拉开帷幕。届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。而在此之前,旷视科技将陆续推出 ECCV 2018 接纳论文系列解读。本文是第 8 篇,一个用于场景了解的统一感知解析网络——UPerNet。往期解读请见文末。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


论文称号:《Unified Perceptual Parsing for Scene Understanding》


论文链接:https://arxiv.org/abs/1807.10221


代码链接:https://github.com/CSAILVision/unifiedparsing


目录


  • 导语
  • 背景
  • 设计思想
  • 定义UPP
    • Broden+
    • 指标
  • UPerNet
    • 背景
    • 架构
  • 实验
    • 结果
    • 视觉学问
  • 结论
  • 参考文献

导语


人类对世界的视觉了解是多层次的,能够轻松分类场景,检测其中的物体,乃至辨认物体的部分、纹理和材质。在本文中,旷视科技提出一种称之为统一感知解析(Unified Perceptual Parsing/UPP)的新任务,请求机器视觉系统从一张图像中辨认出尽可能多的视觉概念。同时,多任务框架 UPerNet 被提出,锻炼战略被开发以学习混杂标注(heterogeneous annotations)。旷视科技在 UPP 上对 UPerNet 做了基准测试,结果表明其可有效分割大量的图像概念。这一已锻炼网络进一步用于发现自然场景中的视觉学问。


背景


人类视觉系统一眼即可从一张图像中提取大量语义信息。人类不只能够立刻解析其中的物体,还能辨认细节属性,好比其部分、纹理和材质。如图 1 所示,这是一间起居室,有着很多不同物体,好比一张咖啡桌,一幅画,以及墙面。同时,我们还看到,这是一张四腿咖啡桌,桌面之上有一块桌垫,以及桌子是木质的,沙发表层是针织的。可见,从材质、纹理的视觉感知到物体及其部分的语义感知,我们对这一视觉场景的描画是多层次的。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


图 1:针对 UPP 锻炼的神经网络可一次性解析不同感知层次的视觉概念,好比场景、物体、部分、纹理、材质等。


近年来,由于深度神经网络和大型数据集的展开,计算机视觉辨认才干取得严重进步,不时迫近以至超越人类水准。但是,视觉辨认任务不同,其研讨也各不相同。好比,物体检测和场景辨认已抵达人类水平,解析和分割的精确度可至像素级;纹理和材质的感知与辨认同样有着充沛的研讨。


设计思想


在人类视觉系统中,上述任务的完成是一步到位的,这就抛给计算机视觉模型一个问题:一个神经网络能否能够同时处置若干个不同的视觉任务。本文把这个问题以一项新任务的方式提出,称之为统一感知解析(Unified Perceptual Parsing/UPP),并给出一种全新的学习措施处置它。


UPP 有若干个应战。首先,没有一个涵盖一切层面视觉信息的标注数据集。不同的数据集是针对一项项特定任务而打造的。好比 ADE20K 数据集用于场景解析,DTD 数据集用于纹理辨认,OpenSurfaces 数据集用于材质和名义辨认。其次,不同感知层面的注解也是混杂的。好比,ADE20K 数据集的注解是像素级的,而 DTD 数据集则是图像级的。


为处置上述应战,本文提出一个新框架,整合不同数据集之间的差别性,并学习分离检测不同视觉概念。一方面,本文从每次迭代中随机采样一个数据源,并只更新相关层,以从数据源中推理概念。这样的设计会规避不稳定行为,好比某一特定概念注解的梯度带有噪音。


另一方面,该框架借助单一网络特征的分层属性,即,关于高层语义概念好比场景分类,分类器只基于带有较高级语义信息的特征图而构建;关于较低级语义信息,好比物体和材质分割,分类器只基于一切阶段的或者带有低级语义信息的特征图而构建。进而,本文提出一种锻炼措施,可使网络只运用图像级的注解即可预测像素级的纹理标签。


本文贡献可归结为如下 3 个方面:1)提出一种新解析任务——统一感知解析(UPP),它需求系统一次性解析多层次视觉概念;2)提出一种带有层级结构的全新网络——UPerNet,可学习不同图像数据集中的差别化数据;3)该网络可完成分离推理,并挖掘图像之中丰厚的视觉学问。


定义 UPP


UPP 任务是指从一张给定图像中辨认出尽可能多的视觉概念,从场景标签,物体,到其部分、纹理和材质,视觉概念是多层次的。该任务依赖于不同锻炼数据的可用性。由于没有一个现有数据集可满足条件,本文经过整合若干个图像标注源而成一个新数据集——Broden+。


Broden+


新数据集构建的基础是 Broadly Densely Labeled Dataset(Broden),这是一个包含不同视觉概念的混杂数据集。但是由于其设计初衷,Broden 并不适用于分割网络的锻炼。为此本文从 4 个方面做出优化,得到了 Broden+ 数据集:


  1. 去掉不同数据集的相似概念;
  2. 只保存至少出往常 50 张图像以上、在整个数据集中至少包含 50000 像素的物体类别;
  3. 手动去掉 OpenSurfaces 数据集中的下采样标签;
  4. 把 ADE20K 数据集中 400+ 个场景标签映射到 Places 数据集中的 365 个标签。

这样,经过规范化工作而得到的新数据集共包含 57095 张图像,其中 22210 张来自 ADE20K,10103 张来自 Pascal-Context 和 Pascal-Part,19142 张来自 OpenSurfaces,5640 张来自DTD,如表 1 所示。图 3 是一些实例。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


表 1:Broden+ 数据集中每一标签类型的统计信息,其评价指标也已给出。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


图 3:Broden+ 数据集实例。


指标


普通来讲,分割任务的权衡指标是 P.A. 和 mIoU。为理处置 mIoU 不计数未标注区域的预测的问题,使其更合适部分分割等任务,本文在一些特定任务中运用 mIoU,但也计数背景区域的预测,这一新指标称为 mIoU-bg。


细致而言,关于借助 ADE20K,Pascal-Context,OpenSurfaces 数据集的物体和材质解析任务,运用评价规范 P.A. 和 mIoU;关于物体部分,则运用 P.A. 和 mIoU-bg;关于场景和纹理分类,则运用 top-1 精度。


UPerNet


背景


当前最优的分割网络主要基于全卷积网络(FCN)。由于缺乏足够的锻炼样本,分割网络通常初始化自针对图像分类任务的预锻炼网络。为使语义分割完成高分辨率预测,dilated conv 技术被提出,在缓解下采样反作用的同时,保障了感受野的扩展率;运用这一技术的网络也成为了语义分割任务的规范范式。但是针对本文提出的 UPP 任务,这一措施有 2 个缺陷:


  1. 最近提出的深度卷积网络虽在图像分类和语义分割任务中大获胜利,但层数常常抵达数十、数百层;其设计结构如此复杂,致使于在网络早期阶段由于感受野较大和计算复杂度较低的缘由,下采样率快速增长。
  2. 这种网络只应用了其中最深的特征图。运用高级语义特征分割高级概念(好比物体)是合理的,但是并分歧适分割多层次的感知属性,特别是低级概念(好比纹理、材质)。

有鉴于此,本文提出了多任务新框架 UPerNet。


架构

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


图 4:UPerNet 架构图。


UPerNet(Unified Perceptual Parsing Network)网络架构如图 4 所示,它基于特征金字塔网络(FPN)。固然理论上讲,深度卷积网络的感受野足够大,但实践可用的要小很多。为抑止这一问题,本文把 PSPNet 中的金字塔池化模块(PPM)用于主干网络的最后一层,在其被馈送至 FPN 自上而下的分支之前。结果实考证明,在带来有效的全局先验表征方面,PPM 和 FPN 架构是高度分歧的。


本文运用多个语义层次的特征。由于图像级信息更合适场景分类,Scene head 直接被附加到 PPM 模块之后的特征图。Object head 和 Part head 被附加到与来自 FPN 的一切层相融合的特征图。Material head 被附加到 FPN 中带有最高分辨率的特征图。Texture 被附加到 ResNet 中的 Res-2 模块,并在整个网络完成其他任务的锻炼之后中止优化,这一设计背地的缘由有 3 个:


  1. 纹理是最低级的感知属性,因而它地道基于明显的特征,无需任何高级的信息;
  2. 正确预测纹理的中心特征是在锻炼其他任务时被隐式学习的;
  3. 这一分支的感受野需求足够小,因而当一张正常大小的图像输入网络,它能够预测不同区域的不同标签。

实验


本节首先给出了 UPerNet 在原始语义分割任务和 UPP 任务上的量化研讨,接着将这一框架用于挖掘场景了解背地的视觉常识学问。


结果


整体架构。为证明 UPerNet 在语义分割上的有效性,本文给出了不同设置下借助物体标注在 ADE20K 数据集上的结果,如表 2 所示。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


表 2:ADE20K 数据集上该措施(基于ResNet-50)与当前最优措施的对比剖析。


混杂标注的多任务学习。本文给出了在分别或融合的不同标注集上的锻炼结果。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


表 3:UPerNet 在 Broden+ 数据集上的结果。


量化结果。本文给出了 UPerNet 的量化结果。如图 5 所示。UPerNet 可统一结构性视觉学问,同时有效预测层级输出。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


图 5:UPerNet(ResNet-50)在考证集上的预测。


视觉学问


UPP 请求模型从一张图像之中辨认尽可能多的视觉概念,假如模型胜利做到这一点,就能够发现躲藏在理想世界之下的丰厚视觉学问,回答诸如“这个杯子的材质是什么”的问题,有助于机器视觉系统更好了解周遭世界。


本节证明,在 Broden+ 数据集上锻炼的 UPerNet 可发现多层次的结构性学问。研讨者以分层的方式定义了若干类关系,如表 4 所示。

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化 ...


表 4:UPerNet 挖掘的视觉学问。


结论


本文定义了名为统一感知解析(UPP)的辨认任务,从场景、物体、部分、材质到纹理,其试图一次性解析图像的多层次视觉概念。一个多任务网络和处置混杂标注的锻炼战略被开发和测试。本文进而应用已锻炼的网络发现场景之中的视觉学问。


参考文献


  • Peng, C., Xiao, T., Li, Z., Jiang, Y., Zhang, X., Jia, K., Yu, G., Sun, J.: Megdet:A large mini-batch object detector. arXiv preprint arXiv:1711.07240 (2017)
  • Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In:IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2017) 2881–2890
  • Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution,and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)
  • Kirillov, A., He, K., Girshick, R., Dollr, P.: Mscoco challenge 2017: stuff segmentation,team fair. (2017)
  • Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487-495

    路过

    雷人

    握手

    鲜花

    鸡蛋
    已有 0 人参与

    会员评论

    文章排行

    • 阅读
    • 评论

    最新文章

    文章列表

     名表回收网手机版

    官网微博:名表回收网服务平台

    今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
    浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
    名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
    返回顶部