作者 | 申志杰,廖康 单位 |北京交通大学 研讨方向 |计算机视觉 论文题目: PanoFormer: Panorama Transformer for Indoor 360° Depth Estimation 论文链接: https://arxiv.org/pdf/2203.09283.pdf 代码链接: https://github.com/zhijieshen-bjtu/PanoFormer ▲PanoFormer简介图 研讨背景及动机 单目全景深度估量(monocular omnidirectional depth estimation, MODE)是三维场景了解中的一个子范畴,其任务设定为给定一张 360° 全景 RGB 图像,经过网络建模推理得到对应的 360° 深度图,相较于平面视觉而言具有更好的方便性。 MODE 运用更为常见的等距柱状投影(ERP)全景图作为输入。这与正常的 2D perspective 图像存在较大差别:ERP 全景图的 360° 视角增益是以畸变为代价,因而招致整幅图像存在规律性的扭曲(畸变水平由图片水平轴线向垂直边逐步增大)。受限于 CNN 有限的感受野和固定的采样位置,这种畸变特性使得 MODE 具有独立于传统单目深度估量任务之外的应战性。 当然,此前的一些工作提出基于 CUBE 和 ERP 投影的双分支融合结构来增强网络关于大畸变区域的特征提取和建模才干,但需求留意的是,CUBE 格式的全景图在投影过程中会有 25% 像素的丧失,这直接招致 CUBE 分支深度图的含糊。如此两个分支的有限结果判定了其性能上限。为理处置像素损失这一问题,后续有工作提出基于旋转 CUBE 设计双分支结构,一定水平上缓和了这一矛盾。 随着 Transformer 网络框架的兴起,其共同的 long-range 建模才干为处置大畸变问题提供了一个新的思绪。但“拿来主义”真能行得通吗? 应用应战 首先,我们回想一下传统的视觉 Transformer 在处置图像时的步骤并剖析一下其在 ERP 图像上的应用应战: 1. 划分 patch。在以 ERP 格式作为输入的前提下会有两种划分 patch 的措施:1)直接等间距划分 patch;2)将球面全景图投影成堆叠的 perspective 视口自然地作为 patch。首先,直接划分 patch 的措施会显著破坏大畸变区域的结构,而 perspective 视口能够将跨度十分大的物体投影回一个 patch。这样对比来看似乎后者更有趣且合理。 2. Patch->Embedding->Token。视觉 Transformer 中做位置嵌入是经过线性层紧缩特征维度完成的,那这种特征维度的紧缩关于深度估量这一类像素级回归任务来说会不会构成信息的丧失,从而招致性能的降落? 3. 位置嵌入。此前的一些工作指出,在视觉范畴位置嵌入能够贡献的力气似乎并没有很大,且比较鸡肋,很多工作以至直接摒弃了位置嵌入模块,他们以为网络中所引入的卷积结构会暗含位置信息。但思索步骤 1,假如我们采用 perspective 视口 patch 的划分方式,其真实的空间位置曾经发作了改动,因而一个适合的位置嵌入战略在 MODE 中是迫切需求的。那么如何设计一个合理的位置嵌入方式呢? 4. Self-attention。自注力模块经过紧缩后的特征生成 q, k, v 依次查询计算全局留意力,假如我们的 embedding 设计成像素级,将会带来很大的计算复杂度,如何处置? 为理处置这些问题我们提出了一种 360° 全景定制的 Transformer 框架。 措施 ▲Spherical Token Locating Model (STLM) 划分 patch:如前所述,我们划分 patch 能够尽可能地经过投影的方式划分 patch 而不是直接在 ERP 图上划分。投影我们选择 CUBE 格式的 perspective 视口。那么问题是,我们如何选择 CUBE patch 的切点?以及如何肯定 patch的大小? 不思索计算复杂度,我们能够将每个像素点都作为一次切点,这样信息会尽可能地全部保存。至于大小,我们在前面讨论了 CUBE 投影的弊病之一是像素丧失,在这里我们还要讨论一种弊病:关于 CUBE 投影面,理想状况下仅有 CUBE 的中心点(即切点)不存在畸变,除此之外,其他位置会呈现出由切点向周围逐步增大的畸变趋向。思索一种极端的状况,当 CUBE 的大小收缩到极致,即每个 CUBE 面仅由中心切点及其周围的八个点组成,CUBE 面近似贴近球面,畸变影响降至最小。我们将此时的 CUBE 面称为 Tangent patch。 Embedding:从尽可能进步性能的角度动身,我们能够经过等价映射将每个像素点映射成一个 Token。区别于传统 Transformer 中将每个 Patch 嵌入为每个 Token,我们直接将每个 Tangent Patch 上的采样点当作 Token。直观的了解,我们的 patch 和 token 都是手工划分的,patch 在我们的网络中多为一种笼统的概念,我们直接的操作对象是 Token(采样点),即每个切点及其周围的八个点。 位置嵌入:Tangent Patch 是相关于球面而言,为了定义其空间位置属性,我们将手工划分的 patch 反投影到 ERP 图上。留意在球面全景图上每个 patch 由切点及其周围的八个投影点组成,而在 ERP 图上这种空间对应关系发作了改动,由于畸变的存在,他们在 ERP 上简直不再相邻。这种位置投影对应关系恰恰提供了我们 Transformer 里面所需求的位置嵌入。 ▲Panoramic Structure-guided Transformer (PST) block 计算留意力:首先假如我们像传统 Transformer 那样计算留意力,其计算开支十分大,但得益于我们 patch 划分方式和位置嵌入战略,我们似乎找到了其最相关的位置对应关系,即切点 token 及与其最相关的 8 个 token。那么我们能够仅仅经过计算切点 token(或中心 token)与这 8 个 token 的留意力即可。 但问题假如这样做,我们会犯了一个十分大的错误,即把 token 的位置锁死了,使得我们的网络架构丧失了传统 Transformer 固有的灵活性。为理处置这一问题,我们提出了 token flow 的概念,即经过学习一个偏移来弥补其结构上灵活性的丧失。意外之喜是,这种流式的概念能够使网络更好地建模全景结构这一重要的深度线索。 最后,我们基于设计的 PST block 构建最终的 PanoFormer 网络框架: ▲PanoFormer网络架构图 新指标 为了突出模型关于大畸变区域的建模才干,我们经过选取 6 个 CUBE 投影面的上下两个面来设计 Pole-RMSE 指标(留意此指标的应用的一个前提条件是全景相机水平放置,目前的盛行的数据集大都遵照这一假定)。 思索到 ERP 全景图的特性,左右能够完成无缝拼接,我们提出 LRCE 指标来反映模型的长距离建模才干。 细致计算过程请参考论文。 实验结果 我们在四个主流的 MODE 数据集上对我们的模型中止了评价,结果显现我们的模型取得了更有竞争力的结果。但由于 Stanford2D3D 以及 Matterport3D 数据集的固有缺陷招致我们没有措施在这两个数据集上评测我们的新指标(P-RMSE),因而我们在这两个数据集上只报道了 MRE 和 MAE 的指标性能,这两个指标的计算参照 SliceNet(CVPR'21)所开源的代码执行。此外,关于数据集的一些讨论详情见 gihub 代码链接。 值得一提的是,PanoFormer 能够很容易地迁移到全景视觉其他 dense prediction 任务上,好比全景图像语义分割,无需改动任何网络结构便能取得 SOTA 性能。 ▲客观指标 ▲客观对比 ▲全景语义分割客观指标 局限性 关于更高分辨率的扩展计算复杂度可能是我们工作的一个待提升的点。这能够经过在 encoder 阶段增加下采样层,在 decoder 阶段增加插值操作得到缓解。此外,假如认真察看能够发现 attention 计算部分存在比较多重复计算的状况,这可能是优化我们网络的一个方向。 希望我们的工作能够为该范畴带来启示。 更多阅读 # 投 稿 通 道# 让你的文字被更多人看到 如何才干让更多的优质内容以更短途径抵达读者群体,缩短读者寻觅优质内容的成本呢? 答案就是:你不认识的人。 总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或答应以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,爆发出更多的可能性。 PaperWeekly 鼓舞高校实验室或个人,在我们的平台上分享各类优质内容,能够是 最新论文解读,也能够是 学术热点剖析、 科研心得或 竞赛阅历解说等。我们的目的只需一个,让学问真正活动起来。 稿件基本请求: 文章确系个人 原创作品,不曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明白标注 稿件倡议以 markdown格式撰写,文中配图以附件方式发送,请求图片明晰,无版权问题 PaperWeekly 尊重原作者署名权,并将为每篇被采用的原创首发稿件,提供 业内具有竞争力稿酬,细致依据文章阅读量和文章质量阶梯制结算 投稿通道: 投稿邮箱:hr@paperweekly.site 来稿请备注即时联络方式(微信),以便我们在稿件选用的第一时间联络作者 您也能够直接添加小编微信( pwbot02)快速投稿,备注:姓名-投稿 往常,在 「知乎」也能找到我们了 进入知乎首页搜索 「PaperWeekly」 · |