将球面深度学习扩展到高分辨率输入数据
科技周边不知道大家是否熟悉?今天我将给大家介绍《将球面深度学习扩展到高分辨率输入数据》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
译者 | 朱先忠
审校 | 孙淑娟
传统的球面CNN无法扩展到高分辨率分类任务。在本文中,我们介绍了球面散射层(spherical scattering layers)——一种新型的球面层,它可以降低输入数据的维数,同时保留相关信息,同时还具有旋转等变的特性。
散射网络通过使用小波分析中预定义的卷积滤波器进行工作,而不是从头开始学习卷积滤波器。由于散射层的权重是专门设计的而不是通过学习得到的,因此散射层可以用作一次性预处理步骤,从而降低输入数据的分辨率。我们以往的经验表明,配备初始散射层的球面CNN可以扩展到数千万像素的分辨率,这一壮举以前在传统球面CNN层中是难以实现的。
传统球面深度学习方法需要计算
球面CNN(文献1,2,3)对于解决机器学习中的多种不同类型的问题都非常有用,因为这其中许多问题的数据源不能自然地在平面上表示(有关这方面的入门性介绍,请参阅我们的前一篇文章,地址是:https://towardsdatascience.com/geometric-deep-learning-for-spherical-data-55612742d05f)。
球面CNN的一个关键特性是,它们与球面数据的旋转是等变的(在本文中,我们重点讨论旋转等变方法)。实际上,这意味着球面CNN具有令人印象深刻的泛化特性,允许它们执行诸如分类3D对象网格之类的操作,而不管它们是如何旋转的(以及它们在训练期间是否看到网格的不同旋转)。
我们在最近发布的文章中描述了Kagenova团队为提高球面CNN的计算效率而开发的一系列进展成果(参考地址:https://towardsdatascience.com/efficient-generalized-spherical-cnns-1493426362ca)。我们所采用的方法——高效的广义球面CNN——既保留了传统球面CNN的等方差特性,同时又使得计算效率更高(文献1)。然而,尽管在计算效率方面取得了这些进步,球面CNN仍然局限于相对低分辨率的数据。这意味着,球面CNN目前还不能应用于通常涉及更高分辨率数据的激动人心的应用场景中,例如宇宙学数据分析和虚拟现实的360度计算机视觉等领域。在最近发布的一篇文章中,我们介绍了球面散射层网络,以便灵活调整高效的通用球面CNN来提高分辨率(文献4),在本文中我们将对该内容进行一下回顾。
支持高分辨率输入数据的混合方法
在开发高效的通用球面CNN(文献1)时,我们发现了一种非常有效的构建球面CNN架构的混合方法。混合球面CNN可以在同一网络中使用不同风格的球面CNN层,允许开发人员在不同处理阶段获得不同类型层的好处。
上图展示了混合球面CNN架构示例图(请注意:这些层不是单一的,而是一些不同风格的球面CNN层)。
球面上的散射网络继续采用这种混合方法,并引入了一种新的球面CNN层,可以插入现有的球面架构中。为了将高效的通用球面CNN扩展到更高维度,这一新层需要具备如下特征:
- 计算支持下的可扩展性
- 将信息混合到低频,以允许后续层以低分辨率运行
- 旋转等变
- 提供稳定和局部不变的表示(即提供有效的表示空间)
我们确定散射网络层具有满足所有上面列举的这些特征的潜力。
球面上的散射网络
由Mallat(文献5)在欧几里德环境中首次提出的散射网络可以被视为具有固定卷积滤波器的CNN,这些滤波器是从小波分析中导出的。散射网络已被证明对传统(欧氏)计算机视觉非常有用,尤其是在数据有限的情况下——而在这种情况下学习卷积滤波器是比较困难的。接下来,我们简要讨论一下散射网络层的内部工作原理、它们如何满足上一节中定义的要求以及如何开发它们用于球面数据分析。
散射层内的数据处理由三个基本操作执行。第一个构建块是固定小波卷积,它类似于欧氏CNN中使用的正常学习卷积。在小波卷积之后,散射网络对结果表示应用模数非线性方法。最后,散射利用了一个缩放函数,该函数执行了一种局部平均算法,与普通CNN中的池化层有一些相似之处。重复应用这三个构建块就会将输入数据分散到计算树中,并在不同的处理阶段将结果表示(类似于CNN频道)从树中提取出来。这些操作的简略示意图如下所示。
该图示意了球面信号f的球面散射网络。信号通过级联球面小波变换传播,并结合用红色节点表示的绝对值激活函数。散射网络的输出是通过将这些信号投影到球面小波缩放函数上得到的,从而得到用蓝色节点表示的散射系数。
从传统的深度学习观点来看,分散网络的操作似乎有些模糊。然而,所描述的每种计算操作都有一个特定的目的——旨在利用小波分析的可靠的理论结果。
散射网络中的小波卷积是经过仔细推导的,以便从输入数据中提取相关信息。例如,对于自然图像,小波被定义为专门提取与高频的边缘和低频的物体普通形状相关的信息。因此,在平面设置中,散射网络滤波器可能与传统的CNN滤波器有一些相似之处。这同样适用于球面设置,我们使用尺度离散小波(scale-discretised wavelets,详见文献4)。
由于小波滤波器是固定的,初始散射层只需要应用一次,而不需要在整个训练过程中重复应用(如传统CNN中的初始层)。这使得散射网络在计算上具有可扩展性,满足上面特征1的要求。此外,散射层降低了其输入数据的维数,这意味着在训练下游CNN层时,只需要使用有限的存储空间来缓存散射表示。
小波卷积后面采用的是模数非线性方法。首先,这给神经网络层注入了非线性特征。其次,模数运算将输入信号中的高频信息混合到低频数据中,满足上面的要求2。下图显示了模数非线性计算前后数据的小波表示的频率分布情况。
上图展示了模运算前后不同球面频率l处小波系数的分布。输入信号中的能量从高频(左侧面板)移动到低频(右侧面板)。其中,f是输入信号,Ψ代表缩放j的小波。
应用模数计算后,将得到的信号投影到缩放函数上。缩放函数从表示结果中提取低频信息,类似于传统CNN中的池化函数操作。
我们对球面散射网络的理论上的等方差特性进行了经验测试。测试是通过旋转信号并将其通过散射网络馈送,然后将得到的结果表示与输入数据通过散射网络后再进行旋转计算的结果表示进行比较。由下表中的数据可以证明给定深度的等方差误差较低,因此满足上述要求3(通常在实践中,一个路径深度不会超过两个路径的深度,因为大多数信号能量已经被捕获)。
不同深度球面散射网络的旋转等方差误差
最后,从理论上证明了欧氏散射网络对小的微分或畸变是稳定的(文献5)。目前,这个结果已经推广到紧致黎曼流形上的散射网络(文献6),特别是球面环境(文献4)。在实践中,对差异形态的稳定性意味着,如果对输入进行轻微更改,散射网络计算的表示不会有显著差异(关于稳定性在几何深度学习中的作用的讨论,请参阅我们之前的帖子,地址是https://towardsdatascience.com/a-brief-introduction-to-geometric-deep-learning-dae114923ddb)。因此,散射网络提供了一个表现良好的表示空间,在该空间上可以有效地进行随后的学习,满足上述第4项要求。
可缩放和旋转等变的球面CNN
考虑到引入的散射层满足我们所有想要的特性,接下来我们准备将它们集成到我们的混合球面CNN中。如前所述,散射层可以作为初始预处理步骤固定到现有架构上,以减小后续球面层处理的表示的大小。
在上图中,散射层模块(虚线左侧)是一个设计层。这意味着,它不需要训练,而其余层(虚线右侧)是可训练的。因此,这意味着散射层可以作为一次性预处理步骤应用,以降低输入数据的维数。
由于散射网络具有给定输入的固定表示,因此散射网络层可以在训练开始时应用于整个数据集一次,并缓存生成的低维表示以训练后续层。幸运的是,散射表示具有降低的维度,这意味着存储它们所需的磁盘空间相对较低。由于存在这个新的球面散射层,所以可以把高效的广义球面CNN扩展到高分辨率分类问题领域。
宇宙微波背景各向异性的分类
物质在整个宇宙中是如何分布的?这是宇宙学家的一个基本研究问题,对我们宇宙的起源和演化的理论模型具有重大意义。宇宙微波背景辐射(CMB)——来自大爆炸的残余能量——描绘了宇宙中物质的分布。宇宙学家在天球上观察CMB,这需要能够在天球内进行宇宙学分析的计算方法。
宇宙学家对分析宇宙微波背景的方法非常感兴趣,因为这些方法能够检测宇宙微波背景在整个空间的分布中的非高斯性,这对早期宇宙理论具有重要意义。这种分析方法还需要能够扩展到天文分辨率。我们通过将CMB模拟分为高斯或非高斯,分辨率为L=1024,证明了我们的散射网络能够满足这些要求。散射网络成功地将这些模拟分类,准确度为95.3%,比低分辨率传统球面CNN的53.1%要好得多。
上图给出高斯和非高斯类CMB的高分辨率模拟示例,用于评估球面散射网络扩展到高分辨率的能力。
总结
在本文中,我们探讨了球面散射层能够压缩其输入表示的维度,同时还保留下游任务的重要信息。我们已经证明,这使得散射层对于高分辨率的球面分类任务非常有用。这为以前难以解决的例如宇宙学数据分析和高分辨率360图像/视频分类等潜在应用打开了大门。然而,许多例如分割或深度估计这样的需要密集预测的计算机视觉问题都需要高维输出和高维输入。最后,如何开发可控制的既可以增加输出表示维度同时又能够保持等方差的球面CNN层,这是Kagenova开发人员当前研究的主题。这些内容将在下一篇文章中进行介绍。
参考文献
[1]Cobb, Wallis, Mavor-Parker, Marignier, Price, d’Avezac, McEwen, Efficient Generalised Spherical CNNs, ICLR (2021), arXiv:2010.11661
[2] Cohen, Geiger, Koehler, Welling, Spherical CNNs, ICLR (2018), arXiv:1801.10130
[3] Esteves, Allen-Blanchette, Makadia, Daniilidis, Learning SO(3) Equivariant Representations with Spherical CNNs, ECCV (2018), arXiv:1711.06721
[4] McEwen, Jason, Wallis, Christopher and Mavor-Parker, Augustine N., Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs, ICLR (2022), arXiv:2102.02828
[5] Bruna, Joan, and Stéphane Mallat, Invariant scattering convolution networks, IEEE Transaction on Pattern Analysis and Machine Intelligence (2013)
[6] Perlmutter, Michael, et al., Geometric wavelet scattering networks on compact Riemannian manifolds, Mathematical and Scientific Machine Learning. PMLR (2020), arXiv:1905.10448
译者介绍
朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。
原文标题:Scaling Spherical Deep Learning to High-Resolution Input Data,作者:Jason McEwen,Augustine Mavor-Parker
今天关于《将球面深度学习扩展到高分辨率输入数据》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- 自动驾驶视觉感知技术路线浅析

- 下一篇
- 四分钟对打300多次,谷歌教会机器人打乒乓球
-
- 科技周边 · 人工智能 | 30分钟前 |
- 通灵义码怎么玩?高手都在用这些技巧,快收藏!
- 321浏览 收藏
-
- 科技周边 · 人工智能 | 39分钟前 |
- 手把手教你即梦AI快闪视频节奏切换功能!
- 394浏览 收藏
-
- 科技周边 · 人工智能 | 40分钟前 |
- 零门槛玩DeepSeek!硬件无限制满血功能这样配
- 221浏览 收藏
-
- 科技周边 · 人工智能 | 54分钟前 |
- 即梦AI如何开启团队协作?手把手教你开通多人编辑功能
- 151浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek赋能OneNote手写识别,效率起飞不是梦!
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 手把手教你用AI神器打造完美证件照,肤色调整超简单!
- 301浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦AI这样调音频同步!手把手教你声画完美对齐~
- 343浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- DeepSeek怎么绑定飞书?团队协作功能全解析
- 111浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 即梦AI如何添加时间戳?教你轻松设置视频日期水印
- 458浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 互联网信息服务算法备案系统
- 了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
- 62次使用
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 106次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 140次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 271次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 127次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览