字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA
你在学习科技周边相关的知识吗?本文《字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!
图像重采样 (Image Rescaling,LR) 任务联合优化图像下采样和上采样操作,通过对图像分辨率的下降和还原,可以用于节省存储空间或传输带宽。在实际应用中,例如图集服务的多档位分发,下采样得到的低分辨率图像往往会进行有损压缩,而有损压缩往往导致现有算法的性能大幅下降。
近期,字节跳动 - 火山引擎多媒体实验室首次尝试了有损压缩下的图像重采样性能优化,设计了一种非对称可逆重采样框架,基于该框架下的两点观察,进一步提出了抗压缩图像重采样模型 SAIN。该研究将一组可逆网络模块解耦成重采样和压缩模拟两个部分,使用混合高斯分布建模分辨率下降和压缩失真造成的联合信息损失,结合可微的 JPEG 算子进行端到端训练,大幅提升了对于常见压缩算法的鲁棒性。
目前对于图像重采样的研究,SOTA 方法是基于可逆网络 (Invertible Network) 构建一个双射函数 (bijective function),其正运算将高分辨率 (HR) 图像转换为低分辨率 (LR) 图像和一系列服从标准正态分布的隐变量,逆运算则随机采样隐变量,结合 LR 图像进行上采样还原。
由于可逆网络的特性,下采样和上采样算子保持高度的对称性 (symmetry),这就导致受压缩的 LR 图像难以通过原本学得的上采样算子进行还原。为了增强对于有损压缩的鲁棒性,该研究提出了一个基于非对称可逆框架的抗压缩图像重采样模型 SAIN (Self-Asymmetric Invertible Network)。
SAIN 模型的核心创新点如下:
- 提出了非对称 (asymmetric) 式的可逆图像重采样框架,解决了先前方法中由于严格对称性导致的性能下降问题;提出了增强可逆模块 (E-InvBlock),在共享大量参数和运算的前提下,增强模型拟合能力,同时建模压缩前和压缩后的两组 LR 图像,使模型能够通过逆运算进行压缩恢复和上采样。
- 构建可学习的混合高斯分布,建模分辨率下降和有损压缩造成的联合信息损失,通过重参数化技巧直接优化分布参数,更加符合隐变量的实际分布。
SAIN 模型进行了 JPEG 和 WebP 压缩下的性能验证,在多个公开数据集上的表现大幅领先 SOTA 模型,相关研究已经入选 AAAI 2023 Oral。

- 论文地址:https://arxiv.org/abs/2303.02353
- 代码链接:https://github.com/yang-jin-hai/SAIN
非对称重采样框架

图 1 Dual-IRN 模型图。
为了提升抗压缩性能,该研究首先设计了一种非对称式的可逆图像重采样框架,提出了 baseline 方案 Dual-IRN 模型,深入分析了该方案的不足之处后,进一步优化提出了 SAIN 模型。如上图所示,Dual-IRN 模型包含两个分支,其中 D-IRN 和 U-IRN 为两组可逆网络,分别学习 HR 图像与压缩前 / 压缩后 LR 图像之间的双射。
在训练阶段,Dual-IRN 模型通过可微的 JPEG 算子传递两个分支之间的梯度。而在测试阶段,模型通过 D-IRN 进行下采样获得高质量的 LR 图像,经过现实环境中的真实压缩后,再通过具有压缩感知 (compression-aware) 的 U-IRN 完成压缩恢复和上采样。
这样的非对称式框架,使得上采样和下采样的算子避免了严格的可逆关系,从根源上解决了压缩算法破坏上下采样过程对称性带来的问题,相对于 SOTA 的对称式方案大幅提升了抗压缩性能。
随后,研究人员对 Dual-IRN 模型展开进一步的分析,观察到以下两个现象:
- 第一,衡量 D-IRN 和 U-IRN 两个分支中间层特征的 CKA 相似性。如上图 (b) 所示,D-IRN 最后一层的输出特征(即网络生成的高质量 LR 图像)与 U-IRN 浅层的输出特征具有高度的相似性,表明 U-IRN 的浅层行为更贴近采样损失的模拟,而深层行为更贴近压缩损失的模拟。
- 第二,统计 D-IRN 和 U-IRN 两个分支中间层隐变量的真实分布。如上图 (c)(d) 所示,不具压缩感知的 D-IRN 的隐变量整体上满足单峰的正态分布假设,而具有压缩感知的 U-IRN 的隐变量则呈现了多峰的形态,表明有损压缩带来的信息损失形式更加复杂。
基于以上分析,研究人员从多个方面对模型进行优化,最终得到的 SAIN 模型不仅网络参数量下降了将近一半,并且还取得了进一步的性能提升。
SAIN 模型细节

图 2 SAIN 模型图。
SAIN 模型的架构如上图所示,主要进行了以下四个方面的改进:
1. 整体框架方面。基于中间层特征的相似性,将一组可逆网络模块解耦成重采样和压缩模拟两个部分,形成自非对称 (self-asymmetric) 架构,避免使用两组完整的可逆网络。在测试阶段,使用正变换

取得高质量的 LR 图像,先使用逆变换

进行压缩恢复,再使用逆变换

进行上采样。
2. 网络结构方面。基于压缩损失能够借助高频信息恢复的假设提出 E-InvBlock,在模块中增加一个加性变换,使得共享大量运算的前提下可以高效地建模压缩前 / 压缩后的两组 LR 图像。
3. 信息损失建模方面。基于隐变量的真实分布,提出使用可学习的混合高斯分布建模下采样和有损压缩带来的联合信息损失,通过重参数化技巧端到端优化分布参数。
4. 目标函数方面。设计了多个损失函数,用于约束网络的可逆性、提高重建精度,同时在损失函数中引入真实压缩操作以增强对真实压缩方案的鲁棒性。
实验与效果评估
评估数据集为 DIV2K 验证集和 Set5、Set14、BSD100 和 Urban100 四个标准测试集。
量化评估指标为:
- PSNR:Peak Signal-to-Noise Ratio,峰值信噪比,反映重建图像与原始图像的均方误差,越高越好;
- SSIM:Structural Similarity Image Measurement,衡量重建图像与原始图像的结构相似度,越高越好。
在表 1 和图 3 的对比实验中,SAIN 在所有数据集上的 PSNR 和 SSIM 分数都大幅领先 SOTA 的图像重采样模型。在比较低的 QF 下,现有方法普遍出现严重的性能下降,而 SAIN 模型仍然保持最优性能。

表 1 对比实验,在 DIV2K 数据集上比较不同 JPEG 压缩质量 (QF) 下的重建质量 (PSNR / SSIM)。

图 3 对比实验,在四个标准测试集上比较不同 JPEG QF 下的重建质量 (PSNR)。
在图 4 的可视化结果中,可以明显看出 SAIN 还原的 HR 图像更加清晰、准确。

图 4 不同方法在 JPEG 压缩下的可视化结果对比 (×4 倍率)。
在表 2 的消融实验中,研究人员还比较了其他几种结合真实压缩进行训练的候选方案。这些候选方案相较于完全对称的现有模型 (IRN) 具有更高的抗压缩性能,但在参数量和准确率上仍不如 SAIN 模型。

表 2 针对整体框架和训练策略的消融实验。
在图 5 的可视化结果中,研究人员对比了 WebP 压缩失真下不同图像重采样模型的重建结果。可以发现,SAIN 模型在 WebP 压缩方案下同样表现出了最高的重建分数,能够清晰准确地还原图像细节,证明了 SAIN 对于不同压缩方案的兼容性。

图 5 不同方法在 WebP 压缩下的定性和定量对比 (×2 倍率)。
除此之外,该研究还针对混合高斯分布、E-InvBlock 和损失函数等部分进行了消融实验,证明了这些改进对于结果的正向贡献。
总结与展望
火山引擎多媒体实验室针对抗压缩图像重采样提出了一个基于非对称可逆框架的模型:SAIN。该模型包含重采样和压缩模拟两个部分,使用混合高斯分布建模分辨率下降和压缩失真造成的联合信息损失,结合可微的 JPEG 算子进行端到端训练,提出 E-InvBlock 来增强模型拟合能力,大幅提升了对于常见压缩算法的鲁棒性。
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
未来,研究团队会继续优化图像重采样模型在有损压缩下的性能,并且进一步探索抗压缩视频重采样、任意倍率重采样等更加复杂的应用情景。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。
微软让在 Windows 11 中播放音频 CD 变得更容易
- 上一篇
- 微软让在 Windows 11 中播放音频 CD 变得更容易
- 下一篇
- 必应聊天改进报告:正确显示数学公式,减少非正常结束对话情况
-
- 科技周边 · 人工智能 | 5小时前 | Notion
- Notion数据库合并方法及整合技巧
- 442浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | 动漫风格
- Midjourney动漫风格怎么画Niji模式教程
- 301浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | 邮件模板 DeepSeek
- DeepSeek写邮件技巧与高效模板分享
- 299浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- DeepSeek+Outlook:智能邮件写作技巧
- 235浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 | ChatGPT
- AI编程新趋势,ChatGPT代码生成技巧解析
- 290浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 | GrokAI
- GrokAI生成教程与参数优化指南
- 356浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- Kling画面不满意怎么改?局部重绘教程分享
- 392浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | Grok Grok系统
- Grok官网入口及网页版链接汇总
- 366浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 天宫AI
- 天宫AI情感分析技巧与文本判断方法
- 421浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 通义千问
- 如何调整通义千问英语难度设置
- 196浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- AI制作GIF表情包教程技巧分享
- 269浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3338次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3550次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3582次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4706次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3953次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

