当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 传统GAN修改后可解释，并保证卷积核可解释性和生成图像真实性

传统GAN修改后可解释，并保证卷积核可解释性和生成图像真实性

来源：51CTO.COM 2023-04-15 14:52:10 0浏览收藏

科技周边小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《传统GAN修改后可解释，并保证卷积核可解释性和生成图像真实性》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

论文地址：https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
作者单位：中国科学院计算技术研究所、上海交通大学、之江实验室

研究背景及研究任务

生成对抗网络（GAN）已经在生成高分辨率图像方面取得了巨大成功，而关于其可解释性的研究也在近年来引起了广泛关注。

在这一领域，如何令 GAN 学习出一个解耦的表征仍是一项重大挑战。所谓 GAN 的解耦表征，即该表征每个部分只影响生成图像的特定方面。此前关于 GAN 解耦表征的研究关注于不同的角度。

例如，在下图 1 中，方法 1 解耦了图像的结构和风格。方法 2 学习了图像中局部对象的特征。方法 3 学习了图像中属性的解耦特征，例如人脸图像的年龄属性和性别属性。然而，这些研究未能在 GAN 中为不同的视觉概念（例如人脸的眼睛、鼻子和嘴巴等部分）提供一个清晰且符号化的表征。

图 1：与其他 GAN 解耦表征方法的视觉对比

为此，研究者提出了一种将传统 GAN 修改为可解释 GAN 的通用方法，该方法确保生成器中间层中的卷积核可以学习到解耦的局部视觉概念。具体地，如下图 2 所示，与传统 GAN 相比，可解释 GAN 中间层中的每个卷积核在生成不同图像时始终代表一个特定的视觉概念，不同的卷积核则代表不同的视觉概念。

图 2：可解释 GAN 与传统 GAN 编码表征的视觉对比

建模方法

可解释 GAN 的学习应满足以下两个目标：卷积核的可解释性和生成图像的真实性。

卷积核的可解释性：研究者希望中间层的卷积核能够自动学习有意义的视觉概念，而无需对任何视觉概念进行人工标注。具体来说，每个卷积核在生成不同图像时都应该稳定地生成对应于相同视觉概念的图像区域。不同的卷积核则应该生成对应于不同视觉概念的图像区域；
生成图像的真实性：可解释 GAN 的生成器仍然能够生成逼真的图像。

为了确保目标层中卷积核的可解释性，研究者注意到当多个卷积核生成与某个视觉概念对应的相似区域时，它们通常联合代表了这一视觉概念。

因此，他们使用一组卷积核来共同表示一个特定的视觉概念，并使用不同组的卷积核来分别表示不同的视觉概念。

为了同时确保生成图像的真实性，研究者设计下述损失函数来将传统的 GAN 修改为可解释的 GAN。

传统 GAN 的损失：该损失用于确保生成图像的真实性；
卷积核划分损失：给定生成器，该损失用于找到卷积核的划分方式，使得同一组中的卷积核生成相似的图像区域。具体地，他们使用高斯混合模型 (GMM) 来学习卷积核的划分方式，以确保每组中卷积核的特征图具有相似的神经激活；
能量模型真实性损失：给定目标层卷积核的划分方式，强制同一组中的每个卷积核生成相同的视觉概念可能会降低生成图像的质量。为了进一步确保生成图像的真实性，他们使用能量模型来输出目标层中特征图的真实性概率，并采用极大似然估计来学习能量模型的参数；
卷积核可解释性损失：给定目标层的卷积核划分方式，该损失用于进一步提升卷积核的可解释性。具体地，该损失会使得同一组中的每个卷积核唯一地生成相同的图像区域，而不同组的卷积核则分别负责生成不同的图像区域。