当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

来源：51CTO.COM 2024-03-17 14:36:12 0浏览收藏

随着人工智能技术的发展，生成式零样本学习算法旨在让模型识别在训练阶段从未见过的图像类别，在智能安防、大模型等领域具有潜在价值。华中科技大学和阿里巴巴技术专家联合提出了一种视觉增强的动态语义原型方法（VADS），该方法通过将已见类的视觉特征融入语义条件，提升了生成器的性能。VADS在三个常用零样本学习数据集上均取得了显著超出已有方法的性能，并可以与其他生成式零样本学习方法结合，获得精度的普遍提升。

虽然我从来没见过你，但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。

为了达到这个目的，在传统的图像识别任务中，人们在带有不同类别标签的大量图像样本上训练算法模型，让模型获得对这些图像的识别能力。而在零样本学习（ZSL）任务中，人们希望模型能够举一反三，识别在训练阶段没有见过图像样本的类别。

生成式零样本学习（GZSL）被认为是零样本学习的一种有效方法。在GZSL中，首要步骤是训练一个生成器，用以合成未见类别的视觉特征。这个生成过程是通过利用属性标签等语义描述作为条件来驱动的。一旦生成了这些虚拟的视觉特征，就可以像训练传统分类器一样，开始训练一个能够辨识出未见类别的分类模型。

生成器的培训对于生成式零样本学习算法至关重要。在理想情况下，生成器根据语义描述生成的未见类别的视觉特征样本，应该与该类别的真实样本的视觉特征具有相同的分布。这意味着生成器需要能够准确地捕捉到视觉特征之间的关系和规律，以便生成出具有高度一致性和可信度的样本。通过训练生成器，使其能够有效地学习到不同类别之间的视觉特征差异，并

在现有的生成式零样本学习方法中，生成器在被训练和使用时，都是以高斯噪声和类别整体的语义描述为条件的，这限制了生成器只能针对整个类别进行优化，而不是描述每个样本实例，所以难以准确反映真实样本视觉特征的分布，导致模型的泛化性能较差。另外，已见类与未见类所共享的数据集视觉信息，即域知识，也没有在生成器的训练过程中被充分利用，限制了知识从已见类到未见类的迁移。

为了解决这些问题，华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了一种名为视觉增强的动态语义原型方法（VADS）。该方法将已见类的视觉特征更充分地引入到语义条件中，从而让推动生成器能够学习准确的语义-视觉映射。这项研究论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已经被计算机视觉领域顶级国际学术会议CVPR 2024所接收。

具体而言，上述研究呈现了三个创新点：

在零样本学习中，使用视觉特征来增强生成器，以便生成可靠的视觉特征，这是一种创新性的方法。

研究还引入了VDKL和VOSU两个组件，在这些组件的帮助下，数据集的视觉先验被有效获取，并且通过动态更新图像的视觉特征，预定义的类别语义描述得到了更新。这一方法有效地利用了视觉特征。

试验结果表明，本研究采用视觉特征来增强生成器的效果十分显著。这种即插即用的方法不仅具有强大的通用性，而且在提高生成器性能方面表现出色。

研究细节

VADS 由两个模块组成：（1）视觉感知域知识学习模块（VDKL）学习视觉特征的局部偏差和全局先验，即域视觉知识，这些知识取代了纯高斯噪声，提供了更丰富的先验噪声信息；（2）面向视觉的语义更新模块（VOSU）学习如何根据样本的视觉表示更新其语义原型，更新的后语义原型中也包含了域视觉知识。

最终，研究团队将两个模块的输出连接为一个动态语义原型向量，作为生成器的条件。大量实验表明，VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能，并可以与其他生成式零样本学习方法结合，获得精度的普遍提升。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块（VDKL）中，研究团队设计了一个视觉编码器（VE）和一个域知识学习网络（DKL）。其中，VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE，VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时，生成器生成的未见类视觉特征也被输入 VE，得到的隐特征与生成的视觉特征连接，作为最终的视觉特征样本。VE 的另一个输出，即隐编码，经过 DKL 变换后形成局部偏差 b，与可学习的全局先验 p，以及随机高斯噪声一起，组合成域相关的视觉先验噪声，代替其他生成式零样本学习中常用的纯高斯噪声，作为生成器生成条件的一部分。

在面向视觉的语义更新模块（VOSU）中，研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段，VSP 以图像视觉特征为输入，生成一个能够捕获目标图像视觉模式的预测语义向量，同时，SUM 以类别语义原型为输入，对其进行更新，得到更新后的语义原型，然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整，使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分，上述研究使用了学术界常用的三个 ZSL 数据集：Animals with Attributes 2（AWA2），SUN Attribute（SUN）和 Caltech-USCD Birds-200-2011（CUB），对传统零样本学习和广义零样本学习的主要指标，与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024