当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 宾夕法尼亚大学新工具ConceptLancet震撼发布

宾夕法尼亚大学新工具ConceptLancet震撼发布

2025-05-19 10:36:42 0浏览收藏

宾夕法尼亚大学推出的Concept Lancet（CoLan）是一款零样本、即插即用的图像编辑工具，通过在潜在空间中对图像进行稀疏分解，将图像表示为视觉概念的线性组合，实现精确的概念移植。CoLan支持概念替换、添加和移除，保持图像的视觉一致性，无需重新训练模型即可应用于现有扩散模型。该工具使用CoLan-150K数据集，包含超过15万个视觉概念的描述，适用于创意设计、影视制作、游戏开发、教育培训和社交媒体等多种应用场景。

Concept Lancet（CoLan）是由宾夕法尼亚大学研究团队开发的一种零样本、即插即用的图像编辑框架。它通过在潜在空间中对图像进行稀疏分解，将图像表示为视觉概念的线性组合，根据编辑任务（如替换、添加或移除概念）进行精确的概念移植。CoLan 使用 CoLan-150K 数据集，该数据集包含超过 15 万个视觉概念的描述，从而准确估计每个概念的存在程度，实现精确且视觉一致的图像编辑。

Concept Lancet— 宾夕法尼亚大学推出的图像编辑框架

Concept Lancet的主要功能

精确的概念替换：支持准确地将图像中的一个概念替换为另一个概念（例如将“猫”替换为“狗”）。
概念添加与移除：支持在图像中添加新的概念（例如“添加水彩风格”）或移除现有概念（例如“移除背景中的云”）。
视觉一致性保持：在编辑过程中，保持图像的整体视觉一致性，避免因编辑过度或不足导致的视觉失真。
零样本即插即用：支持直接应用于现有的扩散模型，无需对模型进行重新训练或微调，具有很强的通用性和灵活性。

Concept Lancet的技术原理

概念字典构建：
- 视觉概念提取：视觉语言模型（VLM）解析输入的图像和提示，生成与编辑任务相关的视觉概念列表。概念包括物体、属性、场景等。
- 概念刺激生成：大型语言模型（LLM）为每个概念生成多样化的描述和场景（称为概念刺激），捕捉概念在不同上下文中的表现形式。
- 概念向量提取：将概念刺激映射到扩散模型的潜在空间（如文本嵌入空间或分数空间），提取每个概念的代表性向量，形成概念字典。
稀疏分解：将输入图像的潜在表示（如文本嵌入或分数）分解为概念字典中的线性组合。基于求解稀疏系数，估计每个概念在源图像中的存在程度。最小化重构误差和正则化项（如 L1 正则化）求解稀疏系数，确保分解结果既准确又简洁。
概念移植：根据编辑任务（替换、添加、移除），对分解后的系数进行调整。例如，将源概念的系数替换为目标概念的系数，实现精确的概念移植。将调整后的系数重新组合成新的潜在表示，基于扩散模型的生成过程生成编辑后的图像。
数据集支持：为充分建模概念空间，构建包含 150,000 多个视觉概念的描述和场景的数据集。概念刺激为每个概念提供丰富的上下文信息，让概念向量更加准确和鲁棒。

Concept Lancet的项目地址