当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 腾讯混元携手清华，推出肖像动画生成框架HunyuanPortrait

腾讯混元携手清华，推出肖像动画生成框架HunyuanPortrait

2025-06-02 20:00:23 0浏览收藏

HunyuanPortrait 的核心功能

精准的肖像动画制作：利用单一肖像图片作为外观依据，配合视频片段作为动作参考，精确再现驱动视频中的面部表情及头部姿态于目标肖像之上，形成自然流畅的动画效果。
稳健的身份特征保留：即便面对面部结构和动作幅度较大的差异，依然能够稳固维持原肖像的身份属性，防止出现身份混淆的情况。
细腻的表情捕捉：细致捕捉脸部细微的表情变化，例如目光方向、唇形同步等，使得生成的肖像动画更加真实可信。
卓越的时间连贯性：生成的视频在时间维度上具备极高的连续性和平滑度，有效减少背景晃动或模糊现象的发生。
广泛的风格适应力：无论是动漫风格还是写实照片风格，都能轻松应对，展现出强大的通用性。

隐式条件调控：采用隐式表达来编码动作数据，以更好地捕捉复杂的面部活动与情绪变换，规避因关键点检测不准确而产生的假象或偏差。将这些编码后的动作信息作为指令输入至去噪 U-Net 模型中，借助注意力机制融入其中，从而实现对动画生成流程的精细操控。
稳定的视频扩散架构：依托扩散模型构建的体系，在潜在空间内执行扩散与去噪步骤，从而提升生成品质与训练效率。借助 VAE 将图像从 RGB 空间映射到潜在空间，并通过 UNet 完成去噪操作，产出高质视频帧。
强化的功能提取器：基于评估的动作强度（如面部表情的变形程度和头部移动的距离）优化动作特征的表现形式，增强其对于各种动作强度的适应水平。结合 ArcFace 和 DiNOv2 背景，运用多尺度适配器（IMAdapter）强化肖像的身份一致性，保证生成的动画在各帧间保持统一的身份特质。
有效的训练与推理方案：借助色彩扰动、姿态导向等手段丰富训练集的内容，增强模型的泛化能力。运用多样化的训练策略，例如随机剔除部分骨骼边缘，提升模型在不同输入环境下的可靠性。
注意力机制的应用：在 UNet 内嵌入多头自注意力及交叉注意力模块，加强模型对空间与时间信息的理解力，改善生成视频的细节丰富程度与时序一致性。