
EMO
探索EMO,阿里巴巴推出的创新音频驱动肖像视频生成框架。仅需一张图像和一段音频,即可生成表情丰富、动作流畅的肖像视频,支持多语言和多种风格,适用于数字内容创作、虚拟形象制作等领域。
EMO:阿里巴巴音频驱动肖像视频生成框架,赋能数字内容创作
EMO是由阿里巴巴集团智能计算研究所推出的一款革命性的音频驱动肖像视频生成工具。通过单张参考图像和语音音频(如说话、唱歌),EMO能够生成具有丰富表情和不同头部姿态的肖像视频,视频时长可根据输入音频的长度任意调整。
核心优势:
- 简单输入,易于操作:仅需一张参考图像和一段音频作为输入,极大降低了生成视频的门槛,让每个人都能轻松创作。
- 表情生动,情感丰富:生成的视频中人物表情自然生动,能够根据音频内容展现出相应的情感变化,如唱歌时的陶醉、说话时的专注等。
- 多语言支持,应用广泛:支持多种语言的音频输入,无论是歌曲还是对话,都能准确识别并生成相应风格的视频,拓展了应用范围。
- 风格多样,兼容性强:可对不同时代、不同风格的肖像进行动画化处理,包括古代画像、现代照片、3D模型以及AI生成内容等,赋予其栩栩如生的动态效果。
- 动作流畅,精准同步:通过特有的时空模块和注意力机制,确保生成的人物动作流畅自然,即使在快速节奏的音频下,也能保持与音频的精准同步。
主要功能:
- 生成唱歌视频:输入单个人物图像和唱歌音频,生成具有丰富表情和头部姿态的唱歌视频,时长与音频一致,且能长时间保持人物身份特征。
- 生成说话视频:不仅能处理唱歌音频,还能应对多种语言的说话音频,为不同人物生成说话视频,让静态肖像“开口说话”。
- 跨演员表演:可将电影角色等的肖像与不同语言和风格的音频结合,生成跨演员的表演视频,拓展角色表现的可能性,如让《小丑》中的角色用《蝙蝠侠:黑暗骑士》中的声音进行表演。
应用场景:
- 唱歌示例:输入一张歌手的肖像图片和一段其演唱的音频,EMO可生成该歌手的虚拟形象视频,视频中歌手的表情和头部动作会随着歌曲节奏和情感变化而变化,仿佛歌手本人在画面中演唱。
- 说话示例:以AI Chloe(来自游戏《底特律:变人》)的肖像和一段采访音频为输入,生成AI Chloe“说话”的视频,其面部表情和口型会根据音频内容进行相应调整,使虚拟角色更具真实感。
- 跨演员表演示例:将电影《小丑》中Joaquin Rafael Phoenix饰演的小丑角色肖像与《蝙蝠侠:黑暗骑士》中的音频结合,生成小丑用不同风格和语言进行表演的视频,展现角色在多语言、多文化背景下的表现力。
总结:
EMO作为阿里巴巴推出的创新音频驱动肖像视频生成框架,以其简单的输入方式、丰富的表情生成能力、多语言支持以及对多种肖像风格的兼容性,为数字内容创作、虚拟形象制作、影视制作等领域提供了强大的技术支持。无论是内容创作者、虚拟形象制作人还是影视工作者,都能通过EMO创造出更具吸引力和表现力的动态肖像视频作品。