
可图AI 2.0图片生成
可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
新的介绍内容:
可图AI 2.0 是快手旗下可灵AI于2025年4月15日发布的新一代图像生成大模型,作为可灵AI 2.0生态的核心组成部分,其核心定位是面向专业创作者与普通用户的多模态图像创作引擎。该模型支持从文本生成图像、图像编辑、风格转绘等全链路创作需求,旨在满足用户在图像创作方面的多样化需求。
技术架构与核心能力突破:
基础模型升级:可图2.0基于快手自研的DiT(Diffusion Transformer)架构,结合Flow模型作为扩散基座,通过全新升级的文本表征处理链路和自适配图像Caption构建策略,显著提升了对复杂语义的理解能力。例如,输入“少女照镜子,镜子里映出老年形象”的提示词时,可图2.0能精准呈现人物年龄对比、光影层次及构图设计。
多模态交互体系:可图2.0深度融入可灵AI的Multi-modal Visual Language(MVL)交互理念,支持“文本 图像 视频”多模态输入。用户可上传参考图并结合文字描述,实现风格转绘、元素替换等操作。例如,上传一张写实照片并输入“吉卜力风格”,模型能一键切换艺术风格,同时保留原图语义内容。
动态质量与美学表现:可图2.0支持4K级细节渲染,皮肤纹理、发丝飘动等微表情捕捉能力较1.6版本提升3倍,光影与色彩表现接近专业影视级水准。在“机械女神 壁画 古典平衡感”等多元素组合提示中,可图2.0的图文相关性得分超过Midjourney V7的307%。
功能创新与用户体验:
图像生成能力全面进化:可图2.0支持60余种风格化效果转绘,涵盖赛博朋克、梵高油画、国风水墨等。文生图功能升级后,模型出图创意和想象力大幅跃升。此外,局部重绘和智能扩图功能支持精准修复画面瑕疵和无损扩展。
多模态编辑与创作链路:通过风格迁移算法实现风格一键切换,支持从AI生图→风格转绘→视频生成的完整创作链路,效率比传统流程提升10倍。
行业应用与市场表现:
用户规模与商业化进展:截至2025年4月,可灵AI全球用户突破2200万,月活用户量较上线初期增长25倍,累计生成3.44亿张图片素材。可灵AI于2024年9月实现单月流水超千万元,2025年前三个月累计营收突破1亿元。
垂直领域解决方案:可图2.0在广告营销、影视制作、非遗传承等领域展现出巨大潜力。例如,品牌方通过可图2.0快速生成多版本广告素材,剪纸传承人使用可图2.0将传统纹样转化为数字线稿,创作效率大幅提升。
竞品对比与行业地位:
性能领先:在人工评测中,可图2.0的画面质量、图文相关性、整体满意度均居行业第一,尤其在中文语义理解和复杂元素响应上优势显著。
技术壁垒:可图2.0通过强化学习技术优化运动轨迹模拟,MVL交互体系支持声音、运动轨迹等多模态信息输入,未来计划开放动作描述文件接入,实现角色运动轨迹完全可控。
未来规划与挑战:
技术演进方向:计划引入声音、3D模型等模态信息,提升创作自由度,并通过模型压缩和分布式训练提升生成速度。
商业化深化:推出行业定制化模型,吸引个人创作者参与内容生产,同时提供会员订阅服务。
伦理与合规:上线“AI生成内容溯源”功能,集成快手自研的AIGC安全检测系统,确保生成结果符合平台规范。
总结:
可图2.0的发布标志着AI图像生成从“能用”迈向“好用”的新阶段,其技术突破与功能创新重塑了创作者的工作流,尤其在影视、广告、非遗等领域展现出巨大潜力。尽管面临国际竞品的竞争,可图2.0凭借多模态交互、中文语义理解、本土化服务等优势,已在全球市场占据一席之地。未来,随着技术持续迭代与商业化生态的完善,可图2.0有望成为AIGC领域的标杆工具,推动“人人皆可创作”的愿景落地。