当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Direct3D-S2：南大&复旦联手打造高分3D生成框架！

Direct3D-S2：南大&复旦联手打造高分3D生成框架！

2025-06-07 15:09:16 0浏览收藏

Direct3D-S2是什么

Direct3D-S2 是由南京大学、DreamTech、复旦大学以及牛津大学的研究团队联合推出的一种高精度三维生成框架，它以稀疏体积表示为基础，并引入了创新性的空间稀疏注意力（SSA）机制，大幅提升了扩散变换器（DiT）的运算效能，同时有效削减了训练开销。该框架集成了全端到端的稀疏SDF变分自编码器（SS-VAE），采用对称编码器-解码器架构，兼容多尺度训练，在1024³分辨率下只需使用8块GPU即可完成训练。Direct3D-S2在生成性能与效率方面都超越了现有的同类技术，为高精度三维内容创作提供了强有力的支持。

Direct3D-S2的主要特点

高精度三维形状生成：能够从图像生成高精度的三维形状，最高可达1024³分辨率，生成的三维模型具备细腻的几何结构及卓越的视觉效果。
高效训练与推理：显著增强了扩散变换器（DiT）的计算效率，降低了训练成本。在1024³分辨率下仅需8块GPU就能完成训练。
基于图像的三维生成：支持通过输入图像来生成相应的三维模型。

Direct3D-S2的核心技术

空间稀疏注意力（SSA）机制：把输入标记按照三维坐标分组，利用稀疏三维卷积与池化操作获取各组的整体信息，从而减少标记总数，提高计算速度。依据压缩模块的注意力评分，挑选关键组执行更细致的特征提取，进一步优化计算资源的分配。借助局部窗口操作引入局部特征，加强局部特征间的互动，提升生成品质。最后结合预测出的门控评分整合三部分输出，形成最终的注意力结果。
稀疏SDF变分自编码器（SS-VAE）：运用稀疏三维卷积网络与Transformer网络相结合的方式，将高精度稀疏SDF体积转化为稀疏潜在表示，再通过解码器还原SDF体积。在训练阶段随机抽取不同分辨率的SDF体积，增强模型对多种分辨率数据的适配能力，强化训练效率和泛化水平。
基于图像的扩散变换器（SS-DiT）：从输入图像中提取稀疏前景标记，避免背景标记带来的干扰，确保生成的三维模型与输入图像高度吻合。基于条件流匹配（CFM）训练模型，预测从噪声样本到真实数据分布的速度场，实现高效的三维形状生成。