当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Open-o3视频模型开源，北大联合字节发布

Open-o3视频模型开源，北大联合字节发布

2025-11-07 16:45:40 0浏览收藏

**Open-o3视频模型上线，北大联合字节开源发布**。由北京大学与字节跳动联合研发的Open-o3 Video是一款强大的开源视频推理模型，旨在通过引入显式的时空线索，如关键时间点和目标边界框，显著提升视频理解的精度。该模型基于精心构建的STGR数据集，并采用“监督微调+强化学习”两阶段训练策略，在V-STAR基准测试中表现卓越。其非代理架构有效支持复杂时空关系建模，适用于深度视频理解、智能视频问答、视频剪辑辅助等多种场景。Open-o3 Video已在Github和HuggingFace等平台开源，为研究者和开发者提供了一个可复现、可拓展的视频理解解决方案，推动视频分析领域的技术进步。

Open-o3 Video是什么

Open-o3 Video 是由北京大学与字节跳动联合研发的一款开源视频推理模型，致力于通过引入显式的时空线索（如关键时间点和目标边界框）来提升视频理解的精度。该模型依托精心构建的 STGR 数据集，并采用“监督微调+强化学习”两阶段训练策略，在 V-STAR 基准测试中取得了领先表现。其非代理架构设计有效支持复杂时空关系建模，在多项视频推理任务中展现出卓越性能。整个训练流程包含冷启动初始化和强化学习优化两个阶段，使模型具备更强的泛化能力与场景适应性。

Open-o3 Video的主要功能

时空联合推理：能够融合关键时间戳和空间边界框等显式信息，实现对视频内容的时间序列与空间结构的精准推理，显著提升分析准确性。
高质量数据支持与训练机制：基于自主构建的 STGR 数据集，结合 SFT 与 RL 的双阶段训练方法，先进行监督学习打基础，再通过强化学习精调，确保在 V-STAR 等评测中表现优异。
非代理架构优势：摒弃传统代理模型结构，直接处理原始视觉输入，减少中间环节的信息损耗，提高推理效率与时空一致性。
开放生态与可拓展性：完全开源，便于研究者复现、改进和集成到不同应用中，推动视频理解领域的技术进步，具备良好的扩展潜力。

Open-o3 Video的技术原理

显式时空证据注入：将关键帧时间戳和物体位置框作为可解释的推理依据，嵌入模型决策过程，增强预测结果的透明度与可信度。
分阶段优化训练：第一阶段使用带标注的推理链数据进行监督微调（SFT），建立初步推理能力；第二阶段引入强化学习（RL），通过准确性、时序对齐、空间精确性等多维度奖励函数进一步提升性能。
专用数据集构建：设计并发布了 STGR-CoT-30k 和 STGR-RL-36k 两个高质量数据集，涵盖丰富的时空标注与思维链记录，填补了现有数据缺乏统一时空监督的空白。
端到端非代理架构：采用端到端的非代理框架，避免使用中间代理模块带来的延迟与误差累积，实现更高效、更准确的视频语义解析。