当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > OPPO携手港科大，OThink-MR1框架优化多模态语言模型

OPPO携手港科大，OThink-MR1框架优化多模态语言模型

2025-04-08 18:59:33 0浏览收藏

OPPO研究院与香港科技大学（广州）合作研发出OThink-MR1多模态语言模型优化框架，该框架通过动态调整KL散度策略(GRPO-D)和奖励模型，显著提升了模型在视觉计数、几何推理等复杂任务中的泛化推理能力。OThink-MR1基于动态强化学习，在性能提升、跨任务泛化、动态平衡和推理增强等方面表现出色，超越传统监督微调方法，为多模态模型的通用推理能力树立新标杆，并在智能视觉问答、图像描述生成等领域拥有广阔应用前景。 [OPPO][多模态][语言模型][强化学习][人工智能]

OPPO研究院和香港科技大学（广州）联合打造的OThink-MR1，是一款先进的多模态语言模型优化框架。它通过动态调整Kullback-Leibler (KL) 散度策略 (GRPO-D) 和奖励模型，显著提升了多模态模型在复杂任务中的泛化推理能力。在视觉计数和几何推理等基准测试中，OThink-MR1超越了传统的监督微调 (SFT) 方法，并展现出强大的跨任务适应性，为多模态模型的通用推理能力树立了新的标杆。

OThink-MR1— OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1核心功能：

性能提升: 基于动态强化学习，显著提高了视觉计数、几何推理等多模态任务的准确性和泛化能力。
跨任务泛化: 在一种任务上训练的模型，能够有效迁移到其他不同类型的多模态任务，降低了对特定数据依赖。
动态平衡: 巧妙平衡训练过程中的探索和利用，优化模型的全局性能。
推理增强: 奖励模型确保模型输出准确且符合格式要求，提升整体推理准确性。

OThink-MR1技术原理详解：

OThink-MR1的核心在于其动态KL散度策略 (GRPO-D) 和奖励模型。GRPO-D 借鉴了强化学习中的ϵ-greedy策略，在训练初期侧重探索，后期转向利用，从而避免陷入局部最优解。奖励模型则根据输出的准确性和格式规范性给予奖励，引导模型学习。强化学习机制则通过最大化奖励函数，不断优化模型策略，最终提升性能。

OThink-MR1项目信息：