当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 小米开源多模态模型，推理模型生不逢时上线

小米开源多模态模型，推理模型生不逢时上线

2025-06-29 10:54:09 0浏览收藏

小伙伴们对科技周边编程感兴趣吗？是否正在学习相关知识点？如果是，那么本文《小米开源多模态大模型，生不逢时的推理模型上线》，就很适合你，本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点，希望对大家的知识积累有所帮助！

大家好，我是 Ai 学习的老章

上月底，小米开源了一个大模型：MiMo-7B，它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略，MiMo-7B 展现出了超越许多更大模型的推理潜力。

昨天，小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型

咱们挨个看一下情况

MiMo-VL-7B 系列

MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入

技术报告：https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

模型文件：https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files

其中

MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。

MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习，无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。

MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B（这个模型我在这篇文章中有介绍1 张 4090，本地部署多模态大模型，部署后我测试了几个图片理解问题，感觉 7B 做到这个程度，无可挑剔）

评估方面，感觉吹牛的可能性比较大

在一般的视觉语言理解中，MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀

在多模态推理中，SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。

MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型，MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。

PS：GUI 就是各种计算机操作的图形界面

MiMo-VL-7B 系列，既没有试用，又没有详细的本地部署文档，这一块，跟阿里差远了。

我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B

改天部署试试

MiMo-7B-RL-0530 系列

模型文件：`https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files

技术报告：https://arxiv.org/abs/2505.07608

昨天小米还开源了 MiMo-7B-RL，太生不逢时了，赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528，还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型，我用 2 张英伟达 4090 本地部署了，深得我心

模型细节就不看了，文末我用大模型基于小米这篇论文绘制了 PPT，感兴趣可以细看。

总结就是，在训练数据、预训练和后训练阶段都进行了优化，号称是在数学和代码推理任务上表现出色，达到了与 OpenAI o1-mini 相当的性能。

部署推理支持 SGLang 和 vLLM，前者 SGLang 官方已支持，vLLM 尚未合并分支，用起来稍麻烦

代码语言：basg复制

# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code

这个我就更懒的测试了，铁定不如DeepSeek-R1-0528-Qwen3-8B

小米这篇论文，我转成了 PPT，感兴趣看看

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个?，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）

图解机器学习 - 中文版（72 张 PNG）

ChatGPT、大模型系列研究报告（50 个 PDF）

108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础

116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数

史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

好了，本文到此结束，带大家了解了《小米开源多模态模型，推理模型生不逢时上线》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多科技周边知识！

小米开源