当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

2024-12-19 21:04:02 0浏览收藏

哈喽！今天心血来潮给大家带来了《无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理》，想必大家应该对科技周边都不陌生吧，那么阅读本文就都不会很困难，以下内容主要涉及到，若是你正在学习科技周边，千万别错过这篇文章~希望能帮助到你！

无问芯穹开源全球首个端侧全模态理解开源模型Megrez-3B-Omni

12月16日，无问芯穹正式开源其端上智能一体化解决方案中的核心组成部分——Megrez-3B-Omni，一个仅30亿参数的端侧全模态理解开源模型，并同步开源纯语言版本Megrez-3B-Instruct。该模型在图片、文本、音频三个模态上均表现出色，推理速度领先同精度模型300%。

GitHub地址：https://github.com/infinigence/Infini-Megrez

HuggingFace地址：https://huggingface.co/Infinigence/Megrez-3B-Omni

卓越的全模态性能

Megrez-3B-Omni在图片、文本和音频三个模态的多个权威基准测试中均取得了领先的性能。它超越了包括VITA、Baichuan-Omni-7B、MiniCPM-V2.6、Qwen2-VL-7B、Qwen2-Audio-7B以及Qwen、Baichuan等一系列同类模型。

图像理解：小体量，大作为

Megrez-3B-Omni在图像理解方面表现惊艳。尽管参数量仅为30亿，其性能却超越了参数量达340亿的LLaVA-NeXT-Yi-34B等模型，成为OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。它能够准确识别各种图像场景，高效提取文本信息，轻松应对模糊印刷体和复杂手写体。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理