当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > ​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

来源:机器之心 2024-09-20 15:33:34 0浏览 收藏

一分耕耘,一分收获!既然都打开这篇《​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接》,就坚持看下去,学下去吧!本文主要会给大家讲到等等知识点,如果大家对本文有好的建议或者看到有不足之处,非常欢迎大家积极提出!在后续文章我会继续更新科技周边相关的内容,希望对大家都有所帮助!

训练完就直接上模型。

我们都知道,Mistral 团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

解析一下这个链接,可以看到大小共 23.64 GB,其中包含 4 个文件,其中最大的文件是一个封装的多模态大模型。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

动作快的非官方 Mistral 社区已经将该模型上传到了 Hugging Face。

  • 磁力链接:magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910
  • Hugging Face 地址:https://huggingface.co/mistral-community/pixtral-12b-240910

这一发布引来如潮好评,有人将其与近日经常出现在话题热榜中的 Reflection 模型做了对比,更是尽显 Mistral 团队踏实做事的风格:

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Pixtral 12B 的规格和性能

该模型的名字为 pixtral-12b-240910,从名字也能看出,该模型的参数量为 12B。

其中 params.jsom 列出了该模型的相关参数:

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

可以看到,该模型有一个视觉编码器,其支持 1024×1024 大小的图像,有 24 个隐藏层,支持高级图像处理。

该模型的层数为 40、隐藏维度大小为 14,336,注意力头有 32 个。

此外,Pixtral 12B 的词汇库有 131,072 个不同的 token,可以说相当庞大,因此能实现非常细腻的语言理解和生成。

从这些参数和配置也能看出,Pixtral 12B 至少有能力处理文本和图像数据,实现多模态处理。

Pixtral 12B 的发布广受好评,这是因为人们一直在期待开放模型社区也能获得好用易用的多模态模型。Mistral 这条磁力链接将我们向这个方向推进了一步。

不过由于该模型才刚发布,其效果究竟如何还尚未可知,但好在我们也不是完全没有线索。就在昨天,Mistral 低调地举办了一场峰会 Mistral AI Summit,演讲者包括 Mistral CEO Arthur Mensch 以及英伟达 CEO 黄仁勋等。

几位参与者在社交网络上分享了一些现场照片,让我们可以一窥 Pixtral 模型的性能。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

在这张幻灯片中,我们可以看到 Pixtral 12B 支持任意大小的图像和 128k 的上下文窗口。另外,该模型也能处理同时包含文本和图像的大型文档。

具体性能指标上,Pixtral 12B 的表现虽不及 GPT-4o 和 Claude-3.5 Sonnet,但在各基准上全面胜过了 Claude-3 Haiku 和 Gemini-1.5 8B。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

而在几个开放多模态模型中,Pixtral 在大多数基准上都表现最佳,仅在 DocVQA 上略低于 Qwen2 7B。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Mistral 展示了 Pixtral 的一些具体应用案例。

通过 OCR 将包含数学公式的科学文章图片转录成 Markdown 格式?毫无压力!

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

识别潦草的手写内容,也不在话下。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

提取图片信息和描述图像内容?这已经算是多模态模型的基本能力,那就更无问题了。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

不仅如此,Pixtral 还能理解更加复杂的图像,并从中提取出关键信息和见解:

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

比如它能根据 DNA 图像分析出该图像是在解释 DNA 的结构(相信这个能力很适合用于学习新知识):

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

也能基于手绘的潦草网页设计草稿推理生成 HTML 代码:

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

拍一拍考试卷让其解答数学选择题,也轻轻松松就能完成:

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

至于 Pixtral 是否支持视频,Mistral 在问答环节分享说他们还未测试过视频帧,但已经尝试过 PFF(点特征融合),并且他们表示 Pixtral「128k 的上下文应该能处理视频」。此外,Pixtral 也能泛化用于卫星图像。

至于如何使用 Pixtral 12B,如果你的硬件性能足够,当然可以自己部署;但 Mistral 的开发者关系负责人 Sophia Yang 也表示,未来会通过 Mistral 的 Le Chat 和 La Platforme 提供该模型。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Mistral 的愿景:让 AI 好用且有用

根据网友们分享的消息,在 Mistral AI Summit 上,该公司分享了他们的愿景。

他们认为,要让 AI 有用,最关键的其实是系统问题。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

但对不懂相关技术的普通用户来说,这个系统显得非常复杂。Mistral 想做的就是简化用户的使用流程,降低用户的使用成本。他们想把复杂的技术部分都整合进 La Platforme,让用户只需进行简单的配置就能享受 AI 带来的便利和效率。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

此外,为了让 AI 有能力解决复杂问题,将用户交互用于 AI 模型的持续训练是很有必要的。同时还需要持续地将新软件整合进 AI 的工具箱,提升其能力。

目前,Mistral 的模型矩阵中已经包含了用于通用任务和科研任务的多种免费模型。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

另外,该公司还为编程任务开发了 Codestral 模型,支持 80 多种编程语言并且性能优秀。不过需要指出,虽然 Mistral 允许研究者基于研究和测试目的免费使用 Codestral,但若想将其投入商业应用,则需要向其购买商用权限 —— 这也算是该公司为数不多的盈利项目之一。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

今年 6 月份,Mistral 以 60 亿美元的估值获得了 6.4 亿美元投资,之后不久便发布了该公司的旗舰模型 Mistral Large 2。

Mistral Large 2 的参数量为 123B,支持多语言和函数调用,具备强大的推理和代码能力,整体性能虽不及当前最佳的 GPT-4o 和 Claude-3.5 Sonnet,但却超过了 405B 参数的 Llama 3.1。同样,Mistral Large 2 也免费开放给非商业用途。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Mistral 团队绝对算是 AI 模型开发领域的一股清流。在 AI 领域普遍关注营销宣传的如今,Mistral 的 Twitter 虽有 10 万关注者却并未关注任何一个人,其仅有的 10 条推文也几乎都是在发布新模型,其 CEO Arthur Mensch 的个人账户也毫不活跃。

Mistral AI 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。一个有趣的小知识是因为该公司来自法国,所以 Le Chat 的意思其实就是「猫」,这也是其 Logo 之所以像一只猫的原因。

​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

Mistral AI 曾在 2023 年 6 月获得了创纪录的 1.18 亿美元种子轮融资(据称是欧洲历史上最大的种子轮融资)。当然,这个纪录在前些天已经被 Ilya Sutskever 创立的 Safe Superintelligence Inc. 打破。

参考链接:

https://x.com/MistralAI/status/1833758285167722836

https://x.com/swyx/status/1833926630861070359

以上就是《​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接》的详细内容,更多关于产业的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
在PHP函数中使用块作用域和全局作用域的权衡在PHP函数中使用块作用域和全局作用域的权衡
上一篇
在PHP函数中使用块作用域和全局作用域的权衡
JavaScript是前端语言还是后端语言?
下一篇
JavaScript是前端语言还是后端语言?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    16次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    25次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    30次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    42次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    35次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码