当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文

快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文

来源:机器之心 2024-02-26 10:45:25 0浏览 收藏

最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

今天,谷歌宣布推出 Gemini 1.5。

Gemini 1.5是在谷歌基础模型和基础设施的研究与工程创新基础上开发的。这个版本引入了新的专家混合(MoE)架构,以提高Gemini 1.5的训练和服务的效率。

谷歌推出的是用于早期测试的Gemini 1.5的第一个版本,即Gemini 1.5 Pro。它是一种中型多模态模型,主要针对多种任务进行了扩展优化。与谷歌最大的模型1.0 Ultra相比,Gemini 1.5 Pro的性能水平相似,并引入了突破性的实验特征,能够更好地理解长上下文。

Gemini 1.5 Pro的token上下文窗口数量为128,000个。然而,谷歌从今天开始,为少数开发人员和企业客户提供了AI Studio和Vertex AI的私人预览版,允许他们在最多1,000,000个token的上下文窗口中进行尝试。此外,谷歌还进行了一些优化,旨在改善延迟、减少计算要求并提升用户体验。

谷歌 CEO Sundar Pichai 和谷歌 DeepMind CEO Demis Hassabis 对新模型进行了专门介绍。

谷歌Gemini1.5火速上线:MoE架构,100万上下文
                               领先基础模型的上下文长度

高效架构

Gemini 1.5 建立在谷歌对 Transformer 和 MoE 架构的领先研究之上。传统 Transformer 充当一个大型神经网络,而 MoE 模型则分为更小的 “专家” 神经网络。

根据给定输入的类型,MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究,Google 一直是深度学习 MoE 技术的早期采用者和先驱。

谷歌在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量,同时更高效地训练和服务。这些效率正在帮助谷歌团队比以往更快地迭代、培训和交付更高级的 Gemini 版本,并且正在努力进一步优化。

更长的上下文,更有用的功能

人工智能模型的 “上下文窗口” 由 token 组成,token 是用于处理信息的构建块。token 可以是文字、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大,它在给定提示中可以接收和处理的信息就越多,从而使其输出更加一致、相关和有用。

通过一系列机器学习创新,谷歌增加了 1.5 Pro 的上下文窗口容量,远远超出了 Gemini 1.0 最初的 32,000 个 token。该大模型现在可以在生产环境中运行多达 100 万个 token。

这意味着 1.5 Pro 可以一次性处理大量信息,包括 1 小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。在谷歌的研究中,还成功测试了多达 1000 万个 token。

对大量信息进行复杂推理

1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗 11 号登月任务的 402 页记录时,它可以推理整个文档中的对话、事件和细节。谷歌Gemini1.5火速上线:MoE架构,100万上下文
                            Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。
Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。
Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。谷歌Gemini1.5火速上线:MoE架构,100万上下文
当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。

使用较长的代码块解决相关问题

1.5 Pro 可以跨较长的代码块执行更相关的问题解决任务。当给出超过 100,000 行代码的提示时,它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。谷歌Gemini1.5火速上线:MoE架构,100万上下文
                            Gemini 1.5 Pro 可以推理 100,000 行代码,提供有用的解决方案、修改和注释

增强性能

在文本、代码、图像、音频、视频评估综合面板上进行测试时,1.5 Pro 在用于开发大型语言模型 (LLM) 的基准测试中,87% 的性能优于 1.0 Pro。在相同的基准测试中与 1.0 Ultra 相比,它的表现大致相似。

即使上下文窗口增加,Gemini 1.5 Pro 仍能保持高水平的性能。

在 NIAH 评估中,故意将包含特定事实或陈述的一小段文本放置在很长的文本块中,1.5 Pro 99% 的时间都能找到嵌入的文本,在数据块中如下只要 100 万个 token。

Gemini 1.5 Pro 还展示了令人印象深刻的 “上下文学习(in-context learning)” 技能,这意味着它可以从长提示中给出的信息中学习新技能,而不需要额外的微调。谷歌在 MTOB (Translation from One Book )基准测试中测试了这项技能,该基准显示了该模型从以前从未见过的信息中学习的能力。当给定卡拉芒语(一种全球使用人数不足 200 人的语言)的语法手册时,该模型可以学习将英语翻译成卡拉芒语,其水平与学习相同内容的人相似。

由于 1.5 Pro 的长上下文窗口是大型模型中的首创,因此谷歌正在不断开发新的评估和基准来测试其新颖的功能。

有关更多详细信息,请参阅 Gemini 1.5 Pro 技术报告。

技术报告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

使用 Gemini 模型进行构建和实验

谷歌致力于负责任地将每个新一代 Gemini 模型带给全球数十亿人、开发者和企业用户使用。

从今天开始,谷歌将通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 1.5 Pro 预览版。

未来,当模型进行更广泛的发布时,届时,谷歌将推出具有标准 128,000 个 token 上下文窗口的 1.5 Pro。很快,随着谷歌对模型的改进,谷歌计划引入从标准 128,000 个上下文窗口开始并扩展到 100 万个 token 的定价等级。

早期测试人员可以在测试期间免费尝试 100 万个 token 上下文窗口,速度的显着提高也即将到来。

有兴趣测试 1.5 Pro 的开发人员现在可以在 AI Studio 中注册,而企业客户可以联系他们的 Vertex AI 客户团队。

参考链接:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
在不带任何参数的情况下如何将 go test 结果输出到控制台在不带任何参数的情况下如何将 go test 结果输出到控制台
上一篇
在不带任何参数的情况下如何将 go test 结果输出到控制台
在 Go 中如何嵌套循环并使用数组索引?
下一篇
在 Go 中如何嵌套循环并使用数组索引?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    40次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码