当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文

快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文

来源:机器之心 2024-02-26 10:45:25 0浏览 收藏

最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《快速推出的Google Gemini1.5:支持MoE架构,具备100万上下文》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

今天,谷歌宣布推出 Gemini 1.5。

Gemini 1.5是在谷歌基础模型和基础设施的研究与工程创新基础上开发的。这个版本引入了新的专家混合(MoE)架构,以提高Gemini 1.5的训练和服务的效率。

谷歌推出的是用于早期测试的Gemini 1.5的第一个版本,即Gemini 1.5 Pro。它是一种中型多模态模型,主要针对多种任务进行了扩展优化。与谷歌最大的模型1.0 Ultra相比,Gemini 1.5 Pro的性能水平相似,并引入了突破性的实验特征,能够更好地理解长上下文。

Gemini 1.5 Pro的token上下文窗口数量为128,000个。然而,谷歌从今天开始,为少数开发人员和企业客户提供了AI Studio和Vertex AI的私人预览版,允许他们在最多1,000,000个token的上下文窗口中进行尝试。此外,谷歌还进行了一些优化,旨在改善延迟、减少计算要求并提升用户体验。

谷歌 CEO Sundar Pichai 和谷歌 DeepMind CEO Demis Hassabis 对新模型进行了专门介绍。

谷歌Gemini1.5火速上线:MoE架构,100万上下文
                               领先基础模型的上下文长度

高效架构

Gemini 1.5 建立在谷歌对 Transformer 和 MoE 架构的领先研究之上。传统 Transformer 充当一个大型神经网络,而 MoE 模型则分为更小的 “专家” 神经网络。

根据给定输入的类型,MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究,Google 一直是深度学习 MoE 技术的早期采用者和先驱。

谷歌在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量,同时更高效地训练和服务。这些效率正在帮助谷歌团队比以往更快地迭代、培训和交付更高级的 Gemini 版本,并且正在努力进一步优化。

更长的上下文,更有用的功能

人工智能模型的 “上下文窗口” 由 token 组成,token 是用于处理信息的构建块。token 可以是文字、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大,它在给定提示中可以接收和处理的信息就越多,从而使其输出更加一致、相关和有用。

通过一系列机器学习创新,谷歌增加了 1.5 Pro 的上下文窗口容量,远远超出了 Gemini 1.0 最初的 32,000 个 token。该大模型现在可以在生产环境中运行多达 100 万个 token。

这意味着 1.5 Pro 可以一次性处理大量信息,包括 1 小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。在谷歌的研究中,还成功测试了多达 1000 万个 token。

对大量信息进行复杂推理

1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗 11 号登月任务的 402 页记录时,它可以推理整个文档中的对话、事件和细节。谷歌Gemini1.5火速上线:MoE架构,100万上下文
                            Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。
Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。
Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务的 402 页记录中的好奇细节。

更好地理解和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特・基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。谷歌Gemini1.5火速上线:MoE架构,100万上下文
当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。

使用较长的代码块解决相关问题

1.5 Pro 可以跨较长的代码块执行更相关的问题解决任务。当给出超过 100,000 行代码的提示时,它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。谷歌Gemini1.5火速上线:MoE架构,100万上下文
                            Gemini 1.5 Pro 可以推理 100,000 行代码,提供有用的解决方案、修改和注释

增强性能

在文本、代码、图像、音频、视频评估综合面板上进行测试时,1.5 Pro 在用于开发大型语言模型 (LLM) 的基准测试中,87% 的性能优于 1.0 Pro。在相同的基准测试中与 1.0 Ultra 相比,它的表现大致相似。

即使上下文窗口增加,Gemini 1.5 Pro 仍能保持高水平的性能。

在 NIAH 评估中,故意将包含特定事实或陈述的一小段文本放置在很长的文本块中,1.5 Pro 99% 的时间都能找到嵌入的文本,在数据块中如下只要 100 万个 token。

Gemini 1.5 Pro 还展示了令人印象深刻的 “上下文学习(in-context learning)” 技能,这意味着它可以从长提示中给出的信息中学习新技能,而不需要额外的微调。谷歌在 MTOB (Translation from One Book )基准测试中测试了这项技能,该基准显示了该模型从以前从未见过的信息中学习的能力。当给定卡拉芒语(一种全球使用人数不足 200 人的语言)的语法手册时,该模型可以学习将英语翻译成卡拉芒语,其水平与学习相同内容的人相似。

由于 1.5 Pro 的长上下文窗口是大型模型中的首创,因此谷歌正在不断开发新的评估和基准来测试其新颖的功能。

有关更多详细信息,请参阅 Gemini 1.5 Pro 技术报告。

技术报告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

使用 Gemini 模型进行构建和实验

谷歌致力于负责任地将每个新一代 Gemini 模型带给全球数十亿人、开发者和企业用户使用。

从今天开始,谷歌将通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 1.5 Pro 预览版。

未来,当模型进行更广泛的发布时,届时,谷歌将推出具有标准 128,000 个 token 上下文窗口的 1.5 Pro。很快,随着谷歌对模型的改进,谷歌计划引入从标准 128,000 个上下文窗口开始并扩展到 100 万个 token 的定价等级。

早期测试人员可以在测试期间免费尝试 100 万个 token 上下文窗口,速度的显着提高也即将到来。

有兴趣测试 1.5 Pro 的开发人员现在可以在 AI Studio 中注册,而企业客户可以联系他们的 Vertex AI 客户团队。

参考链接:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
在不带任何参数的情况下如何将 go test 结果输出到控制台在不带任何参数的情况下如何将 go test 结果输出到控制台
上一篇
在不带任何参数的情况下如何将 go test 结果输出到控制台
在 Go 中如何嵌套循环并使用数组索引?
下一篇
在 Go 中如何嵌套循环并使用数组索引?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    31次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    54次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    64次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    59次使用
  • Suno苏诺中文版:AI音乐创作平台,人人都是音乐家
    Suno苏诺中文版
    探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
    63次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码