当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

来源：51CTO.COM 2024-04-23 10:00:46 0浏览收藏

热门推荐

漫画APP

漫画阅读推荐，热门漫画资源更好找

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

当谷歌Gemini 1.5，遇上抢了它头条的「罪魁祸首」Sora会怎么样？

这两天，拿到内测资格的AI圈大佬们，纷纷给广大网友来了一波在线测试。

这不，Gabor Cselle就让Gemini 1.5去分析了那个著名的樱花雪景视频。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

对此，Gemini 1.5给出的评价是：

视频展示了一条被雪覆盖的日本街道，樱花盛开的场景，但一些明显的问题暗示着可能是由人工智能制作的。

首先，尽管雪下得非常大，樱花却依然绽放。通常，樱花在春季开放，那时天气温暖，不会有雪。

其次，雪以一种过于规律的方式落下，这与现实中雪的降落方式不符。

再者，尽管正下着大雪，视频中的人们却没有穿戴任何冬季服装。

总而言之，虽然视频的视觉效果令人赞叹，但这些问题表明它并非真实场景所拍。

不得不说，就分析视频AI痕迹的准确度来看，Gemini的回答非常切题，说明它的识别和理解能力确实非常出色。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

无独有偶，The Rundown AI创始人Rowan Cheung，则测试了猫在丛林里漫步的视频。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

对此，Gemini 1.5给出的评价是：

这段视频很有可能是由人工智能（AI）创造的，但要确定地说还是有些困难。

一些细节似乎表明这段视频是真实的，例如猫的动作自然流畅，光影效果也相当逼真。

然而，也有一些细节让人怀疑，比如猫的眼睛异常放大，毛皮的质感也过于完美无瑕。

最终，视频是真是假，还是要留给观众自己去判断。

确实Sora的视频生成已经到达了真假难辨的地步，而且Gemini的分析也基本到位，有理有据。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

不过，需要注意的是，在这两位大佬的Prompt里，要么明示了视频就是AI生成的，要么暗示了两者可能有所联系。

1,000,000 token上下文能干啥？

众所周知，模型的上下文窗口越大，它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。

如今，谷歌成功把这个领域「卷」到了100万token（极限为1000万token），创下了最长上下文窗口的纪录。

在这个基础之上，很多之前难以想象的应用都成为了现实。

比如，一口气处理1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词的文本等等。

于是，一大波千奇百怪的实测就扑面而来：

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

比如，前文提到的Rowan Cheung，就用了很多长视频来对Gemini 1.5的理解能力进行了测试。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

首先他上传了今年整个NBA扣篮大赛，问哪一个扣篮得分最高。

Gemini 1.5非常能够从很长的视频中找到了那个获得50分满分的扣篮，并清除地描述了扣篮的细节！

Mac McClung的最后一记扣篮获得了当晚的最高分——50 分满分。他跳过两人，将球轻敲篮板后板，然后用右手完成扣篮。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

然后他又让Gemini 1.5理解并比较《星际穿越》和《星际探索》的完整电影脚本。

让Gemini 1.5 去理解比较两部电影的完整文字内容，来帮助他决定应该看哪部电影。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

Gemini 1.5最后输出到：

《星际探索》：归根结底，这是一个关于个人成长和人与人之间联系的重要性的故事，表明即使面对宇宙的冷漠，找到自身的意义和与他人的联系也是至关重要的。

《星际穿越》：更加乐观和充满希望，强调了人类智慧的力量，以及面对看似难以克服的挑战时坚持不懈的重要性。

接下来该看哪部电影取决于你的个人喜好：

如果您正在寻找一个更加内省、以人物为驱动力、注重情感主题的故事，《星际探索》可能是一个不错的选择。

如果你更喜欢史诗般的动作冒险，关注人类的生存，那么《星际穿越》可能更有吸引力。

两部电影都为太空探索和人类经历提供了独特而发人深省的视角。

然后，他又让Gemini将一段英语翻译成一个全世界不超过2000人使用的语言（萨特兰语）。

Gemini 1.5经过推理之后将英语小册子的所有内容很快翻译成萨特兰语。

这个过程确实碉堡了。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

然后他再让Gemini查找、理解长论文中的一个图标的含义。

Gemini从DeepMind的Gemini 1.5 Pro论文中提取「表 8」并解释了这个图表的含义。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

表8的主要的内容是：

与Gemini 1.0 Pro相比，Gemini 1.5 Pro在所有核心文本功能方面都有显著改进。这表明该模型的能力有了明显的提升。

Gemini 1.5 Pro在许多基准测试中的表现与Gemini 1.0 Ultra相当，甚至超过了后者，尽管所需的训练计算量更少。这凸显了1.5 Pro模型效率的提高。

Gemini 1.5 Pro在不同的任务和语言中都表现出很强的性能，这表明它具有很好的泛化能力。

总之，表8提供的证据表明，Gemini 1.5 Pro不仅在长文本理解方面表现出色，而且还保持甚至改进了其前代产品的核心文本功能。这使它成为一个功能强大、用途广泛的模型，适用于各种基于文本的任务。

最后，他让Gemini理解整个《星际穿越》的剧本内容，再把剧本中最高潮的部分的台词提取出来。

Gemini 1.5输出了《星际穿越》文字记录中最鼓舞人心的3句台词。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

1. 「人类诞生于地球，但我们的命运远不止于此。」—— Cooper

这句话深刻地表达了人类探索未知、超越现状的不屈不挠的精神。它提醒我们，我们的潜力不受当前所处环境的限制，我们完全有能力克服挑战，追求更高的目标。

2. 「爱是唯一能跨越时间和空间，触及我们心灵的力量。」—— Brand

这句话揭示了爱的强大能力，它能够跨越遥远的距离，甚至是时间的界限，将我们紧紧相连。它暗示，爱是宇宙中的一股根本力量，能在逆境中为我们指明方向，带给我们希望。

3. 「曾经，我们仰望星空，梦想着自己在浩瀚宇宙中的位置。如今，我们却沉溺于眼前的琐事，忘记了自己的远大理想。」—— Cooper

这句话是对好奇心、追求和雄心壮志的重要性的深情提醒。它对比了过去人类满怀希望地探索星辰的时代，与如今忙于应对日常挑战、失去对未来的憧憬的现状。它激励我们重新寻找那份对未知的好奇和对更美好未来的追求。

Gemini 1.5性能极限测试

随后，Rowan Cheung又对Gemini 1.5进行了一些更加极限的测试：

他让Gemini读取了整部《哈利·波特与魔法石》（共741,028个Token）。

Prompt：「请按照时间顺序列出书中最重要的50个（或100个）思想或段落，并对它们的重要性进行1到10的评分。」

完成这个任务耗时4分钟。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

他又输入了梅西在对阵赫塔菲比赛中的经典单刀进球视频。

Prompt：「这个进球为什么如此著名？」

虽然没有解释这个进球为什么那么著名，但它成功识别出了梅西，但是把赫塔菲的球员识别成了皇马球员。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

这张图片之所以出名，是因为它捕捉到了有史以来最伟大的足球运动员之一梅西在与巴塞罗那最大的对手之一皇家马德里比赛时的场景。梅西的球技和运动能力在这幅图片上得到了充分展示，视觉效果极佳。

他还进行了难度很高的数学和逻辑推理测试。

Prompt：「当一个点P在垂直线上移动时，该点在时间t（t ≥ 0）的速度v(t)与加速度a(t)满足以下条件：(a) 当0 ≤ t ≤ 2时，v(t) = 2t^3 - 8t。(b) 当t ≥ 2时，a(t) = 6t + 4。请计算点P从时间t = 0到t = 3移动的总距离。」

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

不过，大佬表示，自己并不确定这里给出的答案是否正确，但据网友评论的说法，这个答案是错误的。

他又让Gemini 1.5造10个句子，每个句子都以「Apple」结尾。

这个任务是检验聊天机器人能力的一个很常用的方法。

Prompt：「请编写10个句尾为『apple』的句子。」

最后，Gemini 1.5完全没能完成这项挑战。

于是他让GPT-4也来跑了一下这个问题，结果GPT-4也没给出正确的结果。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

他又把《炼金术士》这本书的PDF全文输入到了Gemini 1.5中，目的是获取书中主人公的形象描述。

接着，他又把这个描述在DALL·E 3中生成了图片。

Prompt：「读完整本书后，帮我构思一个基于主角形象的描述，我想把它用在AI图像生成器里。」

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

1000万极限海底捞针几乎全绿

最后，我们来看看Gemini 1.5 Pro在多模态海底捞针测试中的成绩。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

对于文本处理，Gemini 1.5 Pro在处理高达530,000 token的文本时，能够实现100%的检索完整性，在处理100万token的文本时达到99.7%的检索完整性。

甚至在处理高达1000万token的文本时，检索准确性仍然高达99.2%。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

在音频处理方面，Gemini 1.5 Pro能够在大约11小时的音频资料中，100%成功检索到各种隐藏的音频片段。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

在视频处理方面，Gemini 1.5 Pro能够在大约3小时的视频内容中，100%成功检索到各种隐藏的视觉元素。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

此外，谷歌研究人员还开发了一个更通用的版本的「大海捞针」测试。

在这个测试中，模型需要在一定的文本范围内检索到100个不同的特定信息片段。

在这个测试中，Gemini 1.5 Pro在较短的文本长度上的性能超过了GPT-4-Turbo，并且在整个100万token的范围内保持了相对稳定的表现

与之对比鲜明的是，GPT-4 Turbo的性能则飞速下降，且无法处理超过128,000 token的文本，表现惨烈。

Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

今天关于《Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于模型,数据的内容请关注golang学习网公众号！

模型数据

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

Redis缓存更新策略是什么

Redis缓存更新策略是什么

上一篇: Redis缓存更新策略是什么

Java函数对サーバーless 架构有何影响？

下一篇: Java函数对サーバーless 架构有何影响？

查看更多

最新文章

科技周边 · 人工智能 | 1星期前 | AI绘画

AI绘画工具安装与配置教程

339浏览收藏
科技周边 · 人工智能 | 1星期前 |

海螺AI语音功能测评与体验分享

260浏览收藏
科技周边 · 人工智能 | 1星期前 |

ChatGPT读不了加密PDF？先解密再上传

438浏览收藏
科技周边 · 人工智能 | 1星期前 |

千问AI测试规范与覆盖率提升技巧

152浏览收藏
科技周边 · 人工智能 | 1星期前 |

MiniMaxMusic2.0专业模式上线：音乐创作新神器

232浏览收藏
科技周边 · 人工智能 | 1星期前 |

即梦AI音乐可视化效果评测

280浏览收藏
科技周边 · 人工智能 | 1星期前 | 豆包AI 豆包AI助手

豆包AI写诗技巧与教程分享

152浏览收藏
科技周边 · 人工智能 | 1星期前 | openclaw

OpenClawAI摘要生成技巧全解析

102浏览收藏
科技周边 · 人工智能 | 1星期前 |

百度发布DuMate智能体，李彦宏解读DAA新定义

247浏览收藏
科技周边 · 人工智能 | 1星期前 |

智谱清影制作鸟瞰街景镜头教程

306浏览收藏
科技周边 · 人工智能 | 1星期前 | openclaw

OpenClaw框架解析与技术亮点揭秘

357浏览收藏
科技周边 · 人工智能 | 1星期前 |

即梦AI美妆详情页提示词技巧

334浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

7197次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

7620次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

7426次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

9366次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

8101次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码