当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

来源：机器之心 2024-11-07 14:48:42 0浏览收藏

热门推荐

漫画APP

漫画阅读推荐，热门漫画资源更好找

科技周边小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

AI好好用报道

编辑：杨文

目前发布的最大的开源视频生成模型。

Genmo 当了一回「赛博菩萨」。

昨晚，AI 视频生成公司 Genmo 推出了最新的视频生成模型 Mochi 1 ，并且大手一挥，直接给开源了。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

Genmo 在社交媒体上高调宣布：Mochi 1 在运动质量、提示遵循性和人类渲染方面表现出色，甚至超越恐怖谷。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

同时，它还声称，在内部测试中，Mochi 1 已经能与 Runway、Luma 、可灵等领先的闭源竞争者打个平手，甚至略胜一筹。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

为了让网友体验一波 Mochi 1 ，Genmo 还提供了一个在线网址。

链接：https://www.genmo.ai/play

不过，每6小时仅有 2 次免费生成机会，且用且珍惜吧。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

不少网友得知消息后，已经按耐不住整活的热情。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

那么，它的效果到底咋样？

先来瞅瞅官方放出来的视频 demo，稍后我们奉上一手实测。

-1-

一手实测

要说 Mochi 1 最大的优势，就在于其高保真运动和强大的提示遵循能力。

它可以对生成视频中的角色、设定和动作进行精确控制。

科技媒体 VentureBeat 的记者生成了一段老奶奶侧对着镜头说话的视频。

无论是花白的头发，还是面部的皱纹，以及说话时颤动的嘴角，都相当逼真。

不过，如果细看，还是能发现老奶奶的眨眼动作并不自然。

而在下面这段 5 秒视频中，男子正端详瓷器，眼睛没有什么明显的 bug，但手部动幅一大，就会发生轻微扭曲。

X 网友 Heather Cooper 展示了一系列 Mochi 1 生成的作品：

她还对比了两次生成结果的连贯性：

我们也来凑凑热闹，亲自上手试一把。

Prompt：Surreal, cinematic, an astronaut wandering on the desolate moon, with extreme detail.

提示词：超现实，电影效果，一个宇航员在荒凉的月球上漫步，极致细节。

一开始，镜头对准坑坑洼洼的地表，然后缓缓上移，画面中出现了一个身穿宇航服的宇航员。

虽然其镜头运动幅度挺大，但并未体现 Prompt 中宇航员漫步的动作。

Prompt：A little dog was chasing bubbles on the grass.

提示词：一只小狗在草地上追逐泡泡。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

这一次，Mochi 1 翻车翻得猝不及防。

视频中，小狗在摇晃脑袋时，出现了大面积的崩坏，而且从修勾的嘴里吐出很多泡泡，这显然不符合客观事实。

尽管官方声称 Mochi 1 的提示遵循和运动质量超过大多数视频模型，但我们发现，Mochi 1 仍然存在瑕疵。

例如，它仅支持 480p 的分辨率，并且在处理复杂运动的场景时，可能会出现轻微的视觉扭曲。

此外，Mochi 1 在模拟照片级真实感方面表现出色，但在处理动画内容时还稍显力不从心。

当然，Genmo 公司已表示，计划在今年晚些时候推出 Mochi 1 HD 版本，届时将支持 720p 的分辨率，并在运动细节上提供更高的精确度。

-2-

目前发布的最大的开源视频生成模型

据介绍，Mochi 1 基于 Genmo 的非对称扩散变换器（AsymmDiT）架构构建，拥有 100 亿个参数，是目前公开发布的规模最大的开源视频生成模型。

该架构专注于视觉推理，处理视频数据的参数量是处理文本数据的四倍。

为了降低终端用户的设备内存需求，让开发者更容易地获取和使用模型，Mochi 1 采用了视频变分自编码器技术，能够将视频数据压缩到原始大小的一小部分。

现在，用户可以在 Hugging Face 平台上免费获取完整的模型权重和代码，不过需要注意的是，要在自己的设备上运行 Mochi 1，至少需要配备 4 块 Nvidia H100 GPU。

Code:
https://github.com/genmoai/models
Preview版本:
https://huggingface.co/genmo/mochi-1-preview

最后，说个题外话。

昨晚，一大堆 AI 公司排队上「新货」。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

除了 Genmo 开源自家视频生成模型 Mochi 1 外，Runway 还介绍了新功能 ——Act One，可以把真人表演转化成不同风格。

而在大模型领域，Anthropic 推出了升级版的 Claude 3.5 Sonnet ，以及一款新模型 Claude 3.5 Haiku；OpenAI 在欧洲上线了高级语音功能；Perplexity 引入推理模式，允许用户提出多层问题。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

此外，AI 生图领域，Stability AI 发布了自家最强模型 Stable Diffusion 3.5，并一口气祭出三个版本；Ideogram 推出 Canvas，可扩图、局部重绘等。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

大洋彼岸的 AI 圈扎堆搞更新，真有一种过年的赶脚。

延伸阅读：Sora 竞争对手融资数千万美元，目前可免费“薅”

文章视频链接：https://mp.weixin.qq.com/s/OdHvM7nsTWAxbJBYmxZx_w

参考链接——

https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others/

项目博客：

https://www.genmo.ai/blog?utm_source=ai-bot.cn

在线体验：

https://www.genmo.ai/play

huggingface模型库：

https://huggingface.co/genmo/mochi-1-preview

以后我们会带来更多好玩的AI话题，也欢迎大家进群交流。

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

文中关于产业的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多》文章吧，也可关注golang学习网公众号了解相关技术文章。

产业

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

阿里云远程桌面连接失败怎么办？

阿里云远程桌面连接失败怎么办？

上一篇: 阿里云远程桌面连接失败怎么办？

如何轻松查看电脑配置：全面指南与技巧

下一篇: 如何轻松查看电脑配置：全面指南与技巧

查看更多

最新文章

科技周边 · 人工智能 | 1天前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

946次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

914次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

847次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

1043次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

1017次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码