Mamba作者带斯坦福同学、导师创业,Cartesia获2700万美元种子轮融资
本篇文章给大家分享《Mamba作者带斯坦福同学、导师创业,Cartesia获2700万美元种子轮融资》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
要用 Mamba 做可以在任何地方运行的实时智能系统。
Mamba 这种状态空间模型(SSM)被认为是 Transformer 架构的有力挑战者。近段时间,相关研究成果接连不断。而就在不久前,Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。
Cartesia 创立于 2023 年。该团队在相关博客中写到,他们的使命是「构建具有长记忆能力的实时智能,无论你身在何处都能运行。」而其中一部分目标便是「把(Mamba)这些前沿模型带给我们的客户,帮助他们构建实时 AI 应用的未来。」
Albert Gu 的推文
Cartesia 是斯坦福人工智能实验室(Stanford AI Lab)多年来在 SSM 上研究成果的结晶,算得上是学术界到产业界成果转化的又一典范。该团队写到:「在过去四年中,我们构建了 SSM 背后的理论,并对其进行了扩展,让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」
消息发布后,人们纷纷点赞,包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。
Mamba 要落地,第一步是文本转语音?
Transformer 的最大痛点就是线性注意力机制,这导致模型在处理长文本时计算量暴增,比如上下文增加 32 倍时,计算量将增加 1000 倍。Mamba 通过引入「SSM」,成功将计算量增长从平方级降至线性,不仅能处理百万级 token 的长序列,还实现了 5 倍的推理吞吐量提升。
论文链接:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色,甚至能击败 Transformer。但从 Cartesia 的产品来看,Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。
他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。
Cartesia 的官方博客写道:「基于 Transformer 架构的模型仍有重要局限,它们一次只能处理和生成很短的信息(几分钟的音频或几秒钟的视频),无法高效地保持交互状态,在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。
基于这样的理念,Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型,并提供 API 服务。
试玩链接:https://play.cartesia.ai/text-to-speech
除了基础的文本转语音功能,Sonic 还支持声音克隆,并允许用户调节语速、情感、发音和口音等参数。
Sonic 目前支持 15 种语言,还可以按性别调整男性、女性和中性三种选项:
Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语:它可以在仅 90 毫秒内(大约是眨两次眼睛的时间)流式输出第一个音频字节,完美适用于实时和对话式体验。
本站也尝试了一下,Sonic 的速度确实是「超音速」级的,有点偏科,更擅长英语「母语」,中文的 AI 味仍然很重。



提示词:你在以下时间有空吗?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?

提示词:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.

Sonic Preview 目前还未开放除英语外的其他语种。不过,据我们在官方提供的 Playgound 中实测,Sonic Preview 的表现一般,「买家秀」和「卖家秀」差得还是有点大。至于博客中写的「超高真实感」嘛,可能还需继续努力。



论文地址:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf






Tri Dao:Together AI 首席科学家、普林斯顿大学计算机科学助理教授、Flash Attention 提出者、Mamba 的另一位作者。 Stefano Ermon,斯坦福大学计算机科学副教授。 Simran Arora,Stanford AI Lab 在读博士,其一作论文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 论文。 Sabri Eyuboglu,Stanford AI Lab 在读博士,其一作论文《Simple linear attention models balance the recall-throughput tradeoff》获得了 ICML 2024(用于基础模型的高效系统研讨会) 的最佳论文奖。 Ishaan Preet Singh,投资者之一,曾参与投资了多家创业公司。
文中关于产业,Mamba,Sonic,Cartesia的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Mamba作者带斯坦福同学、导师创业,Cartesia获2700万美元种子轮融资》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 小白一键重装系统安装怎么操作

- 下一篇
- 如何让兄弟元素宽度跟随最长元素自动撑开?
-
- 科技周边 · 人工智能 | 5小时前 |
- 腾讯混元3Dv2.5新版3D模型震撼发布
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- Llama4震撼发布,Meta开源多模态AI霸主
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 15小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 16次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 12次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 12次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 16次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 17次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览