仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
时间序列预测在各个领域中起着重要作用,例如零售、金融、制造业、医疗保健和自然科学等。在零售行业中,通过提高需求预测的准确性,可以有效降低库存成本并增加收入。这意味着企业能够更好地满足客户需求,减少库存积压和损失,同时提高销售额和利润。因此,时间序列预测在零售领域中具有重要的价值,能够为企业带来实质
深度学习(DL)模型在“多变量时间序列预测”任务中占据主导地位,在各种比赛和实际应用中展现出色的性能。
与此同时,自然语言处理(NLP)任务中的大型基础语言模型也取得了显著进展,有效提升了翻译、检索增强生成、代码补全等任务的性能。
NLP模型的训练依赖于海量文本数据,其中数据来源多种多样,包括爬虫、开源代码等,训练后的模型能够识别语言中的模式,并具备零样本学习的能力:比如说把大模型用在检索任务时,模型可以回答有关当前事件的问题并对其进行总结。
尽管基于深度学习的预测器在许多方面优于传统方法,包括降低训练和推理成本,但仍然存在一些挑战需要克服:
许多深度学习模型要经过长时间的训练和验证才能在新的时间序列上进行测试。相比之下,时间序列预测的基础模型具备"开箱即用预测"功能,无需额外训练即可应用于未知时间序列数据。这种特性让用户能够专注于改进零售需求规划等实际下游任务的预测工作。
Google Research的研究人员最近提出了一个名为TimesFM的时序预测基础模型,在1000亿个真实世界时间点上进行了预训练。与目前最新的大型语言模型(LLMs)相比,TimesFM的规模要小得多,仅包含200M参数。
论文链接:https://arxiv.org/pdf/2310.10688.pdf
实验结果表明,尽管规模较小,TimesFM在各个领域和时间尺度上的不同未经训练的数据集中展现出了令人惊讶的「零样本性能」,接近于明确经过训练、最先进的监督方法在这些数据集上的表现。
研究人员计划今年晚些时候在Google Cloud Vertex AI中为外部客户提供TimesFM模型。
基础模型TimesFM
LLMs通常以仅解码器(decoder-only)的方式进行训练,包括三个步骤:
1. 文本被分解为称为token的子词(subwords)
2. tokens被馈送到堆叠的causal Transformer层,并生成与每个输入token对应的输出,需要注意的是,该层无法处理没输入的token,即future tokens
3. 对应于第i个token的输出总结了来自先前token的所有信息,并预测第(i+1)个token
在推理期间,LLM每次生成一个token的输出。
例如,当输入提示「法国的首都是哪里?」(What is the capital of France?)时,模型可能会生成token为「The」,然后以该提示为条件生成下一个token「首都」(captial)等,直到模型生成完整的答案:「法国的首都是巴黎」(The capital of France is Paris)。
时间序列预测的基础模型应该适应可变的上下文(模型观察到的内容)和范围(查询模型预测的内容)长度,同时具有足够的能力来编码来自大型预训练数据集的所有模式(patterns)。
与LLMs类似,研究人员使用堆叠的Transformer层(自注意力和前馈层)作为TimesFM模型的主要构建块;在时间序列预测的背景下,把一个patch(一组连续的时间点)作为一个token,思路来源于最近的long-horizon forecasting工作:具体任务是预测在堆叠的Transformer层的末尾处,针对给定第i个输出来预测第(i+1)个时间点patch
但TimesFM与语言模型有几个关键的区别:
1. 模型需要一个具有残差连接的多层感知器块,将时间序列的patch转换为token,其可以与位置编码(PE)一起沿着输入到Transformer层。为此,我们使用类似于我们以前在长期预测中的工作的残差块。
2. 来自堆叠的Transformer的输出token可以用于预测比输入patch长度更长的后续时间点的长度,即,输出patch长度可以大于输入patch长度。
假设,长度为512个时间点的时间序列被用于训练具有「输入patch长度32」和「输出patch长度128」的TimesFM模型时:
在训练期间,模型同时被训练为使用前32个时间点来预测接下来的128个时间点,使用前64个时间点来预测时间点65至192,使用前96个时间点来预测时间点97至224等等。
假设输入数据为长度为256的时间序列,并且其任务是预测未来的接下来的256个时间点,模型首先生成时间点257至384的未来预测,然后以初始256长度输入加上生成的输出为条件来生成时间点385至512。
另一方面,如果在模型中,输出patch长度等于输入patch长度32,那么对于相同的任务,模型经历八次生成步骤而非2次,增加了错误累积的风险,因此在实验结果中可以看到,更长的输出patch长度会带来更好的长期预测性能。
预训练数据
就像LLMs可以通过更多token变得更好一样,TimesFM需要大量合法的时间序列数据来学习和改进;研究人员花了大量的时间来创建和评估训练数据集,发现两个比较好的方法:
合成数据有助于基础(Synthetic data helps with the basics)
可以使用统计模型或物理模拟生成有意义的合成时间序列数据,基本的时间模式可以引导模型学习时间序列预测的语法。
真实世界的数据增加了真实世界的感觉(Real-world data adds real-world flavor)
研究人员梳理了可用的公共时间序列数据集,并有选择地将1000亿个时间点的大型语料库放在一起。
在数据集中,有Google趋势和维基百科的页面浏览量,跟踪用户感兴趣的内容,并且很好地反映了许多其他真实世界时间序列的趋势和模式,有助于TimesFM理解更大的图景,可以针对「训练期间没见过的、特定领域上下文」提升泛化性能。
零样本评估结果
研究人员使用常用的时间序列基准,针对训练期间未见过的数据对TimesFM进行零样本评估,可以观察到TimesFM的性能优于大多数统计方法,如ARIMA,ETS,并且可以匹配或优于强大的DL模型,如DeepAR,PatchTST,这些模型已经在目标时间序列上进行了明确的训练。
研究人员使用Monash Forecasting Archive来评估TimesFM的开箱即用性能,该数据集包含来自各个领域的数万个时间序列,如交通、天气和需求预测,覆盖频率从几分钟到每年的数据。
根据现有文献,研究人员检查了适当缩放的平均绝对误差(MAE),以便在数据集上取平均值。
可以看到,zero-shot(ZS)TimesFM比大多数监督方法都要好,包括最近的深度学习模型。还对比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技术进行预测,结果证明了TimesFM的性能优于llmtime(ZS)
在Monash数据集上,TimesFM(ZS)与其他有监督和零样本方法的比例MAE(越低越好)
大多数Monash数据集都是短期或中期的,也就是说预测长度不会太长;研究人员还测试了TimesFM对常用基准长期预测对最先进的基线PatchTST(和其他长期预测基线)。
研究人员绘制了ETT数据集上的MAE,用于预测未来96和192个时间点的任务,在每个数据集的最后一个测试窗口上计算指标。
TimesFM(ZS)的最后一个窗口MAE(越低越好)相对于ETT数据集上的llmtime(ZS)和长期预测基线
可以看到,TimesFM不仅超过了llmtime(ZS)的性能,而且与在相应数据集上显式训练的有监督PatchTST模型的性能相匹配。
结论
研究人员使用1000亿真实的世界时间点的大型预训练语料库训练了一个仅用于解码器的基础模型,其中大部分是来自Google趋势的搜索兴趣时间序列数据和维基百科的页面浏览量。
结果表明,即使是一个相对较小的200 M参数预训练模型,使用TimesFM架构,在各种公共基准测试(不同的领域和粒度)中都展现出相当好的零样本性能。
理论要掌握,实操不能落!以上关于《仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- Hashicorp 金库密钥使用日期轮换

- 下一篇
- 兰博基尼推出电动版Urus SE:史上性能最强,零百加速仅需3.4秒
-
- 科技周边 · 人工智能 | 11分钟前 | AI角色扮演 剧情互动
- 即梦AI角色扮演模式,沉浸式剧情体验全揭秘
- 407浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 |
- 办公党必看!DeepSeek+Foxmail高效邮件处理教程
- 402浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 | 文心一格 关键词权重
- 文心一格教程:手把手教你调权重,轻松生成理想中的绝美图片!
- 328浏览 收藏
-
- 科技周边 · 人工智能 | 41分钟前 |
- 新手必看!DeepSeek满血版功能深度解读与实战教程
- 144浏览 收藏
-
- 科技周边 · 人工智能 | 53分钟前 | 特斯拉
- FSD失灵闹上法庭!这位车主的反击太秀了
- 268浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦ai音量太小?教你快速调节音量大小(附详细步骤)
- 106浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 小红书爆款深寻公式!3步教你做出高赞梗图~
- 498浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 深度测评!七大平台调用DeepSeek-R1满血版API教程
- 248浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- Midjourney+DeepSeek,双剑合璧打造最强AI创作工具!
- 256浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- AI证件照换装教学,手把手教你一键搞定!
- 291浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 45次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 65次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 75次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 70次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 72次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览