当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

来源：51CTO.COM 2023-06-09 18:53:55 0浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

记性差是目前主流大型语言模型的主要痛点，比如ChatGPT只能输入4096个token（约3000个词），经常聊着聊着就忘了之前说什么了，甚至都不够读一篇短篇小说的。

过短的输入窗口也限制了语言模型的应用场景，比如给一篇科技论文（约1万词）做摘要的时候，需要把文章手动切分后再输入到模型中，不同章节之间关联信息就丢失了。

虽然GPT-4最长支持32000个token、升级后的Claude最高支持10万token，但也只能缓解脑容量不足的问题。

最近一家创业团队Magic宣布即将发布LTM-1模型，最长支持500万token，大约是50万行代码或5000个文件，直接比Claude高50倍，基本可以覆盖大多数的存储需求，这可真就量变产生质变了！

LTM-1的主要应用场景在于代码补全，比如可以生成更长、更复杂的代码建议。

还可以跨越多个文件重用、合成信息。

坏消息是，LTM-1的开发商Magic并没有发布具体技术原理，只是说设计了一种全新的方法the Long-term Memory Network (LTM Net)。

但也有个好消息，2021年9月，DeepMind等机构的研究人员曾经提出一种名为 ∞-former 的模型，其中就包含了长期记忆（long-term memory，LTM）机制，理论上可以让Transformer模型具有无限长的记忆力，但目前并不清楚二者是否为同一技术，或是改良版。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

论文链接：https://arxiv.org/pdf/2109.00301.pdf

开发团队表示，虽然LTM Nets可以比GPT看到更多的上下文，但LTM-1模型的参数量比当下的sota模型小的多，所以智能程度也更低，不过继续提升模型规模应该可以提升LTM Nets的性能。

目前LTM-1已经开放alpha测试申请。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

申请链接：https://magic.dev/waitlist

LTM-1的开发商Magic创立于2022年，主要开发类似GitHub Copilot的产品，可以帮助软件工程师编写、审查、调试和修改代码，目标是为程序员打造一个AI同事，其主要竞争优势就是模型可以读取更长的代码。

Magic致力于公众利益（public benefit），使命是构建和安全部署超过人类只能的AGI系统，目前还是一家只有10人的创业公司。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

今年2月，Magic获得由Alphabet旗下CapitalG领投的2300万美元A轮融资，投资人还包括GitHub前首席执行官和Copilot的联合出品人Nat Friedman，目前公司总资金量已达2800万美元。

Magic的首席执行官兼联合创始人Eric Steinberger本科毕业于剑桥大学计算机科学专业，曾在FAIR做过机器学习研究。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

在创立Magic前，Steinberger还曾创立过ClimateScience，以帮助全世界的儿童学习气候变化的影响。

无限记忆的Transformer

语言模型核心组件Transformer中注意力机制的设计，会导致每次增加输入序列的长度时，时间复杂度都会呈二次方增长。

虽然已经有一些注意力机制的变体，比如稀疏注意力等降低算法复杂度，不过其复杂度仍然与输入长度有关，不能无限扩展。

∞-former中长期记忆（LTM）的Transformer模型可以将输入序列扩展到无限的关键在是一个连续空间注意力框架，该框架用降低表征粒度的方式提升记忆信息单元的数量（基函数）。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

在框架中，输入序列被表示为一个「连续信号」，代表N个径向基函数（RBF）的线性组合，这样一来，∞-former的注意复杂度就降为了O(L^2 + L × N)，而原始Transformer的注意力复杂度为O(L×(L+L_LTM))，其中L和L_LTM分别对应于Transformer输入大小和长期记忆长度。

这种表示方法有两个主要优势：

1. 上下文可以用小于token数量的基函数N来表示，减少了注意力的计算成本；

2. N可以是固定的，从而能够在记忆中表示无限的上下文，并且不会增加注意力机制的复杂度。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍