当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

来源:51CTO.COM 2024-04-29 21:36:18 0浏览 收藏

科技周边不知道大家是否熟悉?今天我将给大家介绍《LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!

微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。

与传统基于词表的语言模型不同,bGPT具有独特之处,即其能够直接处理原始二进制数据,不受特定格式或任务的限制。其旨在全面模拟数字世界,为模型的发展打开了新的可能性。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

论文:https://arxiv.org/abs/2402.19155

代码:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

项目主页:https://byte-gpt.github.io

研究小组在他们的研究论文中展示了bGPT在建模方面的巨大潜力。通过进行字节级处理,bGPT不仅能够生成文本、图像和音频,还能够模拟计算机的行为,包括格式转换算法和CPU状态的建模。这种将所有数据视为字节序列的方法使得bGPT能够将不同类型的数据整合到同一个框架中。

一经发布,bGPT的论文在X(Twitter)上引起了广泛热议,突显了深度学习模式的潜在变革,为模型真正理解和模拟数字世界中的各种活动打开了新可能性。

二进制数据:构成数字世界的基础DNA

二进制数据是数字世界的基石,它贯穿了计算机处理器以及我们日常使用的电子产品的操作系统,是所有数据、设备和软件的核心。因此,基于这一基础,bGPT的目标是通过研究二进制数据序列来理解数字系统的内在逻辑,从而重塑和模拟各种复杂的数字现象。

bGPT通过字节级的处理,不仅能应用于常规的AI生成和理解任务,还能处理更多的非传统应用。例如,它能直接模拟MIDI——一种音乐传输和存储的标准格式,这在之前的研究中由于MIDI的二进制本质而避免了直接建模。

但bGPT天生适合此类任务,能够精确模拟音乐数据的转换算法,将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

在实际应用中,bGPT通常能够准确地完成ABC符号与MIDI文件之间的转换,有时甚至能纠正原始文件中的错误,使音乐转换更加准确。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!


bGPT自动将ABC记谱法转换成MIDI格式(上图)与原MIDI数据(下图)的对比,凸显了关键的差异:虽然原MIDI数据中漏掉了一拍(见下图),导致和弦伴奏断开,但由bGPT转换的结果(见上图)正确填补了这一缺失,确保了和弦伴奏的流畅性。

研究团队还将CPU建模作为硬件行为模拟的代表性任务:该任务要求模型接收低级机器指令序列作为输入,其目标是准确预测每个指令执行后CPU状态如何更新,直至程序停止。

在这个任务中,bGPT展现出超过99.99%的准确率,显示了字节模型在处理原生二进制数据方面的强大能力和可扩展性。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

在提供了程序和初始CPU状态的情况下,bGPT能够准确地预测CPU执行的完整过程,直到程序终止。在这个示例中,bGPT精确地处理了所有CPU指令。为了便于理解,这里将实际的字节序列转换成了更易读的格式。

从字节到万物:突破边界,向着统一的数据建模进发

bGPT不仅能处理原生二进制数据,还能将多种数据类型融合进一个统一的模型架构中,视一切数据为字节序列。

这种方法不但简化了数据建模流程,还使得从任何数据源的整合变得轻而易举,且无需为特定数据类型定制模型。

研究团队在论文中举例了传统文本、图像及音频文件,展现了bGPT在统一数据建模方面的能力。他们训练的bGPT模型拥有约1亿参数。

实验结果表明,在与GPT-2(文本模型)、ViT(视觉模型)和AST(音频模型)等同规模模型的比较中,bGPT在不同数据类型上均展现出了可媲美的性能。

bGPT在文本生成方面的表现非常出色。得益于其字节级的文本编码,该模型无需依赖词汇表,从而能支持所有语言。

它的分层Transformer架构,尽管计算开销与GPT-2相近,却能生成长达8KB的文本,大大超出了GPT-2的长度限制。在经过Wikipedia数据进行预训练后,bGPT生成的文本在风格和主题上都与GPT-2不相上下,证明了其在文本生成方面的强大能力。

bGPT在Wikipedia数据集上进行预训练,生成的文本样例质量和主题一致性与GPT-2相当。

bGPT可以通过预测图像字节序列中的下一个字节来生成图像。该模型在ImageNet数据集上进行了预训练,生成的图像分辨率为32x32像素。

虽然在当前规模下,通过字节序列准确捕捉图像的二维空间关系有所困难,导致生成的图像存在伪影和噪点,但纹理和光影效果通常还是比较准确的。

此外,这些生成的图像均能被正常解码为BMP文件。研究团队指出,通过扩大bGPT的规模,类似于OpenAI开发的iGPT在像素序列建模方面的方法,或许可以实现更高质量、更逼真的图像生成。

这些是由在ImageNet数据集上进行预训练的bGPT生成的一组图像。虽然图像的纹理和光影效果通常比较准确,但在这些生成的图像中识别主要物体却有一定难度。

bGPT将音频数据视为字节序列,能生成1秒长、采样率为8000 Hz的音频样本。

该模型在LibriSpeech数据集上完成了预训练,并进一步在Speech Commands v2数据集上进行微调和演示。bGPT生成的音频样本保持了较高的准确度,其中一些样本几乎与真实音频无法区分。以下是展示bGPT在音频生成领域能力的示例集。

通过bGPT探索字节构成的数字世界

传统语言模型,不管它们有多强大,主要专注于处理自然语言文本。bGPT模型通过基于字节的处理机制,打破了这种仅限于文本处理的局限性,开辟了一个全新的数据处理范畴。

这一进步让bGPT有能力无缝地处理包括文本、图像、音频在内的各种数据类型,甚至能处理来自算法和硬件的原生二进制数据,为全面模拟和理解数字世界铺平了道路。

虽然bGPT展现出了引人注目的能力,但其在计算开销方面的局限性,如当前在常规显卡上仅能处理最大8KB的字节序列,对于那些需要生成或处理大量数据的应用来说,构成了明显的限制。未来的工作计划将集中在开发更高效的算法和利用硬件的进步上,旨在提高处理更大规模数据序列的能力。

全球的技术爱好者们已经开始展望bGPT未来的潜力,从网络修剪和自我学习的优化到超大规模网络的自我重构能力,这些讨论指向了一个共同的愿景:bGPT最终可能实现一个统一的模型,能够处理和输出所有类型的字节数据,真正成为数字世界的全面模拟器。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

研究团队已将bGPT的代码和模型开源。这意味着你可以在自己的数据集上直接训练bGPT,无需做出任何模型架构上的调整,便可探索字节模型在数字领域的广阔前景。

今天关于《LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
比亚迪宋L智驾款6月加推 25万级B级纯电SUV市场再掀波澜比亚迪宋L智驾款6月加推 25万级B级纯电SUV市场再掀波澜
上一篇
比亚迪宋L智驾款6月加推 25万级B级纯电SUV市场再掀波澜
理想汽车2月交付量同比增长21.8%,累计交付突破68万辆大关
下一篇
理想汽车2月交付量同比增长21.8%,累计交付突破68万辆大关
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    11次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    26次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    27次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    35次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码