当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 干掉「标题党」,清华团队又一开源力作!

干掉「标题党」,清华团队又一开源力作!

来源:51CTO.COM 2023-04-24 06:26:52 0浏览 收藏

你在学习科技周边相关的知识吗?本文《干掉「标题党」,清华团队又一开源力作!》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!

作为一个起名困难户,高中写作文最困扰我的就是写好文章却不知道起什么题目,开始做公众号以后,每次想标题也都要掉一大把头发......

最近,终于让我在 GitHub 发现了「取名废」之光,由清华大学与 OpenBMB 开源社区推出的大模型趣味应用:「智取标题」,输入正文内容就能一键生成劲爆标题!

开箱即用,试过后我只能说:真香!

图片

在线体验:https://live.openbmb.org/ant

GitHub:https://github.com/OpenBMB/CPM-Live

提到这个标题党神器,就不得不先好好聊一聊它的「本体」——大模型 CPM-Ant。

CPM-Ant 作为国内首个直播训练百亿大模型, 训练耗时 68 天,于 2022 年 8 月 5 日完成,并由 OpenBMB 正式发布!

  • 五大卓越特性
  • 四大创新突破
  • 训练过程 低成本且环境友好!
  • 最重要的是——完全开源!

作为首个直播训练中文大模型,CPM-Ant 在大模型训练、微调、压缩、推理、应用等环节均提供了一份可行的实践方案,希望能为不同的关注者提供不同的帮助与参考。

下面,让我们一起来看看 CPM-Ant 发布成果内容报告吧!

模型概览

CPM-Ant 是一个开源的中文预训练语言模型,拥有 10B 参数,也是 CPM-Live 直播训练过程中的第一个里程碑。

整个训练过程低成本且环境友好,不需要高昂的硬件要求和运行成本,基于 增量微调(delta tuning)方法,在 CUGE 基准测试中取得了优异的结果。

CPM-Ant 相关代码、日志文件和模型参数在一个开放的许可协议下完全开源。除了完整的模型,OpenBMB 还提供了各种压缩版本以适应不同的硬件配置。

CPM-Ant 的五大卓越特性:

(1)计算高效

通过 BMTrain[1] 工具包,能够充分利用分布式计算资源的能力来高效训练大模型。

CPM-Ant 的训练持续了 68 天,花费了 43 万人民币,是谷歌训练 T5-11B 模型约 130 万美元费用的 1/20。训练 CPM-Ant 的温室气体排放量约为 4872kg CO₂e,而训练 T5-11B 的排放量为 46.7t CO₂e[9] ,CPM-Ant 的方案约为其排放量的 1/10。

(2)性能优异

借助 OpenDelta[3] 工具,能够非常方便地通过增量微调将 CPM-Ant 适配到下游任务。

实验表明,CPM-Ant 仅仅微调了 6.3M 参数就在 3/6 个 CUGE 任务上取得了最好的结果。这一结果超越了其他全参数微调的模型,举例来说:CPM-Ant 的微调参数量仅为 CPM2(微调了 11B 参数) 的 0.06%。

(3)部署经济

借助BMCook[7] 和 BMInf[4] 工具包,能够在有限的计算资源下驱动 CPM-Ant。

基于 BMInf ,能够替代计算集群 在单块 GPU 上进行大模型推理(即便是一块 GTX 1060 这样的消费级显卡)。为了使 CPM-Ant 的部署更加经济, OpenBMB 使用 BMCook 进一步将原始的 10B 模型压缩为不同的版本。压缩后的模型(7B,3B,1B,300M)能够适应不同低资源场景下的需求。

(4)使用便捷

不管是原始 10B 模型还是相关的压缩版本,通过几行代码就能够轻松地加载与运行。

OpenBMB 也会将 CPM-Ant 加入到 ModelCenter[8] 中,对模型的进一步开发会变得更加容易。 

(5)开放民主

CPM-Ant 的训练过程完全开放。

OpenBMB 发布了所有的代码、日志文件和模型存档并提供开放获取。CPM-Ant 也采用了允许商业化的开放许可协议。

一份完整的大模型训练实践

对于有能力进行大模型训练的厂商与研究机构,CPM-Ant 训练过程提供了一份完整的中文大模型训练实战记录。

OpenBMB 发布了 CPM-Live 系列模型的 模型设计、训练方案、数据需求和实现代码。基于 CPM-Live 的模型架构,能够方便快速地设计实现大模型训练方案并整理相关的业务数据,完成模型预研和数据准备工作。

官方网站中记录了训练过程中的 全部训练动态,包括损失函数、学习率、已学习数据、吞吐量、梯度大小、花费成本曲线,以及模型内部参数均值和标准差实时展示,通过这些训练动态,使用者能够快速诊断模型训练过程是否出现问题。

图片

模型训练内部参数实时展示

此外,OpenBMB 的研发同学每天实时更新 训练记录总结,总结内容包括损失值、梯度值、总体进展,还记录了遇到的一些问题和训练过程中的 bug,方便使用者提前了解模型训练过程中的可能会遇到的各种「坑」。

在模型训练「风平浪静」的日子,研发小哥也会抛出一些名言名句、介绍一些最新论文、甚至发起猜谜活动。

图片

日志中的一次猜谜活动

除此之外,OpenBMB 还提供了 成本经济 的 训练方案,对于实际有大模型训练需求的企业,通过相关训练加速技术,训练成本已经降低到可以接受的水平。

使用 BMTrain[1] 工具包,百亿大模型 CPM-Ant 训练的算力花费仅 43 万人民币(当前花费依照公有云价格计算,实际成本会更低),是 11B 大模型 T5 外界估算成本 130 万美元的约 1/20!

一份屡创 SOTA 的高效微调方案

CPM-Ant 如何帮助我们进行下游任务适配?

对于大模型研究者,OpenBMB 提供了一份基于参数高效微调的大模型性能评测方案,方便快速进行下游任务适配并评测模型性能。 

使用参数高效微调,即增量微调(delta tuning)来评估 CPM-Ant 在六个下游任务上的性能。实验中采用了 LoRA[2] ,它在每个注意层中插入了两个可调整的低秩矩阵,并冻结了原始模型的所有参数。使用这种方法,每个任务只微调了 6.3M 的参数,仅占总参数的 0.067%。

在 OpenDelta[3] 的帮助下,OpenBMB 进行了所有的实验,而没有修改原始模型的代码。需要指出的是,在下游任务上评测 CPM-Ant 模型时,没有使用任何数据增强的方法。实验结果如下表所示:

图片

可以看到,在仅微调极少参数的情况下,OpenBMB 的模型在三个数据集上的性能已经超过了 CPM-2 和源 1.0。

有些任务(例如 LCSTS)在微调参数极少时可能会比较难以学习, CPM-Live 的训练过程将会持续进行,在各个任务上的性能也会被进一步打磨。

感兴趣的同学,可访问下方 GitHub 链接,抢先体验下 CPM-Ant 和 OpenDelta,进一步探索 CPM-Ant 在其他任务上的能力!

https://github.com/OpenBMB/CPM-Live

一系列硬件友好的推理方式

大模型性能固然惊艳,但高昂的硬件要求和运行成本一直困扰着许多使用者。对于大模型使用者,OpenBMB提供了一系列硬件友好的使用方式,能够较为方便地在不同硬件环境下运行不同的模型版本。

使用 BMInf[4] 工具包, CPM-Ant 可以在单卡 1060 这样的 低资源环境 中运行!

除此之外,OpenBMB 还将 CPM-Ant 进行了压缩。这些压缩的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有这些模型压缩尺寸都可以对应于现有的开源预训练语言模型的经典尺寸。

考虑到用户可能会在发布的检查点上进行进一步的开发,OpenBMB 主要使用 任务无关的结构化剪枝 来压缩 CPM-Ant。剪枝过程也是渐进的,即从 10B 到 7B,从 7B 到 3B,从 3B 到 1B,最后从 1B 到 0.3B。

在具体的剪枝过程中,OpenBMB 会训练一个 动态的可学习的掩码矩阵,然后用这个掩码矩阵来 裁剪相应的参数。最后,根据掩码矩阵的阈值修剪参数,该阈值是根据目标稀疏度确定的。更多压缩的细节可以参考技术博客[5] 。

下表展示了模型压缩的结果:

图片

硬核的内容讲完了,那么大模型到底怎么帮我们「取标题」呢?

一款出乎意料的大模型趣味应用

基于 CPM-Ant,所有大模型开发者与爱好者都可以开发感兴趣的文本趣味应用。

为了进一步验证模型的有效性并提供范例,OpenBMB 在 CPM-Ant 基础上微调了一个 劲爆标题生成器 以展示模型能力。

只需要把正文内容粘贴到下方文本框,一键点击生成,就可以得到大模型提供的劲爆标题!

图片

CPM-Ant 成果报告首发文章标题即由生成器生成

这款 demo将不断被打磨,并在未来添加更多的特殊效果,增强用户体验

感兴趣的用户也可以使用 CPM-Ant 构建自己的展示应用。如果有任何应用想法、需要技术支持或者在使用 demo 过程中遇到任何问题,可以随时在 CPM-Live 论坛[6] 发起讨论!

CPM-Ant 的发布是 CPM-Live 的第一个里程碑,但也仅仅是训练的第一期,未来OpenBMB还会继续进行一系列训练。

简单剧透一下,下一期的训练中将新增多语言支持、结构化输入输出等新特性,欢迎大家继续关注!

传送门|项目链接

项目 GitHub 地址:

https://github.com/OpenBMB/CPM-Live

Demo 体验地址(仅限 PC 访问):

https://live.openbmb.org/ant

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
研究表明ChatGPT不会给OpenAI带来持续的先发优势研究表明ChatGPT不会给OpenAI带来持续的先发优势
上一篇
研究表明ChatGPT不会给OpenAI带来持续的先发优势
神经网络中常见的激活函数
下一篇
神经网络中常见的激活函数
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    12次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    27次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    27次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    35次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码