当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

来源:51CTO.COM 2023-09-07 08:47:19 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。然而,所有的成年人都说:「一顶帽子有什么可怕的?」

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

但对于充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

相信每一位读者都曾被这段情节所打动,这就是艺术创作的精髓所在。对于小朋友来说,即使是几笔简单的线条,也代表着最纯真可爱的想象。

比如,简单的几笔涂鸦,为何不能代表光怪陆离的科幻世界?借助 AI 的「画笔」,从灵感到完整作品也不过几秒的时间:

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

再比如,一条随手画出的波浪线,也能变成一段美妙的旋律:

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

这些神奇的「AI 魔法」,都来自于一个名为「腾讯 AI 编程第一课」的小程序。

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

腾讯AI编程第一课,,,

腾讯AI编程第一课

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

小程序

孩子们的「AI 第一课」

自 2022 年以来,生成式 AI 热度不减,以 Stable Diffusion、GPT-4、PaLM 2 为代表的大模型成为了热门关键词,并衍生出文本生成、图像生成、动画制作、视频生成等领域的落地产品,深刻改变了人们的生活方式。

不难想象,未来将是 AI 创造更多价值的时代。这个时代对青少年的 AI 认知与计算思维提出了新的要求,但这些「高大上」的技术,对孩子们来说仍然是有距离感的。

如何将最前沿的技术以易感知的方式传递给他们,增强青少年对科学技术的兴趣、深化青少年对 AI 领域发展的认知呢?

通过剧本式、「玩中学」的方式,腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」公益项目,为全国零基础青少年提供 AI 和编程启蒙小程序平台,首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,让青少年在1小时中初识计算思维、AI基本原理、人机协同理念等。

开学之际,「腾讯 AI 编程第一课」正式上线。在腾讯音乐天琴实验室的技术支持下,小程序上线了「AI 创作」版块,分为「AI 作曲」和「AI 作画」两个功能,希望能让孩子们体验到最新 AI 技术的魅力。

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

今年 10 岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。几天试用下来,最让她好奇的就是「AI 创作」功能的实现原理:

「为什么不同的线可以生成不同的曲调?」

「曲线如何变成音乐?」

「AI 是怎么猜到我心中想画的是什么呢?」

这些问题的确令人好奇,所以这款宝藏应用背后有哪些 AI 技术?接下来,让我们一探究竟。

从一条线到「宫商角徵羽」的神奇之旅

提到 AI 音乐生成,大部分人并不陌生。今年 1 月,谷歌发布了「MusicLM」,实现了从文本或图像中生成高保真音乐。之后,Meta 开源了可生成各种音频的 PyTorch 库「AudioCraft」,能够基于用户输入的文本生成高质量、高保真的音频,不仅能生成有旋律的音乐,甚至还可以选择乐器。这一系列方法都有一个特点:直接从文本 / 图像生成音频。

在「AI 作曲」功能研发过程中,天琴实验室首先对上述方法进行了尝试与评估。他们发现,现有的从文本到音频的音乐生成大模型确实取得了不错的进展,但距离大规模商用还有一个挑战必须解决:采样率低的问题。

「音乐的标准采样率为 44.1 kHz 或 48 kHz,语音的采样率是 16 kHz,目前大部分方法生成的音乐只有 24 kHz 或者 32 kHz,音质有待提升。」天琴实验室 AI 作曲团队技术人员泽文表示。

来自 QQ 音乐负责此次「AI 作曲」功能研发的团队成员都有过音乐创作经历,有人曾担任乐队吉他手,也有人曾是音乐制作人。这些经历让他们对于生成音乐的质量要求更加极致,同时也带来了重要的启发:他们忽然想到,或许可以采用与人类创作过程非常相似的生成方式,以保证音乐的连贯性和高质量。

最终,他们决定采用「符号音乐生成」这一技术路线。「从自然语言处理的角度来看,乐符本来就可视为一种语言,不同的是乐谱包含的信息密度比文本更高,还包括旋律、节拍、乐器、流派等。」天琴实验室 AI 作曲技术人员哲旭表示。

经过与一线产品团队的交流,技术团队还获得了一个重要洞察:相比于常见的「哼唱识曲」,「画线谱曲」对于青少年来说是更具新鲜感的生成方式,更能引发他们对 AI 的兴趣。

在这个设想的推动下,技术团队以「曲线」作为输入,以乐谱转化为音频作为输出,打造出了颇具创意的「AI 作曲」功能。具体来说:

  • 第一步是从划线图像到音符的识别。孩子们画线的起伏高低就象征着旋律的变化,界面中的横轴为时间,纵轴对应不同的音符「do re mi sol la」,同时,也对应着中国传统的五音「宫商角徵羽」。
  • 第二步是旋律的续写。有了五个音符的组合,AI 就有了灵感,并将其扩展为一段 16 秒的旋律。模型基于自回归的方式逐个音符进行预测,每个时刻的输入都依赖于上一个时刻的输出,直到生成一段连贯的音乐。
  • 第三步就是编曲。编曲模型会分析旋律的节奏、调子、和弦,给旋律加上不同的乐器和节奏,并提供了流行、古典和电子三种编曲风格。
  • 第四步是算法渲染,乐谱将被转化为音频。

至此,一首完整的音乐就完成了。

天琴实验室 AI 作曲负责人 Ethan 表示,符号音乐生成技术的价值远不止于娱乐向、教育向的 C 端产品,更值得期待的是成为高效的音乐人创作工具。从文本直接到音频的过程像一个「黑箱」,而「符号音乐生成」有完整的乐理系统支撑,生成结果也是可编辑的,音乐人可以在生成的乐谱中进行二次创作。

这种对于技术落地价值的考量,在天琴实验室的技术探索中是一以贯之的。作为腾讯音乐旗下首个音视频实验室,他们希望真正将 AI 创新技术融入到产品之中,为用户提供高度个性化及差异化的音乐娱乐体验。

目前,天琴实验室在 AI 音乐生成的技术积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。除了提供「作曲、混音、编曲」能力的一站式音乐生成技术「琴乐」,以及 AI 辅助作词平台「觅词」。此外,腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已应用于歌曲的智能演唱之中。

比如,本次「AI 编程第一课」的主题曲《魔法字符》,就是由腾讯、QQ 音乐、腾讯音乐天琴实验室共同打造的,从作曲到演唱全链路均由 AI 完成。其中,「琴乐」一站式音乐生成技术完成作曲、混音及编曲,「觅词」辅助创作了趣味十足的魔法歌词,虚拟人「小琴」负责最终演绎。 

AI 时代,每个人都是「神笔马良」

与音乐的意义类似,绘画也是一种表达情感的方式。

当前,AI 在绘画生成方面的应用已经比较成熟,比如通过文字 Prompt 生成图像的 Stable Diffusion、Midjourney。但用过的人都知道,如何设计 Prompt 也是一大难点,生成结果未必总能「如人所愿」。

问题来了:AI 能不能接住小朋友的奇思妙想呢?

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

天琴实验室 AI 作画团队的成员们意识到,对于「AI 作画」功能的用户群体 6-12 岁的孩子来说,以文字形式去生成图像仍然存在一定的门槛,特别是仅使用文本难以控制生成细节,无法对图片进行细化编辑。

因此,他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。

在「AI 编程第一课」的「AI 作画」中,不同于传统的「文生图」需要输入非常复杂的 Prompt,用户只需要简单描绘几笔,就能让「草图」变成「精品」。

这种方法不仅需要扩散模型强大的生成能力,还需要精确的条件控制方案。「AI 作画」这一功能能够在短时间内顺利上线,很大程度上得益于天琴实验室在图像生成领域的技术积累。

从 2022 年,天琴实验室开始布局生成式 AI 技术,并在 QQ 音乐和全民 K 歌中应用落地,比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。对生成图像风格 / 内容的精确控制,一直是天琴实验室在重点研究的方向。

比如,「AI 歌曲封面」就是 AI 技术与音乐理解结合的一大成果,为 QQ 音乐曲库中大量封面留空的作品自动生成封面,不仅能够让音乐人和作品的关注度得到提升,更重要的为新上作品提供了降低制作成本的选择。

此外,天琴实验室还推出了 AI 音乐视觉生成技术 MUSE(Music Envision),「以歌生图」能力就是其一大亮点:用户选择一首歌或一段歌词,就可以将歌曲的意境用 AI 技术具象化呈现出来,包括歌词海报、歌词动效视频等视觉内容。

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

这种「意境」与「具象」的转化,在本次「AI 作画」中也有所体现。「小朋友的绘画作品可能会更加写意,对于这种情况,我们专门使用儿童涂鸦和最终成品图进行了搭配训练,为模型定制相关能力以提升最终生成效果。」天琴实验室 AI 作画负责人 Ben 表示。「我们在精确描绘和物体识别之间进行了一种平衡,一方面让草图的线条起到引导作用,另一方面通过简单的线条进行内容本身的识别,同时给到模型一定的自由发挥空间。」

而这些成果和经验不只用于腾讯音乐的内部业务,也正在赋能全行业。

很多 AI 应用面向的用户数量都比较庞大,这将带来极高的大模型推理成本。对于这个问题,天琴实验室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公开发布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本,实践效果均为行业领先,在 B 端助力技术从业者和科研工作者节约时间和成本。

在「AI 编程第一课」的研发实践中,MUSE Light 帮助节省了 90% 以上的推理成本,使图像的生成加速了 10 倍,且有效提升了用户体验。

此外,团队还观察到:「从草图生成图像的技术已经取得不错的效果,但如果他人想去尝试一件同样的事情,前期会花很多的时间,才能找到比较合用的模型。」

为了解决这个痛点,天琴实验室将过往的技术实践经验汇集在 AI 绘图创作平台「MUSE UI」之中。该平台融合了 MUSE Light 大模型推理加速等多项行业领先的创新技术,提供了「一键出图」、「模型广场」、「图搜模型」、「动图生成」、「一键定制绘图加速服务」、「多场景绘图应用」等多项功能。借助 MUSE UI,设计师、插画师和其他专业人士将节约更多时间成本并最大程度地提高效率。

据了解,经过内部业务实践的检验之后,MUSE UI 平台也将在不久后面向全行业开放。

当万物皆可 AI 生成的时代来临

这两年来,与生成式 AI 相关的技术创新与应用总能成为热门话题。

虽然从内容生产的维度去评价,AI 生成音乐、图像作品的艺术价值还存在诸多争议。但可以期待的是,随着技术的不断发展,现阶段的很多问题将被克服,AI 生成内容的水准必然会有所突破。

从生产力发展的角度看,生成式 AI 使得内容生产的门槛不断降低,效率不断提高,这对于各行各业来说都是巨大的变革。例如,使用 AI 生成营销文案,成本仅为人工撰写的几十分之一,且内容更加多样化。

可以确定的是,未来的社会生产分工,将会更注重人机协作模式,对人的计算思维能力的培养也更加重要。我们必须适应这种变化,找到自身在新时代的定位,更充分地去感受科技带来的美好。

在这种背景下,科学教育理念也需要随之进化。对于今天的青少年来说,他们未必需要过多关注 AI 的底层技术,未必需要一行一行地编写代码,更重要的是先学会如何「Prompt」。

对于「AI 编程第一课」的青少年用户来说,这可能是他们的「AI 第一课」,也是他们成为智能时代新型人才的起航点。


到这里,我们也就讲完了《生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI,模型的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
2023智博会工业元宇宙论坛成功举办2023智博会工业元宇宙论坛成功举办
上一篇
2023智博会工业元宇宙论坛成功举办
数据中心市场为人工智能爆炸式增长做好准备
下一篇
数据中心市场为人工智能爆炸式增长做好准备
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    7次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码