当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用火山引擎,大模型将数据飞轮「点燃」

用火山引擎,大模型将数据飞轮「点燃」

来源:机器之心 2023-09-21 19:23:54 0浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《用火山引擎,大模型将数据飞轮「点燃」》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

在大模型对千行百业的改造进程中,火山引擎率先交出了一份数据行业的个性化答案。

9 月 19 日,在上海举办的 “数据飞轮・V-Tech 数据驱动科技峰会” 上,火山引擎宣布数智平台 VeDI 应用大模型(Large Language Models)能力。
用火山引擎,大模型将数据飞轮「点燃」
产品升级后,能够实现用自然语言 “找数”、辅助数仓模型研发、优化代码,同时还能完成可视化图表的生成,对话时实现归因分析等功能。即使没有代码能力的普通运营人员也能快速找数和分析。目前,VeDI 相关数据产品已启动邀测。

升级后的数据产品大大拉低了使用数据的门槛。以往,一个普通运营希望找数,往往需要求助研发人员,由研发人员编写代码帮助取数,分析一个数据需要结合众多专业知识。而现在,借助升级后的数据产品,运营人员可以随时用自然语言输入自己的需求,实时拿到自己想要的数据。

这将进一步激发数据的价值。在企业内部,更低的使用门槛能够数据消费链条上的更多人能够开始接触数据、使用数据,以往被现实门槛压抑的数据需求将会被满足,业务基于数据的洞察将会更加及时、决策将更加科学、更多基于数据的业务想象将被释放。

对于正在数字化进程中的企业来说,数据价值将在更高频率的流转中被释放,数据飞轮将被进一步加速。

大模型融入数据全链路,进一步降低数据生产、使用门槛

相比于小模型,大模型拥有强大的泛化推理能力、外部工具调取能力以及代码生成能力。这些能力对于数据产品而言,有着重大的影响。

更强的泛化推理能力意味着更高的智能性,但同时,也需要结合很多工具的调各项能力,比如数学及分析能力等作为补充。而大模型时代开启的自然语言交互模式,也为数据产品的使用方式带来了新的想象空间。

今年 3 月开始,字节内部开始将大模型与数据产品进行结合,在快速迭代的小范围测试中,很快罗旋团队发现,在数据产品的主要场景中,大模型带来的提升和改变都是明显的。随后,团队开始在数据产品的场景中大范围尝试,不断量化场景的优先级,并推动大模型在产品中落地。

在大模型对数据行业的改造过程中,场景的选择是最关键的步骤之一,一个合适的使用场景不仅需要在目前的技术或者可预期的技术上成立,还需要保证加持大模型后用户或业务方能够有更好的使用体验,同时带来更多的数据消费价值,能够进一步带动数据生产。

罗旋分享称,比如,如果在一些场景中原有解决方案整体只需要花费 1-2 秒,使用了大模型之后,由于大模型延迟问题,用自然语言可能要到 5 秒以上,那这个场景就不能满足业务对于时效性的体验需求,就是不成立的。

“但是,比如在短代码生成环节,加入自然语言后,场景效率提升便十分明显。未来,随着大模型的性能不断提升,在数据全链路的各个环节,大模型能带来的智能化改变将更值得期待。”

在此次的 “数据飞轮・V-Tech 数据驱动科技峰会” 上,火山引擎所宣布的关于数智平台 VeDI 的产品升级主要包括了 DataLeap 以及 DataWind 两个部分。其中,DataLeap 中的 “找数助手” 能够支持以问答方式进行找数,“开发助手” 能够支持用自然语言生成、优化 SQL 代码;DataWind - 分析助手则能够支持自然语言完成数据可视化查询与分析。覆盖了找数、取数以及分析全链路,为数据生产与消费全流程降低了技术门槛。

DataLeap - 找数助手

“找数” 通常是数据消费全链条的第一步,找到正确的数据资产,才能实现数据的消费。但是,在传统流程中的 “找数” 并不是一个简单的工作,需要强依赖业务专业知识的输入,通常人们只能通过关键词的检索,再进行人为筛选或者寻求专业数据开发人员才能确认。

用火山引擎,大模型将数据飞轮「点燃」

                             使用 DataLeap - 找数助手 “找数”

“找数助手” 功能,通过与大语言模型(LLM)结合,大大降低了 “找数” 的门槛。利用 “找数助手”,没有代码能力的人员也能够通过自然语言进行 “拟人化” 查询,比如一位电商运营可以直接提问:“最近 7 天好物直播间的经营状况,要用哪些表?”。DataLeap - 找数助手会根据业务的知识库,推荐与经营状况相关的表,并解释每张表对应的数据维度。

目前,“找数助手” 能够实现包括 Hive 表、数据集、仪表盘、数据指标、维度等多种数据类型及相关业务知识的问答式检索,实现拟人化查询。

另外,除了 “找数” 变得更加简单,结合了大模型能力的 “找数助手” 还能让 “找数” 的准确率进一步提高。过去传统技术方案下,数据资产检索依赖于数据结构化管理,非结构化的业务数据则可能关联缺失,用关键词进行检索时,产生的链路割裂问题,可能会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。

而现在,在与用户对话式的过程中,大语言模型 (LLM) 可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本,“找数” 本身变得更快,同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。

DataLeap - 开发助手

在数据生产加工环节,“开发助手” 能够支持使用自然语言,自动生成 SQL 代码;针对已有的代码可以自动实现 Bug 修复,代码优化、解释与注释等,此外还可以通过对话方式实现文档搜索、函数使用、代码示例等 SQL 使用类的问题咨询。

用火山引擎,大模型将数据飞轮「点燃」

                              自动开发 SQL 代码

开发助手底层采用大语言模型 (LLM),经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表 Schema 在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及问答能力。

用火山引擎,大模型将数据飞轮「点燃」

                              自动修复已有代码

开发助手打破了语言障碍,极大程度降低了数据开发的门槛。“原来(加工)数据这件事情你可能要会一门编程语言,比如 SQL 或者 Python,这是一个相对强的技能要求。但是,现在你可以不再需要编程语言,可以使用自然语言。那么,这意味着做这件事的人的要求,也进一步降低。”

对于有数据消费诉求的分析师和运营人员,不懂 SQL 也可以做一些基础 ETL。运营人员可以让 DataLeap 自动生成对应经营状况的数据需求代码,比如分城市的订单销售,或分时段的直播间流量等。运营人员还能追问代码的含义,比如 “这张表在运行期间,有什么优化方案吗?”,也可以对话:“帮我检查、修复这串代码”。还能够一键解析生成的代码,调用 SQL 工具做表的检查,点击确认 AI 自动修复,进一步优化数据资产。

更重要的是,对于专业研发人员来说,DataLeap - 开发助手可以帮助他们做一些基础性的工作,处理来自数据分析师、依赖数据的业务运营人员的一些繁杂但基础的需求,工程师只需要在最后校正和核对所生成代码的准确性。于是,研发人员能够将精力放在更有创造力的工作上,更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。

DataWind - 分析助手

在实现找数和取数之后,来到了数据分析环节。结合了大模型能力的 DataWind - 分析助手,能够帮助非分析岗位的人员,通过自然语言对话,可完成数据可视化查询与分析等一系列业务探索,降低此环节的门槛。

首先是 “数据集” 的创建。有了数据资产,运营人员通过 DataWind 拖拉拽方式做数据集的创建,然后使用自然语言的方式去定义不同字段的逻辑,比如直接查 “大咖直播时段” 的数据。

用火山引擎,大模型将数据飞轮「点燃」

                              字段生成

查好后,运营人员就能可视化分析探索。过去 BI 工具,普遍采用拖拉拽的操作方式,虽然在仪表盘制作上已经降低了门槛,但在分析洞察领域,依旧需要大量专业知识的输入,才能更好地理解数据,这是一道 “门槛”。

用火山引擎,大模型将数据飞轮「点燃」

                               可视化探索

但通过大模型更强泛化推理能力的加持,DataWind 已经能够进行基础的假设和验证,提出分析思路。DataWind 提供的 AI 自动分析功能,能够支持其根据图表进一步探索背后的原因。比如说在生成的 “直播间分时段流量图”、“直播间销售额地区 Top” 等可视化图表中,AI 能自动分析,运营人员只需基于分析结果,通过对话形式进一步归因。

同时,DataWind 还联通飞书等办公协同工具,使用者通过 IM 消息订阅、自然对话,进行更多延展分析,实现随时随地的灵活分析,满足从数据集、可视化洞察、消息订阅等全链路上的自助智能,联通办公集成,让数据分析无缝融入日常。

用火山引擎,大模型将数据飞轮「点燃」

                               协同 IM 消息订阅进行延展分析

分析助手将分析洞察的门槛进一步降低,从看 “数据图” 到通过自然语言对话直接了解结果,数据分析思考周期大幅缩短,解决过去分析洞察上需要大量专业知识的痛点,缩短数据分析周期。

现阶段 DataWind - 分析助手的应用场景已经十分丰富,除了在核心的分析场景可以实现对话式探索之外,分析助手还将能力延展到了表达式生成等过去需要更多技术门槛的场景中。

大模型加速数据飞轮,帮助企业更好地实现数据驱动

字节跳动拥有深厚的数据驱动基因。自成立以来,字节跳动内部几乎所有场景都会落到 A/B 测试,通过数据反馈驱动业务的策略进行调整,比如抖音视频画质的优化效果好不好、推荐算法策略优化准不准、甚至今日头条的名字,也经过 A/B 测试。

在字节内部,数据消费的范围很广。组织上,从高层到中层,以及一线员工基本实现全员看数,通过数据来评估公司的经营状况、收支状况、业务进展、产品策略。在具体场景上,比如在直播电商中的实时营销中,运营根据实时数据进行对应的营销策略设计和推送 push。

字节通过数据消费实现了决策科学、行动敏捷,带来业务价值提升;也通过频繁的数据消费和业务收益,有的放矢低成本建设高质量的数据资产,更好支撑业务应用。

今年 4 月,火山引擎基于字节跳动十余年数据驱动的实践经验,曾对外发布企业数智化升级新范式 “数据飞轮”,用 “数据飞轮” 来概括企业数据流充分融入业务流后,能够实现数据资产和业务应用提升的飞轮效应。

在整个数字化的大趋势下,千行百业的企业业务都在与数字化更加紧密,数据对于企业而言越来越重要。作为新型生产要素,数据正支撑企业的数智化转型。但是客观上看,虽然不少企业数字化建设较多,却无法较好释放数据价值。

“一家企业可能花费高昂的价格部署了数据产品,但是可能内部真正使用的人却寥寥无几,数据难以流动就很难发挥价值。” 罗旋在数据产品市场观察到,许多正在进行数字化建设的企业,存在着数据建设与管理成本高、数据产品使用门槛高、数据资产价值低的问题。

而从整个数字化进程来看,要达到 “数据驱动”,是一件难而正确的事。以字节为例,罗旋透露称,目前,字节跳动内部 80% 的员工可以直接使用数据产品,可管理、运营的数据资产覆盖 80% 的日常分析场景。从字节经验来看,这意味着,企业内部数据产品的使用率以及可管理运营的数据资产在场景中的覆盖率都需要提升到较高的水平,才能在公司形成良好的 “数据飞轮”。

在这个过程中,大模型加持下的数据产品或许是帮助企业实现目标的重要推动力量。经过大模型能力升级后的数智平台 VeDI 进一步降低了找数、取数以及数据分析等数据生产和消费的全环节。在同样的需求水平下,使用升级后的 VeDI,公司中有能力使用数据产品的人从专业的数据分析师扩张到了所有有数据需求的人,可能是运营、老板、产品经理等等角色,数据消费变得普惠。

“只有降低门槛,把数据用起来了,才知道数据在流转中到底会产生什么样的价值”,对于刚刚迈入数字化进程的公司而言,数据的价值是一座远远没有被开掘的宝藏,更低门槛的数据产品可能是一把开启的钥匙。

在大模型加持下,企业内部的 “数据飞轮” 将加速旋转。公司业务拥有了更强大的引擎,业务人员能够从 “秒出数据” 中快速得到数据反馈,从而对业务进行更快优化,在数据加速流转过程中,更多高质量数据资产的不断沉淀带给业务更多的洞察,最终让业务决策实现更科学、更敏捷。

文中关于火山引擎,工程的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《用火山引擎,大模型将数据飞轮「点燃」》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
突破功能性:三星Galaxy Z Flip5的大视野智能外屏突破功能性:三星Galaxy Z Flip5的大视野智能外屏
上一篇
突破功能性:三星Galaxy Z Flip5的大视野智能外屏
重写后的标题为:百度世界大会 2023 确定日期,李彦宏、沈抖等重要嘉宾将发表演讲
下一篇
重写后的标题为:百度世界大会 2023 确定日期,李彦宏、沈抖等重要嘉宾将发表演讲
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    21次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    17次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    17次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    20次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    22次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码