当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI大模型时代,数据存储新基座助推教科研数智化跃迁

AI大模型时代,数据存储新基座助推教科研数智化跃迁

来源:搜狐 2023-07-31 17:20:46 0浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《AI大模型时代,数据存储新基座助推教科研数智化跃迁》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

生成式AI(AIGC)开启了人工智能通用化的新纪元,围绕大模型的百舸争流蔚为壮观,算力基础设施是首要的竞逐焦点,而存力觉醒也日益成为业界共识。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

在新的时代,大模型从单模态走向多模态,参数和训练数据集的规模呈几何级数增长,海量的非结构化数据需要高性能混合负载能力的支撑;与此同时,数据密集型范式大行其道,超算、高性能计算(HPC)等应用场景迈向纵深,既有的数据存储基座已难以满足不断升级的需求。

如果说算力、算法、数据是驱动人工智能发展的“三驾马车”,那么在外部环境发生巨大变化的背景下,三者亟需重新达成动态的平衡。算法模型完善带来的“软实力”提升,算力供给优化引发的“硬实力”增强,需要得到进一步的加持——数据传输的“运力”和数据存储的“存力”即是尚待改进的动力源,新型的数据存储基座将在应对诸多挑战的过程中破茧成蝶。

需求复杂且持续进化的应用场景,是数据存储新基座最好的试金石。从这个意义上讲,教科研行业就是其中的典型代表:算力与数据是该领域数字化转型的关键要素,学科融合的科研计算与基于数据的决策支撑同等重要。从HPC迈向HPDA(高性能数据分析)是改善教学及科研效率的一大步,而AI的赋能则有助于解决过往算不了、算不准、算不动的难题。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

在近日举办的2023世界人工智能大会上,华为OceanStor Pacific分布式存储助力上海交通大学构建的HPC+AI存力底座正式上线,“交我算”统一数据基座将在今年再扩充25PB,其有望成为教科研数字化、智能化转型的新标杆,也为数据存储新基座的探索之旅树立了一座里程碑。

数据与算力的关系演变与衍生挑战

伴随千行百业的数字化转型进入深水区,以及人工智能、大数据等新兴技术的协同爆发,数据与算力的关系正在发生微妙的变化。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

教科研领域身处数字经济的风口浪尖,对这一变化颇为敏感。过去,数据必须跟着算力跑。为了应对复杂科学和工程问题的快速数值求解,教科研界在很长一段时间里更多关注如何打造最强大的算力,而数据仅作为算力的配套设施来考虑。

如今,“算力围着数据转”逐渐成为新的趋势。新兴应用的涌现、数据体量的膨胀、数据安全问题的凸显,让数据本身的价值备受重视。基于AI、大数据等技术的突破,传统超算正向数据密集型超算演变,多元异构算力需要围绕同一个数据存储基座进行构建。

上海交通大学网络信息中心副主任林新华认为,数据与算力的主导权发生逆转,既是建设数据密集型超算平台的契机,也给统一数据存储基座的构建带来不少新的挑战。

首先是数据爆发式增长,对存储容量的需求显著提高。据统计,“交我算”平台的数据规模增长幅度达到每年7PB,气象海洋、能源勘探、卫星遥感、基因测序、冷冻电镜、AI自动驾驶、制造CAE、动画渲染等应用场景的数据量都达到PB级,用一套数据基础设施容纳如此庞大的数据量殊为不易。

其次是新业务不断涌现,对存储性能要求更高。AI通用化进程的提速,特别是大模型、多模态的批量输出,对IO性能构成严峻挑战。在百TB级数据集成为常态的情况下,自然语言处理、多模态应用加剧了数据量的增速,小文件训练数据集的高效访问更要求存储性能再上新台阶。

再次,跨校区多集群存储共用,数据在异构集群间的流动可能造成数据丢失、运行缓慢等问题。“交我算”平台提供多种异构算力,拥有ARM集群、X86集群以及AI集群等。在众多集群中,只有做到全数据流动和数据融合,才能释放算力和数据的最大价值。

最后,传统AI本地盘训练,伴随高并发数据分析,打破IO墙迫在眉睫。数据多次搬迁过程中的IO瓶颈非常突出——传统的读写流程冗长,加载数据涉及三次数据搬迁,checkpoint也有两次数据搬迁,其间产生的效率损失不容忽视。

分布式存储统一融合数据基座的突围路径

为了应对上述挑战,自2019年起,上海交通大学与华为存储展开深度合作,共同打造“交我算”数据密集型超算平台。依托在技术和应用创新方面的深厚积累,华为OceanStor Pacific分布式存储产品助力“交我算”建设统一数据基座,支撑起全校多种异构算力平台。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

构建分布式统一融合数据基座,是“交我算”拥抱新兴数据应用的必由之路。基于横向扩展分布式存储架构,“交我算”平台的存储容量和带宽可按需扩展。一是性能容量线性增长,单集群可达EB级容量;二是借助高密大容量硬件,节省机柜空间;三是采用大比例EC,以场景化压缩提升磁盘利用率。

据了解,“交我算”平台从初始的2PB容量、6GB/s带宽,到2020年增至20PB容量、60GB/s带宽,2022年又扩容至40PB容量、120GB/s带宽,预计2023年容量将再扩充25PB。与此同时,华为OceanStor Pacific分布式存储拥有5U 120盘位的超高密设计,结合超大比例EC数据冗余保护算法,在满足高可靠性的基础上将硬盘空间利用率提升至91.6%。

分布式全闪硬件加持是“交我算”应对存储性能难题的基石。在华为OceanStor Pacific的助力下,“交我算”平台采用全闪硬件加速,显著提升带宽与IOPS性能,每节点80万IOPS、带宽20GB/S能够满足混合负载条件下的高性能要求。

全局分布式存储跨校区统一管理是“交我算”解决多集群存储共用难题的良方。通过采用全局文件系统跨域多套存储管理的方式,“交我算”平台构建起跨校区的统一数据基座,在华为OceanStor Pacific分布式存储产品的支撑下,达成全局文件视图、数据管理与调度、全域数据流动、统一流式元数据等多重目标。

数据分析加速、多种协议访问无损互通、免搬迁高效用是“交我算”打破IO墙的利器。基于华为面向AI的存储方案,以及华为OceanStor Pacific分布式存储“一份数据,多种协议访问”的能力,“交我算”平台实现外置存储减少数据搬迁,并大幅提升分析效率、节省存储空间。

大模型时代HPDA+AI的未来图景

透过“交我算”平台携手华为存储打造分布式统一融合数据新基座的演变轨迹,不难看出数据密集型场景正在加速进化。

从早期的HPC到后来的HPDA,再到HPDA+AI的比翼齐飞,教科研行业的应用场景不断丰富,对存储产品和数据基座的需求也持续跃迁。事实上,教科研只是千行百业数字化进程的冰山一角,数据存储的大时代已呼啸而来。

大模型时代的到来,将进一步重塑包括存力在内的IT基础设施,带有崭新AI基因的存储产品有望成为行业数字化升级的新宠。7月14日,主题为“数据新范式 释放AI新动能”的大模型时代华为AI存储新品发布会将在线举行。无论您正在企业内部署AI,还是让开发的应用具备AI能力,此次发布的方案都将提供更优的技术架构与产品,帮您踏准时代的节拍。

人工智能通用化的大幕已经开启,存储行业的领头羊率先吹响了冲锋的号角,后面的每一个乐章都值得期待。

以上就是《AI大模型时代,数据存储新基座助推教科研数智化跃迁》的详细内容,更多关于AI大模型,数据存储,关键词:,教科研数智化的资料请关注golang学习网公众号!

版本声明
本文转载于:搜狐 如有侵犯,请联系study_golang@163.com删除
荣耀X50发布日期确定:期待荣耀X50发布日期确定:期待"十年登峰之作"
上一篇
荣耀X50发布日期确定:期待"十年登峰之作"
win7最新精简版系统如何安装
下一篇
win7最新精简版系统如何安装
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    31次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    29次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    27次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    31次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    46次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码