CNTXJ.NET | 通信界-中国通信门户 | 通信圈 | 通信家 | 下载吧 | 说吧 | 人物 | 前瞻 | 智慧(区块链 | AI
 国际新闻 | 国内新闻 | 运营动态 | 市场动态 | 信息安全 | 通信电源 | 网络融合 | 通信测试 | 通信终端 | 通信政策
 专网通信 | 交换技术 | 视频通信 | 接入技术 | 无线通信 | 通信线缆 | 互联网络 | 数据通信 | 通信视界 | 通信前沿
 智能电网 | 虚拟现实 | 人工智能 | 自动化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信会展
您现在的位置: 通信界 >> AI >> 新闻正文
 
数据决定AI智能的高度 存储成AI时代“新宠”
[ 通信界 | 高靖宇 | www.cntxj.net | 2023/7/17 9:13:24 ]
 

ChatGPT发布至今,AI大模型正在进入全新的生态模式,展开了一个全新的旅程,各个研究机构、公司都展开了一场关于大模型的比拼。据科技部新一代人工智能发展研究中心等机构发布的数据,中国10亿参数规模以上的大模型已发布79个。但同时,企业在开发及实施大模型应用过程中面临诸多挑战,尤其是数据存储方面。

多位业内人士对《中国经营报》记者表示,大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。国内要发展人工智能,并使这一产业得到高速的发展,一定要重视数据和信息的数字化记录。如今,国内建设了大量的数据中心,算力相对较多,但存力较少,很多高价值的信息都没有被记录下来。

挑战依旧

以ChatGPT为代表的大模型成功实现商业化落地,并引发了业界震动。人工智能也正在从感知理解走向生成创造。而AI大模型俨然成为互联网的“新风口”,在这场AI带来的新变革中,企业纷纷紧跟时代浪潮,建立自己的大模型。

但随着大模型产业的快速发展,模型规模的快速膨胀,AIGC模型预训练数据量呈现指数级增长,带动算力需求爆发。从GPT-1到GPT-3,模型参数量从GPT-1的1.17亿增加到GPT-3的1750亿;训练数据量也由GPT-1的5GB,增加到GPT-3的45TB。这也就导致面向AI大模型的数据准备时间长,数据来源分散,归集慢。

华为数据存储产品线总裁周跃峰表示,第一,在大模型训练过程中,需要把分散到各个地方的数据进行归集、预处理,然后再把它送给AI大模型。数据预处理的过程非常长,统计发现,上百个TB级的数据可能需要大概10天左右的准备时间,这个对于整个系统的高效利用是不利的;第二,多模态大模型以海量文本、图片为训练集,当前海量小文件的加载速度不足100MB/s,训练集加载效率低;第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天;第四,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。

周跃峰认为,AI大模型在进入各个企业的时候,实施门槛还是非常高,它需要非常专业的软件、硬件甚至是维护工程师来进行实施并进行后续的维护。同时可以看到今天的大模型和算力的应用尤其是GPU的应用相对还是比较简单、传统的裸机系统,GPU资源的利用效率相对来说比较低。

存储需求上升

“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。”周跃峰表示。数据存储成为解决AI大模型发展瓶颈的关键。

周跃峰解释道:“目前大模型算力成本约占整个成本的25%,而数据清洗、预处理等工作,在不算数据存储硬件的情况下,占到成本的22%。从这个角度看,数据机器存储过程,在大模型时代越来越重要。这不仅仅是简单的数据量变大,而且数据的处理过程,以及过程中对于硬件性能的要求越来越高。”他认为,随着大模型出现,数据存储和处理相关领域未来会越来越有前景。

华为苏黎士研究所数据存储首席科学家张霁也认为,随着数据源日趋丰富,很多企业开始关注数据安全问题,而数据存储是数据安全的第一道防线。

为此,华为推出了OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。

其中,OceanStor A310深度学习数据湖存储,在数据准备到断点接续,再到整个训练/推理一条链的过程发力,用近存计算和高性能分布式文件存储系统,实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理,为企业解决数据底座问题。

FusionCube A3000训/推超融合一体机面向行业大模型训练/推理场景,针对百亿级模型应用,可提供拎包入住式的部署体验。周跃峰表示,通过一体机方式,纳入所有软件,降低企业使用门槛,实现资源高效利用。“我们也希望通过这个手段,助推中国的AI成为真正的所谓的普惠AI,而不是头部企业用的先进工具,而是让它成为普适性的工具。”

对此,华为分布式存储领域副总裁韩振兴表示:“我们在这方面已经筹备了两三年,因为我们之前就看到了AI的大趋势。当然我们也确实是没有预料到它突然爆发,但我们在很早就进行了筹备。所以当看到大模型开始的时候,便发布了这两个新品,它们的性能指标高于整个业界60%以上。”

 

1作者:高靖宇 来源:中国经营报 编辑:顾北

 

声明:①凡本网注明“来源:通信界”的内容,版权均属于通信界,未经允许禁止转载、摘编,违者必究。经授权可转载,须保持转载文章、图像、音视频的完整性,并完整标注作者信息并注明“来源:通信界”。②凡本网注明“来源:XXX(非通信界)”的内容,均转载自其它媒体,转载目的在于传递更多行业信息,仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。③如因内容涉及版权和其它问题,请自发布之日起30日内与本网联系,我们将在第一时间删除内容。 
热点动态
普通新闻 中信科智联亮相2023中国移动全球合作伙伴大会
普通新闻 全球首个基于Data Channel的新通话商用网络呼叫成功拨通
普通新闻 中国联通:以优质通信服务 助力“一带一路”共建繁华
普通新闻 杨杰:未来五年,智算规模复合增长率将超过50%
普通新闻 长沙电信大楼火灾调查报告发布:系未熄灭烟头引燃,20余人被问责
普通新闻 邬贺铨:生态短板掣肘5G潜能发挥,AI有望成“破局之剑”
普通新闻 工信部:加大对民营企业参与移动通信转售等业务和服务创新的支持力
普通新闻 摩尔线程亮相2023中国移动全球合作伙伴大会,全功能GPU加速云电脑体
普通新闻 看齐微软!谷歌表示将保护用户免受人工智能版权诉讼
普通新闻 联想王传东:AI能力已成为推动产业升级和生产力跃迁的利刃
普通新闻 APUS李涛:中国的AI应用 只能生长在中国的大模型之上
普通新闻 外媒:在电池竞赛中,中国如何将世界远远甩在后面
普通新闻 三星电子预计其盈利能力将再次下降
普通新闻 报告称华为5G专利全球第1 苹果排名第12
普通新闻 党中央、国务院批准,工信部职责、机构、编制调整
普通新闻 荣耀Magic Vs2系列正式发布,刷新横向大内折手机轻薄纪录
普通新闻 GSMA首席技术官:全球连接数超15亿,5G推动全行业数字化转型
普通新闻 北京联通完成全球首个F5G-A“单纤百T”现网验证,助力北京迈向万兆
普通新闻 中科曙光亮相2023中国移动全球合作伙伴大会
普通新闻 最高补贴500万元!哈尔滨市制定工业互联网专项资金使用细则
通信视界
邬贺铨:移动通信开启5G-A新周期,云网融合/算
普通对话 中兴通讯徐子阳:强基慧智,共建数智热带雨
普通对话 邬贺铨:移动通信开启5G-A新周期,云网融合
普通对话 华为轮值董事长胡厚崑:我们正努力将5G-A带
普通对话 高通中国区董事长孟樸:5G与AI结合,助力提
普通对话 雷军发布小米年度演讲:坚持做高端,拥抱大
普通对话 闻库:算网融合正值挑战与机遇并存的关键阶
普通对话 工信部副部长张云明:我国算力总规模已居世
普通对话 邬贺铨:我国互联网平台企业发展的新一轮机
普通对话 张志成:继续加强海外知识产权保护工作 为助
普通对话 吴春波:华为如何突破美国6次打压的逆境?
通信前瞻
亨通光电实践数字化工厂,“5G+光纤”助力新一
普通对话 亨通光电实践数字化工厂,“5G+光纤”助力新
普通对话 中科院钱德沛:计算与网络基础设施的全面部
普通对话 工信部赵志国:我国算力总规模居全球第二 保
普通对话 邬贺铨院士解读ChatGPT等数字技术热点
普通对话 我国北方海区运用北斗三号短报文通信服务开
普通对话 华为云Stack智能进化,三大举措赋能政企深度
普通对话 孟晚舟:“三大聚力”迎接数字化、智能化、
普通对话 物联网设备在智能工作场所技术中的作用
普通对话 软银研发出以无人机探测灾害被埋者手机信号
普通对话 AI材料可自我学习并形成“肌肉记忆”
普通对话 北斗三号卫星低能离子能谱仪载荷研制成功
普通对话 为什么Wi-Fi6将成为未来物联网的关键?
普通对话 马斯克出现在推特总部 收购应该没有悬念了
普通对话 台积电澄清:未强迫员工休假或有任何无薪假
普通对话 新一代载人运载火箭发动机研制获重大突破
推荐阅读
Copyright @ Cntxj.Net All Right Reserved 通信界 版权所有
未经书面许可,禁止转载、摘编、复制、镜像