开云「中国」kaiyun网页版登录入口

你的位置:开云「中国」kaiyun网页版登录入口 > 资讯 >

体育游戏app平台腾讯云是怎么破解集群升级难点的?沙开波谈说念-开云「中国」kaiyun网页版登录入口

发布日期:2024-09-09 13:20    点击次数:174

体育游戏app平台腾讯云是怎么破解集群升级难点的?沙开波谈说念-开云「中国」kaiyun网页版登录入口

作家 | 香草剪辑 | 李水青体育游戏app平台

智东西9月5日报说念,本日,腾讯云在腾讯民众数字生态大会上发布AI Infra(AI基础模式)品牌“腾讯云智算”,将旗下高性能诡计HCC、星脉聚积、AIGC云存储等单项居品材干整合,提供集算存网一体的高性能智算底座。

腾讯云智算目下已工作了90%的国内大模子头部用户,包括百川智能、智谱AI等。据腾讯公司副总裁、云与机灵产业行状群COO兼腾讯云总裁邱跃鹏先容,腾讯云的集群千卡单日故障数是行业水平的1/3,数据读写成果是业界10倍,千卡集群通讯时辰是业界一半。

在大会之前,智东西与少数媒体对话了腾讯云副总裁、云诡计资深时期民众沙开波,真切疏浚了智算产业的市集趋势、时期难点等。

谈及AI对云诡计的影响,沙开波合计弥远来看,生成式AI的发展是具有笃定性的,大模子对智算产业来说是一块很大的增量,将来一定会有一个比较大的爆发节点。

之是以弃取在这时开垦腾讯云智算的品牌,也与客户需求有很大的相关。另一方面,大模子诡计、推理等场景对云基础模式淡薄高条目,腾讯云当作贬责有盘算推算提供方需要继续打磨居品材干,从而更好地营救这一类客户的业务需求。

一、集算存网一体,从设备上架到启动查考仅1天

举座来看,腾讯云智算是一个集算、存、网于一体的高性能智算底座,整合了腾讯云高性能诡计HCC、高性能聚积IHN星脉、高性能云存储、加快框架、容器、向量数据库、智算套件等居品,提供性能跳跃、多芯兼容、天真部署的智算居品材干。

互联网企业、大模子厂商、腹地智算IDC、金融企业等是腾讯云智算现阶段的主要客户,具体到场景中除了公有云,还有独有云、专有云的一些应用,其中大模子厂商是最主要的客户之一。

腾讯云智算在查考启动时效上大幅进步,从设备到位到开动查考,相较业界平均的30天时辰减轻到仅1天。

在集群踏实性方面,腾讯云智算千卡单日故障卡数0.08,惟有业界的1/6;数据读写成果上,Checkpoint团聚写入的峰值性达到业界10倍以上,1分钟就能完成万卡Checkpoint读写;聚积交换成果方面,通过工作器、聚积端、交换机和通讯库的举座自研优化,千卡集群的通讯时辰占比为6%,是业界平均时辰占比12%的一半。

▲腾讯云智算查考成果

跟着市面上的大模子参数继续增长,从百亿、千亿,渐渐膨胀到万亿,模子考查对底层算力集群的条目也继续进步。腾讯云是怎么破解集群升级难点的?

沙开波谈说念,大范围诡计集群的打造亦然腾讯云智算居品矩阵最念念贬责的问题。其中,HCC高性能诡计居品是挑升用于高性能、踏实、大范围诡计集群的构建,而怎么将GPU等算力高效哄骗起来,则用到星脉聚积来提供卡之间的高效互联,模子查考过程中的Checkpoints高效读写对应的是高性能存储居品。

基于这些居品举座构建的诡计存储聚积全栈贬责有盘算推算,才能匡助客户杀青大范围集群的高效哄骗。

二、4天训完万亿参数模子,聚积故障5分钟贬责

具体来看腾讯云智算的居品矩阵,包括高性能诡计、聚积、存储居品,加快框架、向量数据库以及智算套件等。

▲腾讯云智算贬责有盘算推算

腾讯云HCC高性能诡计集群发布于客岁4月,是行业最早发布的面向大模子查考、推理的算力集群。

HCC底层弃取腾讯云自研星星海工作器,不错提供3.2T的超高互联带宽,算力性能比上一代进步3倍。万亿参数的混元NLP大模子查考,最快4天就能查考完成。在踏实性方面,HCC千卡单日故障卡数为0.08,无中断查考时长达到300小时,是业界平均市集50小时的6倍。

腾讯云星脉聚积是其自研的高性能诡计聚积IHN,营救超10万卡大范围组网、多型号异构GPU接入,聚积通讯成果比上一代进步60%,大模子查考成果进步20%。

星脉聚积具备高效的故障处理材干,在万卡集群下,聚积故障可杀青1分钟发现,3分钟定位,5分钟贬责。

据沙开波先容,这是因为星脉聚积通过一些流量和拓扑的自动感知,进行流量替换中心的调整,从而进步整个这个词聚积的浑沌,并在发现故障的时候迅速定位到是哪个链路出的问题,对链路进行调整、额外处理,让整个这个词查考不错不中断大略少中断。

腾讯云的AIGC云存储贬责有盘算推算包括CFS Turbo、对象存储COS、数据加快器GooseFS以及数据处理CI等,针对AI大模子数据聚积清洗、查考、推理、数据智理全过程,提供全面高效的云存储营救,可将大模子的数据清洗和查考成果进步一倍。

三、千卡集群每年降本2000万,助力传统企业AI转型

目下,腾讯云智算不错天真地营救公有云、独有云以及别离式云的输出,成为了国内90%头部大模子厂商的弃取,也匡助一多数IDC厂商杀青了AIDC转型。

沙开波解读了腾讯云智算具体的落地案例,公有云的一些大模子的客户在使用其完满的智算贬责有盘算推算后,一个千卡集群每年的老本比较夙昔传统的方式不错镌汰2000万。

举例某社区电商的企业,在驳斥分析、图像分类等OCR、CV业务上应用腾讯云智算贬责有盘算推算,在客岁下半年从国外的芯片更换成了腾讯云公有云上的国产芯片。在主要业务盘算推算不变的前提下,只用了21天就完成了替换,其中两周掌握用来适配模子,一周掌握调动推理框架,对不同芯片的适配十分高效天真。

▲腾讯云智算客户价值

在独有云的落地上,腾讯云智算主要的客户是传统的IDC公司,它们正本具有机房、硬件、聚积上风,然而衰败云、软件贬责有盘算推算。

具体案例是,某传统IDC企业通过与腾讯云智算互助,组建新一代具备AI Infra基础材干的智算平台,并通过田户、计费束缚等材干,为结尾用户提供一站式自主用云工作,杀青到AIDC的转型。该客户还获取了本年的信得过云大会用户最好实施奖。

四、谈智算产业五大趋势,保抓兼容、怒放、公私一体

纵不雅整个这个词智算产业,正处于快速发展的阶段,从产业范围、应用场景到时期革命王人在继续拓展。沙开波与咱们共享了腾讯云对将来趋势的意见,主要有五个层面。

最初是大模子的范围仍在抓续加多,这对AI Infra条目也越来越高,需要更大的算力集群,如安在更大集群下确保踏实性、应用性不错欣慰条目是主要命题。

其次是多芯的材干。多芯一方面开头于供给端的挑战,需要AI Infra居品去适配各式芯片的材干,比如金融等行业的一些央国企会有国产化诉求,需要云厂商去兼容、适配国产化的芯片。

第三是当今举座AI应用,处于一个快速发展的阶段,在应用落地层面仍处于前期,将来可能会越来越快。从这个角度看,将来的推理比重可能也会渐渐加多。

第四是AI场景变得越来越平素,许多行业还在探索的阶段。从腾讯云智算和许多客户的疏浚中,不错看出他们在这方面王人有很强的诉求,将来确信会有一些革命的业务应用落地。

临了是对数据安全的需求浓烈。对许多国内企业来说,用于查考推理的业务数据,只可在我方的机房内部完成,这对居品材干的部署淡薄比较多诉求。

谈及腾讯云智算的举座策略标的,沙开波称腾讯云从ChatGPT出现后就一直在打磨居品,在原来的通用诡计、云上去演进,让原有的云基础模式能愈加欣慰大模子期间对查考、推理场景的诉求。

这次发布腾讯云智算品牌,主要已经出于把夙昔一系列的责任组合起来,酿成一个举座贬责有盘算推算对外提供,向行业传递更准确、更完满的信息。

相较其他友商,腾讯云智算品牌的主要策略是举座的兼容性、怒放性,以及公私一体。

结语:生成式AI鼓动智算产业迅速发展

凭借集算存网一体的高性能智算底座,腾讯云智算整合了多项上风居品,展现了在智算畛域的时期材干和后劲。

跟着生成式AI的抓续发展体育游戏app平台,智算产业也许会乘着这股大模子的风“升空”。腾讯云智算以其兼容性、怒放性以及公私一体的策略,不仅天真地营救公有云、独有云以及别离式云的输出,同期也成为了国内多量大模子厂商的弃取,匡助一多数IDC厂商杀青向AIDC的转型。