[中国,开创上海,节点技术基础2025年9月18日] 女士们、互联WhatsApp%E3%80%90+86%2015855158769%E3%80%91central%20florida%20football%20jersey先生们,引领各位老朋友、设施式新朋友,新范大家上午好!开创欢迎来参加2025年华为全联接大会,节点技术基础时隔一年,互联很高兴再次与大家相聚在上海。引领我想大家都能感受到,设施式过去的新范一年对所有AI从业者、关注者来讲是开创记忆深刻的一年,DeepSeek横空出世,节点技术基础让全国人民过了一个快乐的互联AI年,也让所有大模型训练者开启了不知多少个不眠之夜,调整训练方式,复现DeepSeek结果,当然也给我们带来了巨大冲击。从春节开始,到今年4月30日,经过多团队的协同作战,终于使Ascend 910B/910C的推理能力达成了客户的基本需求。 在进入今天的具体分享之前,请允许我回顾一下去年的HC,我讲到了如下几点:
但第五点没有展开讲,本来想讲,但我的团队不同意。今天,我想利用此机会,来把我去年HC没有完成的任务完成,也算是答卷。我今天分享的主题是:“以开创的超节点互联技术,引领AI基础设施新范式”,也是回答去年HC提到的第五点:如何开创计算架构,打造 “超节点+集群”算力解决方案来持续满足算力需求。 在展开今天主题前,回到DeepSeek对产业界、对华为的冲击,DeepSeek开源后,我们的客户对华为的昇腾发展指出了很多问题,也充满了期待,并一直在给我们不断地提建议。为此,经过内部的充分讨论并达成共识,我们于2025年8月5日在北京专门举办了昇腾产业峰会,我代表华为给出了回应,在座的有的参加了,有的可能没有参加。今天,我也利用此机会就主要的决定给大家汇报一下。主要有四点:
接下来回到今天的主题。尽管DeepSeek开创的模式可以大幅减少算力需求,但要走向AGI、要走向物理AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。 算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。自2018年发布Ascend 310芯片,2019年发布Ascend 910芯片,到2025年,Ascend 910C芯片随着Atlas 900超节点规模部署,为大家所熟悉。在过去几年,客户和伙伴们对昇腾芯片有很多诉求,对昇腾芯片也有很多期待。面向未来,华为的芯片路标是如何规划的?想必是大家普遍关心的话题,可能也是最关心的内容。 因此,今天,我就直入主题来介绍昇腾芯片及其路标。我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。 未来3年,至2028年,我们在开发和规划了三个系列,分别是Ascend 950系列,包括两颗芯片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的4颗昇腾芯片。 我们正在开发、且即将推出的芯片叫Ascend 950系列。我首先介绍一下Ascend 950系列的芯片架构,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升。
下面分别介绍。 首先是我们的第一颗芯片,Ascend 950PR,主要面向推理Prefill阶段和推荐业务场景。首先,我们发现,随着Agent的快速发展,输入上下文越来越长,首Token输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中,要求推荐算法具有更高的准确度和更低的时延,对计算能力的需求也越来越大。推理Prefill阶段和推荐算法都是计算密集型,对计算并行的能力要求高,但对内存访问带宽的需求相对低。通过分级内存解决方案,推理Prefill阶段和推荐算法对本地内存容量的需求相对也不高。Ascend?950PR 采用了华为自研的低成本HBM,HiBL 1.0,相比高性能、高价格的HBM3e/4e,能够大大降低推理Prefill阶段和推荐业务的投资。 这颗芯片将在2026年一季度推出,首先支持的产品形态是标卡和超节点服务器。 接下来这一颗是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode阶段和训练场景。由于推理Decode阶段和训练对互联带宽和访存带宽要求高,我们开发了HiZQ 2.0,使内存容量达到144GB,内存访问带宽达到4TB/s。同时把互联带宽提升到了2TB/s。其次,支持了FP8/MXFP8/MXFP4/HiF8数据格式。 Ascend 950DT 将在2026年Q4推出。 第三颗是在规划中的芯片Ascend 960。它在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比Ascend 950翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的HiF4数据格式。它是目前业界最优的4bit精度实现,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优。 Ascend 960将在2027年四季度推出。 最后一颗是在规划中的Ascend 970,这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互联带宽要全面翻倍,内存访问带宽至少增加1.5倍。Ascend 970计划在2028年四季度推出。大家届时可以期待它的惊人表现。 这是刚才介绍的昇腾芯片的主要具体规格和路标,总体上,我们将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足AI算力不断增长的需求。可以看到,相比Ascend 910B/910C,从Ascend 950开始的主要变化包括:
有了昇腾芯片为基础,我们就能够打造满足客户需求的算力解决方案。从大型AI算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长,超节点的规模也在持续、快速增大。 今年3月份,华为正式推出了Atlas 900超节点,满配支持384卡。因为是超节点,这384颗Ascend 910C芯片,能够像一台计算机一样工作,最大算力可达300 PFLOPS。到目前为止,Atlas 900依然是全球算力最大的超节点。大家经常听到的CloudMatrix384超节点,是华为云基于Atlas 900超节点构建的云服务实例。Atlas 900超节点自上市以来,已经累计部署超过300套,服务20多个客户,涵盖互联网、电信、制造等多个行业。可以说,Atlas 900于2025年,开启了华为AI超节点的征程。 今天,结合我们已经推出或正在研发中的昇腾芯片,我将为大家带来更多超节点和集群产品。现在进入今天最激动人心的时刻,就是新产品发布环节。 今天我要发布的第一款产品,Atlas 950超节点,基于Ascend 950DT打造。 Atlas 950超节点支持8192張基于Ascend 950DT的昇騰卡,是Atlas 900超節(jié)點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應(yīng)一顆Ascend 950DT芯片,8192張昇騰卡等同于8192顆Ascend 950DT芯片。 Atlas 950超节点滿配包括由128個計算柜、32個互聯(lián)柜,共計160個機柜組成,占地面積1000平方米左右,柜間采用全光互聯(lián)。總算力大幅度提升,其中,F(xiàn)P8算力達到8E FLOPS,F(xiàn)P4算力達到16E FLOPS。互聯(lián)帶寬達到16PB/s,這個數(shù)字意味著,Atlas 950一個產(chǎn)品的總互聯(lián)帶寬,已經(jīng)超過今天全球互聯(lián)網(wǎng)峰值帶寬的10倍有余。 Atlas 950超节点的上市時間是:2026年四季度。 我們很自豪的看到,Atlas 950超节点,至少在未來多年都將保持是全球最強算力的超節(jié)點,并且在各項主要能力上都遠超業(yè)界主要產(chǎn)品。其中,相比英偉達同樣將在明年下半年上市的NVL144,Atlas 950超节点卡的規(guī)模是其56.8倍,總算力是其6.7倍,內(nèi)存容量是其15倍,達到1152TB;互聯(lián)帶寬是其62倍,達到16.3PB/s。即使是與英偉達計劃2027年上市的 NVL576相比,Atlas 950超节点在各方面依然是領(lǐng)先的。 算力、內(nèi)存容量、內(nèi)存訪問速度、互聯(lián)帶寬等能力的大幅度增強,為大模型訓練性能和推理吞吐帶來顯著提升。相比華為已經(jīng)推出的Atlas 900超節(jié)點,Atlas 950超节点的訓練性能提升17倍,達到4.91M TPS。通過支持FP4數(shù)據(jù)格式,Atlas 950超节点的推理性能提升達26.5倍,達到19.6M TPS。 8192卡超节点并不是我们的终点,我们还在继续努力。我今天发布的第二款超节点产品,Atlas 960超节点。基于Ascend 960,Atlas 960超节点最大可支持15488卡。Atlas 960超节点 由176個計算柜,44個互聯(lián)柜,共220個機柜,占地面積約2200平方米。 Atlas 960超节点的上市時間是:2027年四季度。 伴隨卡的規(guī)模的再次升級,Atlas 960超节点讓我們在AI超節(jié)點的優(yōu)勢再度增強。基于Ascend 960,其總算力、內(nèi)存容量、互聯(lián)帶寬在Atlas 950基礎(chǔ)上再翻倍。其中,F(xiàn)P8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;內(nèi)存容量達到4460TB,互聯(lián)帶寬達到34PB/s。大模型訓練和推理的性能相比Atlas 950超节点,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。通過Atlas 950和Atlas 960,我們對于為人工智能的長期快速發(fā)展提供可持續(xù)且充裕算力,充滿信心。 超节点已经重新定义AI基础设施的范式,但不仅仅局限于AI。在通用计算领域,我们同样认为,超节点技术能够带来很大的价值。从需求角度考虑,金融核心业务等目前仍然有部分承载在大型机和小型机之上,相比普通服务器集群,它们对服务器的性能和可靠性有更高的诉求,通用计算超节点在这两点上正好切合需求。从技术角度考虑,超节点同样可以为通算领域注入全新活力。 因此,鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进。同时,通过自研的双线程灵犀核,使鲲鹏处理器能方便支持更多线程。 2026年Q1,我们将推出Kunpeng 950处理器,包括两个版本,分别是:96核/192线程和192核/384线程;支持通用计算超节点;安全方面新增四层隔离,成为鲲鹏首颗实现机密计算的数据中心处理器。 2028年Q1,鲲鹏处理器将在芯片微架构、先进封装技术等领域持续突破关键技术,将再次推出两个版本,分别是高性能版本,96核/192线程,单核性能提升50%+,主要面向AI host、数据库等场景。以及高密版本,不少于256核/512线程,主要面向虚拟化、容器、大数据、数仓等场景。 接下来是今天我发布的第三款产品:TaiShan 950超节点,基于Kunpeng 950打造,全球首个通用计算超节点,其最大支持16节点,32个处理器,最大内存48TB,同时支持内存、SSD、DPU池化。 這款產(chǎn)品不只是通用計算領(lǐng)域的一次技術(shù)升級,除了大幅提升通用計算場景下的業(yè)務(wù)性能,還能幫助金融系統(tǒng)破解核心難題。當前大型機、小型機替換的核心挑戰(zhàn)是數(shù)據(jù)庫分布式改造,而基于TaiShan 950超节点打造的 GaussDB多寫架構(gòu),無需改造,但性能提升2.9 倍,最終可平滑替代大型機、小型機上的傳統(tǒng)數(shù)據(jù)庫。TaiShan 950加上分布式GaussDB將成為各類大型機、小型機的終結(jié)者,徹底取代各種應(yīng)用場景的大型機和小型機以及Oracle的Exadata數(shù)據(jù)庫服務(wù)器。 除了核心數(shù)據(jù)庫場景,TaiShan 950超节点在更廣泛的場景里,表現(xiàn)也很亮眼:比如虛擬化環(huán)境的內(nèi)存利用率提升20%,在Spark大數(shù)據(jù)場景,實時數(shù)據(jù)處理時間縮短30%。 TaiShan 950超节点上市時間是:2026年一季度,敬請期待。 超节点的价值,不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统,正在从传统推荐算法向生成式推荐系统演进。我们可以基于TaiShan 950和Atlas 950打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。 一方面,通过超大带宽、超低时延互联以及超大内存,混合超节点构成超大共享内存池,支持PB级推荐系统嵌入表,从而支撑超高维度用户特征;另一方面,混合超节点的超大AI算力,能够支持超低时延推理和特征检索。因此,混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。 大规模超节点把智算和通算的能力都推向新的高度,同时也对互联技术提出了重大挑战。华为作为联接领域的领导者,当然不惧挑战。在定义和设计Atlas 950、Atlas 960两个超节点的技术规格时,我们遭遇到了互联技术的巨大挑战,主要在两个方面:
华为基于三十多年构筑的技术能力,通过系统性创新,彻底解决了当前技术存在的问题,超标达成Atlas 950/960超节点的设计需求,使万卡超节点成为可能。 首先,为了解决长距离且高可靠问题,我们在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制;同时在光路引入了百纳秒级故障检测和保护切换,当出现光模块闪断或故障时,让应用无感;并且,我们重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升100倍,且互联距离超过200米,实现了电的可靠和光的距离。 其次,为了解决大带宽且低时延问题,我们突破了多端口聚合与高密封装技术,以及平等架构和统一协议,实现了TB级的超大带宽,2.1微秒的超低时延。正是因为一系列系统性、原创性的技术创新,我们才攻克了超节点互联技术,满足了高可靠、全光互联、高带宽、低时延的互联要求,让大规模超节点成为了可能。 为了达成Atlas 950/960超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。 在技术上,我们总结认为,万卡级超节点架构应该具备6大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名“灵衢”,英文名称:UB,UnifiedBus 今天,我们正式发布灵衢、UnifiedBus,一个面向超节点的互联协议。 同時,我宣布,華為將開放靈衢2.0技術(shù)規(guī)范。為什么從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進工藝不可獲得,我們需要從多芯片上突破,希望把更多的計算資源聯(lián)接在一起。我們?nèi)×艘粋€名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現(xiàn)大規(guī)模算力的聯(lián)通。基于靈衢?1.0 的Atlas 900超節(jié)點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術(shù)得到充分驗證。在靈衢1.0的基礎(chǔ)上,我們繼續(xù)豐富功能,優(yōu)化性能,提升規(guī)模,進一步完善了協(xié)議,形成了靈衢2.0,前面發(fā)布的Atlas 950超节点就是基于靈衢2.0。 我们认为灵衢2.0具备了开放的条件,为了更广泛地促进互联技术发展和产业进步,今天华为决定开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。 我在去年HC会上强调过,基于中国可获得的芯片制造工艺,我们努力打造“超节点+集群”算力解决方案,来持续满足算力需求。今天已经介绍了三个超节点产品。灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。 接下来为大家带来两个集群产品:首先是,Atlas 950 SuperCluster 50万卡集群! Atlas 950 SuperCluster集群由64個Atlas 950超节点互聯(lián)組成,把1萬多機柜中的52萬多片昇騰950DT組成為一個整體,F(xiàn)P8總算力可達524 EFLOPS。上市時間與Atlas 950超节点同步,即2026年Q4。 在集群组网上,我们同时支持UBoE与RoCE两种协议,UBoE是把UB协议承载在以太网上,让客户能够利用现有以太交换机。相比传统RoCE,UBoE组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省,所以,我们推荐UBoE。 这就是我们的Atlas 950 SuperCluster集群。相比当前世界上最大的集群 xAI Colossus,规模是其2.5倍,算力是其1.3倍,是当之无愧的全世界最强算力集群!无论是当下主流的千亿稠密、稀疏大模型训练任务,还是未来的万亿、十万亿大模型训练,超节点集群都可以成为性能强悍的算力底座,高效稳定地支持人工智能持续创新。 相應(yīng)的,在2027年Q4,我們還將基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,F(xiàn)P8总算力达到2 ZFLOPS!FP4总算力达到4 ZFLOPS。并且,它同样也支持UBoE与RoCE两种协议,在UBoE协议加持下,性能与可靠性同样更优,并且,静态时延和网络无故障时间优势进一步扩大,因此继续推荐UBoE组网。通过Atlas 960 SuperCluster,我们将持续加速客户应用创新,探索智能水平新高。 很高兴今天给大家带来一系列新产品,我们希望和产业界一起,以开创的灵衢超节点互联技术,引领AI基础设施新范式;以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值,谢谢! 2025年9月18-20日,第十届华为全联接大会在上海世博展览馆及世博中心举办。本届大会以“跃升行业智能化”为主题,通过“战略全景-产业技术-生态发展”的三维视角,阐释华为全面智能化战略的最新举措,并发布全新的数智基础设施产品、行业场景化解决方案、开发工具等。欲了解更多详情,请参阅华为全联接大会官网:www.huawei.com/cn/events/huaweiconnect |
英超补赛埃弗顿绝平利物浦,VAR确认进球有效京山市创新运用林场专业力量织密森林“防火网”97分钟读秒绝平!利物浦2邮储银行黄石市分行:点绿成“金” 助力“铜都”绘就山湖之城新画卷赖清德“声援”高市早苗、晒吃日料照片,国台办:令人作呕罗马诺:伯恩茅斯和切尔西就租借凯帕的最后一轮谈判将周二进行利物浦遭读秒绝平!范戴克怒批裁判失职总要去看看今年的冰天雪地吧!你最想去哪儿?→豪门悲喜夜:98分钟丢球利物浦德比2(成都世运会)舌尖上的世运:“中国味”圈粉“世界胃”利物浦球员FC25能力值泄露:萨拉赫&范迪克&阿利森89并列最高利物浦球员FC25能力值泄露:萨拉赫&范迪克&阿利森89并列最高隐藏式卫生间设计及相关问题杜库雷染红仍激动,与范迪克互怼并让其闭嘴赖清德“声援”高市早苗、晒吃日料照片,国台办:令人作呕全运会羽毛球资格赛开幕 多名奥运冠军力争席位湖北工程学院学子赴福利院:世界儿童日的“温暖手作课”邮储银行黄石市分行:点绿成“金” 助力“铜都”绘就山湖之城新画卷迈向“十五五”美丽图景·一线见闻总要去看看今年的冰天雪地吧!你最想去哪儿?→视频丨骨传导耳机戴出头晕失衡?哪些人群不适合佩戴?专家解读全运会羽毛球资格赛开幕 多名奥运冠军力争席位43航次、近12万人次!海关优化通关服务 邮轮游成为文旅发展新亮点早报:尤文30维罗纳,连续两轮30登顶意甲《中国人民解放军预备役人员证》,明年制发启用!青春飞扬,减压前行——安陆一中2026届高三趣味运动会暖心纪实第21金!韩雨夺得成都世运会台球女子花式冠军帕尔马总监:贝尼特斯现是我们球迷我们主帅有瓜迪奥拉同样激情长型厨房装修设计的问题与答案杜库雷染红仍激动,与范迪克互怼并让其闭嘴智能衣柜设计图的功能和实现方式范迪克:裁判发挥了重要作用 最后被扳平让人失望全国入冬进程图来了 南方多地提前入冬全运会羽毛球资格赛开幕 多名奥运冠军力争席位罗马诺:阿森纳中场法比奥维埃拉回租波尔图,所有文件都已签署赖清德“声援”高市早苗,国台办:令人作呕便民服务暖民心!钟祥市冷水镇铜钱村集中办理第三代社保卡总要去看看今年的冰天雪地吧!你最想去哪儿?→浴室装修图的重要性与制作要点打通供热服务 “最后一米” 智慧供暖守护民生“温度”有氧减肥运动,让你轻松瘦身《丝之歌》为啥卖这么便宜?主创:公平公平还是公平!《幻想水浒传1&2复刻版》新史低!科乐美经典JRPG有效减肥运动你知道吗?这篇文章告诉你!最佳减肥时间,教你轻松瘦身来例假减肥,不乱用偏方也能瘦身木瓜减肥神器——让你轻松拥有完美身材杭州减肥,从健康开始类银河恶魔城新作《康斯坦丝》11月24日上线桃子——让你轻松减肥的味道