首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 云計算 >> 正文

從1920TPS到2400TPS,華為云Tokens服務全面接入384超節(jié)點

2025年8月27日 18:40  CCTIME飛象網(wǎng)  

2025年8月27日,在第四屆828 B2B企業(yè)節(jié)開幕式上,華為云宣布其Tokens服務全面接入CloudMatrix384超節(jié)點,通過xDeepServe架構創(chuàng)新,單芯片最高可實現(xiàn)2400TPS、50msTPOT的超高吞吐、低時延的性能,超過業(yè)界水平。

發(fā)揮“大雜燴”優(yōu)勢,以系統(tǒng)能力打造先進算力

過去18個月,中國AI算力需求呈現(xiàn)指數(shù)級增長。數(shù)據(jù)顯示,2024年初中國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已突破30萬億,1年半的時間增長了300多倍,反映了我國人工智能應用規(guī)?焖僭鲩L,也對算力基礎設施的需求提出了更大的挑戰(zhàn)。

在以往按卡時計費的基礎上,今年3月,華為云正式推出了基于MaaS的Tokens服務。針對不同應用、不同場景的性能和時延要求,還提供了在線版、進線版、離線版乃至尊享版等多種服務規(guī)格,為大模型、Agent智能體等AI工具提供了更為靈活、便捷、低成本的先進算力。

而這一次,華為云的Tokens服務正式接入CloudMatrix384,并通過384原生的xDeepServe框架再次實現(xiàn)了吞吐量的突破,從年初的1920TPS提升至2400TPS,TPOT僅為50ms。

大算力的構建不是單點突破,而是一個從硬件到軟件、從算子到存儲、從推理框架到超節(jié)點的全棧創(chuàng)新,充分依托了華為的“大雜燴”能力。

首先,CloudMatrix384 超節(jié)點以全新的計算架構創(chuàng)新,突破性能瓶頸,構筑穩(wěn)固澎湃的算力根基; CANN昇騰硬件使能,優(yōu)化算子與高效通信策略,讓云端的算力能夠以最高效的方式被調用和組合;EMS彈性內存存儲打破AI內存墻,突破性地實現(xiàn)“以存強算”, 徹底釋放了每一顆芯片的算力;xDeepServe 分布式推理框架則以極致分離架構Transfomerless讓超節(jié)點釋放出更高效算力。

“拆掉”Transformer,xDeepServe全面激發(fā)算力潛能

作為CloudMatrix384 超節(jié)點的原生服務,xDeepServe以Transformerless 的極致分離架構,把MoE大模型拆成可獨立伸縮的 Attention、FFN、Expert三個微模塊,相當于在一臺CloudMatrix384上把“大模型”拆成“積木”,并分派到不同的NPU上同步處理任務。之后,再用基于內存語義的微秒級XCCL通信庫與FlowServe 自研推理引擎把它們重新拼成一個超高吞吐的LLM服務平臺,即Tokens的“超高速流水線”。通過xDeepServe不斷調優(yōu),最終實現(xiàn)了從非超節(jié)點單卡吞吐600tokens/s至超節(jié)點單卡吞吐2400tokens/s的提升。

作為硬件加速計算的中間層,CANN包含多個算子庫和和XCCL這種高性能通信庫等組件,共同支撐AI模型的高效運行。其中,XCCL作為專為超節(jié)點上的大語言模型(LLM)服務而量身打造的高性能通信庫,能夠充分發(fā)揮CloudMatrix384擴展后的UB互聯(lián)架構(UB fabric)的全部潛力,為 Transformerless的全面分離奠定了帶寬與時延雙重硬底座。

而作為被重構的“去中心”式分布式引擎,F(xiàn)lowServe把CloudMatrix384 切成完全自治的 DP 小組,每個小組自帶 Tokenizer、執(zhí)行器、RTC 緩存與網(wǎng)絡棧,完全自給自足,做到千卡并發(fā)也不“擁堵”。

目前,xDeepServe已實現(xiàn)MA分離,而下一步,將把Attention、MoE、Decode全部改成自由流動的數(shù)據(jù)流,并把同樣的拼圖方法復制到多臺超節(jié)點,讓推理吞吐像鋪軌一樣線性延伸,最終或將視線吞吐量的更大突破,讓每塊 NPU 都高效運作,芯片永不排隊,推理永不塞車。

聚焦主流大模型,不斷提升模型性能

目前,華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平臺。

華為云積累了大量模型性能優(yōu)化、效果調優(yōu)的技術和能力,從而實現(xiàn)“源于開源,高于開源”,讓更多大模型可以在昇騰云上跑得更快更好。以文生圖大模型來說,在輕微損失畫質的情況下,通過Int8量化、旋轉位置編碼融合算子等方式,在在華為云MaaS平臺實現(xiàn)了2倍于業(yè)界主流平臺的出圖速度,最大尺寸支持2K×2K。而在文生視頻大模型上,不僅通過量化方式來提速,還通過通算并行等方式,降低延遲與顯存占用,大幅提升視頻生成速度,相較于友商實現(xiàn)了3.5倍的性能提升。華為云Tokens服務在性能、模型適配、效果調優(yōu)方面的基礎,也讓更多企業(yè)能夠快速開發(fā)和構建AI Agent。

而在應用層,華為云已與超過100家伙伴攜手深入行業(yè)場景,共建豐富的Agent,在調研分析、內容創(chuàng)作、智慧辦公、智能運維等領域解決產業(yè)難題,讓企業(yè)更便捷地擁抱AI創(chuàng)新,加速智能化。

如基于MaaS平臺推出的今日人才數(shù)智員工解決方案,集成了先進的自然語言處理、機器學習和深度學習技術,能實現(xiàn)與用戶的智能交互和任務處理,顯著提升服務效率與客戶滿意度;而北京方寸無憂科技開發(fā)的無憂智慧公文解決方案可以提升公文處理效能,實現(xiàn)政企辦公智能化轉型。

以Token為動力的智能社會已經(jīng)到來,而華為云將以系統(tǒng)級創(chuàng)新能力和全新的Tokens服務構筑先進算力,助力各行各業(yè)加速落地AI。

編 輯:霏雯
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
中國電信柯瑞文:星辰智惠 共治共享
精彩視頻
聯(lián)想集團陳振寬:聚焦AI三大主線,以全棧AI能力布局,推動算力產業(yè)與智能化轉型
華為周躍峰:打破數(shù)據(jù)孤島,提升數(shù)據(jù)基礎設施核心價值,賦能AI發(fā)展
中國鐵塔劉國鋒:筑牢算網(wǎng)底座,完善算力供給,賦能數(shù)字未來
中國廣電曾慶軍:算網(wǎng)融合賦能廣電發(fā)展
精彩專題
2025中國算力大會
ICT產業(yè)2025年中業(yè)績盤點
2025世界人工智能大會暨人工智能全球治理高級別會議
2025中國聯(lián)通合作伙伴大會
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像