必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

昇騰生態(tài)硬核賦能!上交大攻克超長(zhǎng)上下文推理難題,性能大幅躍升

2025年11月26日 16:14CCTIME飛象網(wǎng)

隨著大語(yǔ)言模型在文本分析、智能問(wèn)答等場(chǎng)景的廣泛應(yīng)用,處理1M超長(zhǎng)文本推理時(shí),常常面臨顯存不足、運(yùn)算速度卡頓的行業(yè)痛點(diǎn),嚴(yán)重限制了超長(zhǎng)文本場(chǎng)景的應(yīng)用。近日,上海交通大學(xué)李健教授團(tuán)隊(duì)依托上海交通大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心的算力支持,基于vLLM-Ascend 推理框架研發(fā)出一套針對(duì)超長(zhǎng)上下文推理的稀疏注意力 KV Cache 分層緩存管理系統(tǒng)。在昇騰 AI 軟硬件平臺(tái)的全方位賦能下,該項(xiàng)目成功破解單卡支持超長(zhǎng)上下文推理的顯存與性能雙重難題,同時(shí)大幅提升吞吐量。

項(xiàng)目核心創(chuàng)新在于設(shè)計(jì)了 KV Cache 分級(jí)緩存集成機(jī)制。該機(jī)制先對(duì)推理任務(wù)進(jìn)行實(shí)時(shí)分析,智能識(shí)別Top-K 重要塊并集中算力處理,從源頭提升計(jì)算效率;同時(shí)采用數(shù)據(jù)冷熱分層存儲(chǔ)策略,根據(jù)數(shù)據(jù)訪問(wèn)頻率,將生成數(shù)據(jù)動(dòng)態(tài)劃分為高頻熱數(shù)據(jù)與低頻冷數(shù)據(jù),再針對(duì)性優(yōu)化存儲(chǔ)位置,減少資源浪費(fèi)。這一機(jī)制的落地依托昇騰CANN異構(gòu)計(jì)算架構(gòu)靈活的動(dòng)態(tài)調(diào)度能力,能精準(zhǔn)控制冷熱數(shù)據(jù)在顯存與主存間的流轉(zhuǎn),大幅降低數(shù)據(jù)遷移開銷。最終,該方案實(shí)現(xiàn)單卡流暢處理超過(guò)1M的超長(zhǎng)文本推理任務(wù),系統(tǒng)推理吞吐量超過(guò)39%,徹底突破傳統(tǒng)系統(tǒng)在長(zhǎng)序列處理上的顯存與性能瓶頸。

同時(shí)項(xiàng)目進(jìn)行了元數(shù)據(jù)結(jié)構(gòu)優(yōu)化與緩存機(jī)制設(shè)計(jì),其中數(shù)據(jù)索引與掩碼是關(guān)鍵支撐 —— 通過(guò)精簡(jiǎn)索引結(jié)構(gòu)、合并掩碼維護(hù)步驟,有效減少重復(fù)運(yùn)算,使昇騰NPU算力更集中于注意力計(jì)算與文本生成等核心任務(wù),提升硬件利用效率。相關(guān)優(yōu)化已通過(guò)vLLM-Ascend推理框架靈活集成,保障了技術(shù)方案的順利落地。

目前,該項(xiàng)目源代碼已在 Gitee 社區(qū)中開源,后續(xù)將進(jìn)一步推送到昇騰開源生態(tài),合入GitHub社區(qū) vLLM-Ascend 項(xiàng)目專區(qū)。此次技術(shù)突破,不僅為超長(zhǎng)文本推理提供了高效解決方案,更印證了昇騰生態(tài)在AI創(chuàng)新中的賦能價(jià)值。未來(lái),隨著該系統(tǒng)在更多行業(yè)場(chǎng)景的落地,昇騰將持續(xù)為AI技術(shù)研發(fā)提供算力與技術(shù)保障,推動(dòng)大語(yǔ)言模型在長(zhǎng)文本分析、智能辦公、數(shù)字孿生等千行百業(yè)的深度應(yīng)用,加速人工智能產(chǎn)業(yè)化進(jìn)程。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像