隨著大語言模型在文本分析、智能問答等場景的廣泛應用,處理1M超長文本推理時,常常面臨顯存不足、運算速度卡頓的行業痛點,嚴重限制了超長文本場景的應用。近日,上海交通大學李健教授團隊依托上海交通大學 鯤鵬昇騰科教創新卓越中心的算力支持,基于vLLM-Ascend 推理框架研發出一套針對超長上下文推理的稀疏注意力 KV Cache 分層緩存管理系統。在昇騰 AI 軟硬件平臺的全方位賦能下,該項目成功破解單卡支持超長上下文推理的顯存與性能雙重難題,同時大幅提升吞吐量。

項目核心創新在于設計了 KV Cache 分級緩存集成機制。該機制先對推理任務進行實時分析,智能識別Top-K 重要塊并集中算力處理,從源頭提升計算效率;同時采用數據冷熱分層存儲策略,根據數據訪問頻率,將生成數據動態劃分為高頻熱數據與低頻冷數據,再針對性優化存儲位置,減少資源浪費。這一機制的落地依托昇騰CANN異構計算架構靈活的動態調度能力,能精準控制冷熱數據在顯存與主存間的流轉,大幅降低數據遷移開銷。最終,該方案實現單卡流暢處理超過1M的超長文本推理任務,系統推理吞吐量超過39%,徹底突破傳統系統在長序列處理上的顯存與性能瓶頸。
同時項目進行了元數據結構優化與緩存機制設計,其中數據索引與掩碼是關鍵支撐 —— 通過精簡索引結構、合并掩碼維護步驟,有效減少重復運算,使昇騰NPU算力更集中于注意力計算與文本生成等核心任務,提升硬件利用效率。相關優化已通過vLLM-Ascend推理框架靈活集成,保障了技術方案的順利落地。
目前,該項目源代碼已在 Gitee 社區中開源,后續將進一步推送到昇騰開源生態,合入GitHub社區 vLLM-Ascend 項目專區。此次技術突破,不僅為超長文本推理提供了高效解決方案,更印證了昇騰生態在AI創新中的賦能價值。未來,隨著該系統在更多行業場景的落地,昇騰將持續為AI技術研發提供算力與技術保障,推動大語言模型在長文本分析、智能辦公、數字孿生等千行百業的深度應用,加速人工智能產業化進程。
請輸入留言內容
我要留言
請輸入留言內容
我要留言
確定留言
|
|
學大教育金鑫解讀句象書店五年系統化探索成果4月20日至22日,以“共促全民閱讀 共建書香社會”為主題的第五屆全民閱讀大會在江西南昌舉辦。大會緊扣《..
|
|
|
|
教育的有機革命:連接土地、生活與未來2026年 3月 27日至 29日,首屆2026有機教育大會在成都天府農博園舉行。大會由 SMART度假產業平臺、四川問..
|
|
|
|
AI教育拐點已至:AladdinEdu“AI智學”讓每個學生都將擁有一個專屬導師一名學生在夜里面對課程上的困惑一籌莫展,反復查閱書本、搜索各種網站后,卻仍無法解決心中困惑,更怯于..
|
|
|
|
重慶商務職業學院:“大手拉小手” 共筑青少年科技教育新生態近日,重慶商務職業學院人工智能學院的師生們攜帶無人機、具身智能人形機器人、機器狗、AI繪畫軟件等科技..
|
|
|
|
新質生產力賦能高校教學高質量發展當新質生產力成為推動教育高質量發展的核心引擎,校企協同創新便成為高校人才培養、科研轉化與產業升級的..
|
|
|
|
央央好物兒童閱讀與樂樂趣童書合作簽約儀式成功舉行3月11日,央央好物與榮信文化在京舉辦合作簽約儀式,雙方將在未來就“央央好物兒童閱讀”與樂樂趣童書在..
|
|
|
|
2026年人力資源服務協同發展座談會在昆明成功舉辦2026年2月26日,由東方睿智(北京)國際人力資源有限公司主辦的“鏈接產業·賦能人才——2026年人力資源..
|
|
|
|
深化中越職教交流 以標準服務助力職教出海在WorldSkillsShanghai2026CompetitionPreparationWeek舉辦期間,越南教育與培訓部(MinistryofEducationan..
|
|
|
|
深入推進集成電路產業布局,學大教育戰略投資天數智芯與啟芯領航近日,A股上市企業學大(廈門)教育科技集團股份有限公司(000526.SZ)(以下簡稱“學大教育”“公司”)..
|
|
|
|
趣味賦能素質教育,元蘿卜AI機器人扎根多校課堂人工智能技術日益成熟,其應用場景已延伸至中小學課堂。在政策指引與校內實踐的共同促進下,商湯科技旗下..
|
|
|
首頁
|
紅人堂
|
發布
|
我發的
|
更多
|