7月24日,2024可信云大會召開期間,智算云服務(wù)論壇上,天翼云榮獲中國信通院頒發(fā)的“智算工程平臺能力要求標準參編證書”,代表了業(yè)界對天翼云在推動行業(yè)標準制定中所作貢獻及成果的重要肯定,以及對天翼云技術(shù)創(chuàng)新水平的高度認可。會上,天翼云科技有限公司智算產(chǎn)品線資深技術(shù)專家瞿龍發(fā)表演講,介紹了天翼云智算平臺加速大模型應(yīng)用方面的技術(shù)亮點與成功案例。
隨著人工智能技術(shù)的快速發(fā)展,智算成為推動科技進步和產(chǎn)業(yè)發(fā)展的重要力量。為了促進智算技術(shù)的標準化、規(guī)范化發(fā)展,提升我國在全球智算領(lǐng)域的競爭力,推動云上軟件工程能力水平升級,中國信通院聯(lián)合天翼云等產(chǎn)學(xué)研各界共同探討軟件工程和智算領(lǐng)域的前沿技術(shù)、發(fā)展趨勢和應(yīng)用場景,整合優(yōu)質(zhì)資源,凝聚產(chǎn)業(yè)共識,搭建合作橋梁,推進智算云服務(wù)高速高質(zhì)量發(fā)展。在智算工程平臺能力要求標準的制定中,天翼云智能邊緣事業(yè)部慧聚平臺團隊與業(yè)界同仁緊密合作,深度參與了平臺能力要求的制定過程,共同探索智算前沿技術(shù),優(yōu)化智算平臺能力要求,推動產(chǎn)業(yè)落地應(yīng)用,為行業(yè)的規(guī)范化發(fā)展貢獻了智慧與力量。
瞿龍表示,伴隨人工智能技術(shù)迅速發(fā)展,大模型層出不窮,模型的參數(shù)量呈幾何級增長,其所依賴的數(shù)據(jù)集規(guī)模空前龐大,對算力基礎(chǔ)設(shè)施的性能、穩(wěn)定性、運維管理、安全、成本等各方面提出了前所未有的挑戰(zhàn)。
作為云服務(wù)國家隊,天翼云積極布局智算基礎(chǔ)設(shè)施建設(shè),全面升級產(chǎn)品及生態(tài)矩陣,打造了算力互聯(lián)調(diào)度平臺“息壤”、一體化計算加速平臺“云驍”和一站式智算服務(wù)平臺“慧聚”三大智算平臺,以豐富的智算資源供給、強大的智算服務(wù)能力和開放的模型應(yīng)用生態(tài),實現(xiàn)智能算力普惠供應(yīng),為千行百業(yè)數(shù)智化轉(zhuǎn)型發(fā)展賦能。
大模型開發(fā)是涉及軟硬件平臺、算法、應(yīng)用的系統(tǒng)工程。天翼云一站式智算服務(wù)平臺“慧聚”能夠為大模型訓(xùn)練、推理、應(yīng)用提供全棧工具鏈,讓企業(yè)更專注模型升級和應(yīng)用落地。在技術(shù)上,“慧聚”平臺突破分布式存儲優(yōu)化、斷點續(xù)訓(xùn)、推理加速等核心技術(shù)點,大幅提升模型系統(tǒng)效率。其中,分布式存儲優(yōu)化通過引入高速外部存儲,優(yōu)化訓(xùn)練框架異步保存邏輯,顯著降低Checkpoint的保存總耗時;“慧聚”平臺通過實現(xiàn)斷點續(xù)訓(xùn)等技術(shù)能力,實現(xiàn)訓(xùn)練任務(wù)長期穩(wěn)定、高可用運行;此外,“慧聚”從“系統(tǒng)-模型-數(shù)據(jù)”三個層面打造自研大規(guī)模在線推理解決方案,通過全鏈路數(shù)據(jù)感知、模型量化和算子加速、分布式推理框架,有效提升大模型總體推理服務(wù)吞吐量,并使首token時延明顯下降。
基于平臺的強大能力,“慧聚”已經(jīng)實現(xiàn)廣泛落地應(yīng)用,為人工智能模型開發(fā)者、模型提供者等提供堅實助力。今年年初正式啟用的天翼云上海臨港國產(chǎn)萬卡算力池,通過承載“慧聚”平臺,可針對大模型訓(xùn)練微調(diào)場景,提供訓(xùn)推一體化算力服務(wù),實現(xiàn)萬卡資源調(diào)度,全面賦能上海千行百業(yè)。同時,“慧聚”還為中國電信千億參數(shù)星辰大模型提供支撐,助力解決星辰大模型訓(xùn)練和部署中面臨的復(fù)雜性和資源需求問題,加速模型落地與應(yīng)用。
人工智能大模型迅猛發(fā)展,算力基礎(chǔ)設(shè)施也需要不斷進化。面向未來,天翼云將堅持科技創(chuàng)新,深耕智算基礎(chǔ)設(shè)施建設(shè),持續(xù)優(yōu)化產(chǎn)品性能、提升服務(wù)質(zhì)量,并積極牽引云計算行業(yè)標準制定與生態(tài)建設(shè)工作,攜手業(yè)界伙伴共同推動云計算技術(shù)的創(chuàng)新與發(fā)展。
關(guān)鍵詞: