4月29日,在中國移動算力網(wǎng)絡(luò)大會-算力網(wǎng)絡(luò)未來產(chǎn)業(yè)暨聯(lián)合體創(chuàng)新論壇上,中國移動重磅發(fā)布《面向超萬卡集群的新型智算技術(shù)白皮書》(簡稱 “白皮書”),國務(wù)院國資委科技創(chuàng)新局副局長賈興元、中國移動副總經(jīng)理高同慶聯(lián)合華為、中興、新華三、中科曙光、浪潮、超聚變等合作伙伴出席發(fā)布儀式,共同見證新型智算技術(shù)邁向新臺階。該白皮書由中國移動研究院專家團(tuán)隊牽頭撰寫,凝聚了中國移動和產(chǎn)業(yè)伙伴在超萬卡集群建設(shè)方面的技術(shù)攻關(guān)和實踐經(jīng)驗,是業(yè)界首部系統(tǒng)性闡述超萬卡集群核心設(shè)計原則和關(guān)鍵技術(shù)的白皮書。
自ChatGPT發(fā)布以來,科技界掀起了一場大模型的競爭熱潮,各行各業(yè)加速從“+AI”向“AI+”轉(zhuǎn)變。隨著模型參數(shù)量從千億邁向萬億,大模型對底層算力提出更高要求。當(dāng)前,智算集群的規(guī)模以千卡為主,且多基于英偉達(dá)GPU構(gòu)建,萬卡甚至超萬卡集群的建設(shè)還處于初級階段,業(yè)界普遍認(rèn)為萬卡集群將有助于進(jìn)一步壓縮大模型訓(xùn)練時間,實現(xiàn)模型能力的快速迭代。基于萬卡集群實現(xiàn)大模型高效的訓(xùn)練,并長期保持訓(xùn)練的穩(wěn)定性,是將大模型訓(xùn)練擴(kuò)展到數(shù)萬張GPU卡上所要面臨的雙重挑戰(zhàn)。
中國工程院鄭緯民院士表示,“基于國產(chǎn)系統(tǒng)構(gòu)建萬卡集群,雖然很難,但很必要”。為了助力國內(nèi)智算設(shè)施向萬卡規(guī)模演進(jìn),本白皮書提出超萬卡集群的五大核心設(shè)計原則:堅持打造極致集群算力、堅持構(gòu)建協(xié)同調(diào)優(yōu)系統(tǒng)、堅持實現(xiàn)長穩(wěn)可靠訓(xùn)練、堅持提供靈活算力供給、堅持推進(jìn)綠色低碳發(fā)展。此外,白皮書進(jìn)一步從集群高能效計算技術(shù)、高性能融合存儲技術(shù)、大規(guī)模服務(wù)器間高可靠網(wǎng)絡(luò)技術(shù)、高容錯高能效平臺技術(shù)和新型智算機(jī)房設(shè)計等五個方面全面闡述了超萬卡集群建設(shè)的核心技術(shù)要求,為國內(nèi)智算基礎(chǔ)設(shè)施的建設(shè)提供技術(shù)建議。
面向未來,中國移動正大力推進(jìn)GPU高速卡間互聯(lián)全向智感OISA、遠(yuǎn)距跨集群訓(xùn)練、自動化分布式訓(xùn)練框架等技術(shù)的快速成熟,為萬卡集群的創(chuàng)新突破打下堅實的基礎(chǔ)。
中國移動踐行央企責(zé)任使命,全面擁抱“AI+”時代,通過白皮書發(fā)布,凝聚產(chǎn)業(yè)共識,與業(yè)界一起應(yīng)對超萬卡集群帶來的前所未有的挑戰(zhàn),共同牽引AI產(chǎn)業(yè)全面升維,助力新質(zhì)生產(chǎn)力動能躍遷。