簡(jiǎn)介
亞馬遜、谷歌、Meta、微軟、甲骨文和 Akamai 等世界領(lǐng)先的Hyperscaler云數(shù)據(jù)中心公司正在推動(dòng)專(zhuān)為云計(jì)算設(shè)計(jì)的芯片架構(gòu)的快速創(chuàng)新。為了在更小的面積內(nèi)容納更多的計(jì)算能力,同時(shí)降低冷卻成本,這些公司正在采用針對(duì)特定數(shù)據(jù)類(lèi)型和工作負(fù)載進(jìn)行優(yōu)化的異構(gòu)多核架構(gòu)。
這一趨勢(shì)緊隨移動(dòng)設(shè)備的腳步,因?yàn)橐苿?dòng)設(shè)備必須應(yīng)對(duì)狹小的占地面積以及嚴(yán)格的功耗和散熱要求。Quadric 市場(chǎng)營(yíng)銷(xiāo)副總裁 Steve Roddy 指出:"英特爾等行業(yè)巨頭的單片機(jī)幾乎在每個(gè)產(chǎn)品代碼中都有人工智能 NPU。當(dāng)然,人工智能先驅(qū)英偉達(dá)(NVIDIA)長(zhǎng)期以來(lái)一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、shader(CUDA)內(nèi)核和張量?jī)?nèi)核。未來(lái)幾年向芯片組的轉(zhuǎn)變將徹底鞏固這一過(guò)渡?!?
定制架構(gòu)的經(jīng)濟(jì)性
隨著傳統(tǒng)擴(kuò)展的優(yōu)勢(shì)不斷縮小,以及先進(jìn)封裝技術(shù)的成熟(先進(jìn)封裝技術(shù)允許許多以前受限于微粒尺寸的定制功能),每瓦特和每美元性能的競(jìng)爭(zhēng)已進(jìn)入白熱化階段。這導(dǎo)致針對(duì)不同工作負(fù)載進(jìn)行優(yōu)化的定制架構(gòu)激增。
西門(mén)子 EDA IC 市場(chǎng)總監(jiān) Neil Hand 解釋說(shuō):"如今,每個(gè)人都在構(gòu)建自己的架構(gòu),尤其是數(shù)據(jù)中心的參與者,而處理器架構(gòu)很大程度上取決于工作負(fù)載的外觀。與此同時(shí),這些開(kāi)發(fā)人員也在詢問(wèn)加速的最佳途徑是什么”。
一些公司專(zhuān)注于多核并行,而另一些公司則以提高內(nèi)存帶寬為目標(biāo)。許多公司正在為數(shù)據(jù)處理、矩陣運(yùn)算和壓縮/解壓縮等任務(wù)開(kāi)發(fā)專(zhuān)用加速器。
異構(gòu)多核架構(gòu)
由此產(chǎn)生的芯片架構(gòu)是混合了通用 CPU、GPU 和固定功能加速器的異構(gòu)多核設(shè)計(jì)。正如 Synopsys 公司 ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 所描述的那樣:
“它們是異構(gòu)多核架構(gòu),通常是通用 CPU 和 GPU 的混合,具體取決于公司類(lèi)型,因?yàn)樗鼈兤闷渲幸环N。然后是具有固定功能的 RTL 加速器......這些加速器運(yùn)行的應(yīng)用負(fù)載類(lèi)型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)的壓縮/解壓縮、圖形的權(quán)重等。”
為了支持不斷變化的工作負(fù)載要求,許多公司正在采用特定應(yīng)用指令處理器(ASIP),這種處理器可以定制數(shù)據(jù)通路和指令集。
“ASIP允許定制運(yùn)算器,因此數(shù)據(jù)路徑和指令集只能以比普通DSP更有效的方式執(zhí)行有限的一組運(yùn)算,”Verbist說(shuō)?!叭绻憧? GPU,它必須支持各種工作負(fù)載,但不是所有的工作負(fù)載。這就是 ASIP 發(fā)揮作用的地方,它支持靈活性和可編程性。
適應(yīng)人工智能/ML 工作負(fù)載
人工智能和機(jī)器學(xué)習(xí)的興起是這種架構(gòu)多樣性的主要驅(qū)動(dòng)力。Fraunhofer IIS 高效電子學(xué)負(fù)責(zé)人 Andy Heinig 說(shuō):"AI/ML 的需求將加速開(kāi)發(fā)新的特定應(yīng)用架構(gòu)的進(jìn)程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來(lái)解決內(nèi)存問(wèn)題,就能成為這場(chǎng)革命的一部分。如果 CPU 能提供這種新的內(nèi)存架構(gòu),那么 AI/ML 加速器就能成為與 CPU 并駕齊驅(qū)的數(shù)據(jù)中心最佳解決方案。”
Arm正在與AWS、谷歌和微軟等超大規(guī)模廠商直接合作,優(yōu)化其基于Neoverse的AI/ML和高性能計(jì)算解決方案?!癆rm 基礎(chǔ)設(shè)施產(chǎn)品線產(chǎn)品管理高級(jí)總監(jiān) Brian Jeff 說(shuō):”CPU 上推理非常重要,我們看到合作伙伴正在利用我們的 SVE 管道和矩陣數(shù)學(xué)增強(qiáng)功能以及數(shù)據(jù)類(lèi)型來(lái)運(yùn)行推理。
GPT-3 等大型語(yǔ)言模型所需的巨大模型尺寸也推動(dòng)了新的架構(gòu)考慮。Synopsys 首席產(chǎn)品經(jīng)理 Priyank Shukla 解釋說(shuō):
“以 GPT-3 為例,它有 1,750 億個(gè)參數(shù)。每個(gè)參數(shù)的寬度為 2 字節(jié),即 16 位。您需要在 2 個(gè)字節(jié)中存儲(chǔ)如此多的信息--1750 億個(gè)參數(shù),相當(dāng)于 3500 億字節(jié)的內(nèi)存。這些內(nèi)存需要存儲(chǔ)在共享該模型的所有加速器中,而該模型需要放置在加速器的結(jié)構(gòu)中......你需要一個(gè)結(jié)構(gòu),它可以接受這個(gè)更大的模型,然后對(duì)其進(jìn)行處理?!?
這些大型模型的某些部分可以在多個(gè)芯片或機(jī)架上并行處理,而其他部分則必須通過(guò)低延遲訪問(wèn)完整模型來(lái)串行處理。
圖 1 顯示了一個(gè) ML 優(yōu)化服務(wù)器機(jī)架的示例,旨在高效處理此類(lèi)大型模型。
多芯片要求
為了集成所有必要的計(jì)算元件(CPU、GPU、定制加速器、高帶寬內(nèi)存等),同時(shí)管理電源和散熱,多芯片或基于芯片的方法變得重要。
“Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說(shuō):”整個(gè)行業(yè)正處于一個(gè)拐點(diǎn),你不能再回避這個(gè)問(wèn)題?!拔覀?cè)诤笈_(tái)談?wù)撃柖珊汀甋ysMoore’,但設(shè)計(jì)人員必須在 CPU 和 GPU 中增加更多功能,而由于微粒尺寸限制、產(chǎn)量限制等原因,他們根本無(wú)法在一個(gè)芯片中實(shí)現(xiàn)這些功能。多芯片在這里是不可避免的。
多芯片設(shè)計(jì)為分區(qū)、芯片間同步、熱管理和 3D 平面規(guī)劃帶來(lái)了新的挑戰(zhàn)。“卡比爾解釋說(shuō):”你要把一棟單層房屋變成三層或四層??ū葼柦忉屨f(shuō),"但還有其他設(shè)計(jì)挑戰(zhàn)。你不能再忽視散熱問(wèn)題了......如果你在平面規(guī)劃時(shí)不考慮散熱問(wèn)題,你的處理器就會(huì)燒毀。
在最近的 ISSCC 會(huì)議上,Ansys 產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Marc Swinnen 說(shuō):"這些數(shù)據(jù)中心耗電量巨大。我參加了在舊金山舉行的 ISSCC 會(huì)議,我們的展臺(tái)就在英偉達(dá)公司旁邊,英偉達(dá)公司正在展示其人工智能訓(xùn)練箱--一個(gè)裝有八個(gè)芯片、大量風(fēng)扇和散熱片的大箱子。我們問(wèn)它的耗電量有多大,他們說(shuō):'哦,最高時(shí)有 1 萬(wàn)瓦,但平均也有 6000 瓦。'電力真是越來(lái)越瘋狂了。
采用系統(tǒng)方法
為了應(yīng)對(duì)這些多方面的設(shè)計(jì)挑戰(zhàn),需要采用一種全面的系統(tǒng)級(jí)方法,涵蓋指令集、微架構(gòu)、內(nèi)存子系統(tǒng)、互連等。
“Arm 的 Jeff 說(shuō):”完整的系統(tǒng)方法使我們能夠與合作伙伴合作,根據(jù)現(xiàn)代工作負(fù)載和工藝節(jié)點(diǎn)定制 SoC 設(shè)計(jì),同時(shí)利用基于芯片的設(shè)計(jì)方法?!斑@種定制芯片設(shè)計(jì)方法使數(shù)據(jù)中心運(yùn)營(yíng)商能夠優(yōu)化其電力成本和計(jì)算效率。”
西門(mén)子的 Hand 還強(qiáng)調(diào)了系統(tǒng)級(jí)分析和優(yōu)化的重要性:“應(yīng)用的系統(tǒng)級(jí)協(xié)同設(shè)計(jì)已經(jīng)變得非常重要,而且由于高性能計(jì)算不再像以前那樣容易獲得,因此它變得更加容易獲得。這是一個(gè)帶輪子的數(shù)據(jù)中心”。
未來(lái)之路
這種架構(gòu)演變的方向很難預(yù)測(cè),但很明顯,“高性能計(jì)算 ”的定義將繼續(xù)擴(kuò)大。
“一旦你開(kāi)始打破馮-諾依曼架構(gòu),開(kāi)始使用不同的內(nèi)存流,開(kāi)始研究?jī)?nèi)存計(jì)算,它就會(huì)變得非??帷H缓竽銜?huì)說(shuō),'高性能計(jì)算到底意味著什么?
集成硅基光電子技術(shù)、跨機(jī)架的統(tǒng)一內(nèi)存架構(gòu)和非馮-諾依曼計(jì)算模型等因素可能會(huì)從根本上重塑數(shù)據(jù)中心系統(tǒng)拓?fù)浣Y(jié)構(gòu),并重新定義什么是最佳架構(gòu)和性能。
可以肯定的是,隨著全球最大的科技巨頭繼續(xù)進(jìn)行軍備競(jìng)賽,為未來(lái)呈指數(shù)級(jí)增長(zhǎng)的人工智能/移動(dòng)計(jì)算和傳統(tǒng)計(jì)算工作負(fù)載提供領(lǐng)先的性能、效率和可擴(kuò)展性,云數(shù)據(jù)中心芯片設(shè)計(jì)的創(chuàng)新步伐只會(huì)加快。
參考文獻(xiàn)
[1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].