97精品视频共享总站,国产成人免费观看,国产自愉自愉全免费高清

簡介

亞馬遜、谷歌、Meta、微軟、甲骨文和 Akamai 等世界領(lǐng)先的Hyperscaler云數(shù)據(jù)中心公司正在推動專為云計算設(shè)計的芯片架構(gòu)的快速創(chuàng)新。為了在更小的面積內(nèi)容納更多的計算能力，同時降低冷卻成本，這些公司正在采用針對特定數(shù)據(jù)類型和工作負載進行優(yōu)化的異構(gòu)多核架構(gòu)。

這一趨勢緊隨移動設(shè)備的腳步，因為移動設(shè)備必須應(yīng)對狹小的占地面積以及嚴格的功耗和散熱要求。Quadric 市場營銷副總裁 Steve Roddy 指出："英特爾等行業(yè)巨頭的單片機幾乎在每個產(chǎn)品代碼中都有人工智能 NPU。當然，人工智能先驅(qū)英偉達(NVIDIA)長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、shader(CUDA)內(nèi)核和張量內(nèi)核。未來幾年向芯片組的轉(zhuǎn)變將徹底鞏固這一過渡?！?

定制架構(gòu)的經(jīng)濟性

隨著傳統(tǒng)擴展的優(yōu)勢不斷縮小，以及先進封裝技術(shù)的成熟(先進封裝技術(shù)允許許多以前受限于微粒尺寸的定制功能)，每瓦特和每美元性能的競爭已進入白熱化階段。這導(dǎo)致針對不同工作負載進行優(yōu)化的定制架構(gòu)激增。

西門子 EDA IC 市場總監(jiān) Neil Hand 解釋說："如今，每個人都在構(gòu)建自己的架構(gòu)，尤其是數(shù)據(jù)中心的參與者，而處理器架構(gòu)很大程度上取決于工作負載的外觀。與此同時，這些開發(fā)人員也在詢問加速的最佳途徑是什么”。

一些公司專注于多核并行，而另一些公司則以提高內(nèi)存帶寬為目標。許多公司正在為數(shù)據(jù)處理、矩陣運算和壓縮/解壓縮等任務(wù)開發(fā)專用加速器。

異構(gòu)多核架構(gòu)

由此產(chǎn)生的芯片架構(gòu)是混合了通用 CPU、GPU 和固定功能加速器的異構(gòu)多核設(shè)計。正如 Synopsys 公司 ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 所描述的那樣：

“它們是異構(gòu)多核架構(gòu)，通常是通用 CPU 和 GPU 的混合，具體取決于公司類型，因為它們偏好其中一種。然后是具有固定功能的 RTL 加速器......這些加速器運行的應(yīng)用負載類型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)的壓縮/解壓縮、圖形的權(quán)重等。”

為了支持不斷變化的工作負載要求，許多公司正在采用特定應(yīng)用指令處理器(ASIP)，這種處理器可以定制數(shù)據(jù)通路和指令集。

“ASIP允許定制運算器，因此數(shù)據(jù)路徑和指令集只能以比普通DSP更有效的方式執(zhí)行有限的一組運算，”Verbist說。“如果你看 GPU，它必須支持各種工作負載，但不是所有的工作負載。這就是 ASIP 發(fā)揮作用的地方，它支持靈活性和可編程性。

適應(yīng)人工智能/ML 工作負載

人工智能和機器學(xué)習(xí)的興起是這種架構(gòu)多樣性的主要驅(qū)動力。Fraunhofer IIS 高效電子學(xué)負責(zé)人 Andy Heinig 說："AI/ML 的需求將加速開發(fā)新的特定應(yīng)用架構(gòu)的進程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題，就能成為這場革命的一部分。如果 CPU 能提供這種新的內(nèi)存架構(gòu)，那么 AI/ML 加速器就能成為與 CPU 并駕齊驅(qū)的數(shù)據(jù)中心最佳解決方案?！?

Arm正在與AWS、谷歌和微軟等超大規(guī)模廠商直接合作，優(yōu)化其基于Neoverse的AI/ML和高性能計算解決方案。“Arm 基礎(chǔ)設(shè)施產(chǎn)品線產(chǎn)品管理高級總監(jiān) Brian Jeff 說：”CPU 上推理非常重要，我們看到合作伙伴正在利用我們的 SVE 管道和矩陣數(shù)學(xué)增強功能以及數(shù)據(jù)類型來運行推理。

GPT-3 等大型語言模型所需的巨大模型尺寸也推動了新的架構(gòu)考慮。Synopsys 首席產(chǎn)品經(jīng)理 Priyank Shukla 解釋說：

“以 GPT-3 為例，它有 1，750 億個參數(shù)。每個參數(shù)的寬度為 2 字節(jié)，即 16 位。您需要在 2 個字節(jié)中存儲如此多的信息--1750 億個參數(shù)，相當于 3500 億字節(jié)的內(nèi)存。這些內(nèi)存需要存儲在共享該模型的所有加速器中，而該模型需要放置在加速器的結(jié)構(gòu)中......你需要一個結(jié)構(gòu)，它可以接受這個更大的模型，然后對其進行處理。”

這些大型模型的某些部分可以在多個芯片或機架上并行處理，而其他部分則必須通過低延遲訪問完整模型來串行處理。

圖 1 顯示了一個 ML 優(yōu)化服務(wù)器機架的示例，旨在高效處理此類大型模型。

多芯片要求

為了集成所有必要的計算元件(CPU、GPU、定制加速器、高帶寬內(nèi)存等)，同時管理電源和散熱，多芯片或基于芯片的方法變得重要。

“Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說：”整個行業(yè)正處于一個拐點，你不能再回避這個問題?！拔覀冊诤笈_談?wù)撃柖珊汀甋ysMoore’，但設(shè)計人員必須在 CPU 和 GPU 中增加更多功能，而由于微粒尺寸限制、產(chǎn)量限制等原因，他們根本無法在一個芯片中實現(xiàn)這些功能。多芯片在這里是不可避免的。

多芯片設(shè)計為分區(qū)、芯片間同步、熱管理和 3D 平面規(guī)劃帶來了新的挑戰(zhàn)?！翱ū葼柦忉屨f：”你要把一棟單層房屋變成三層或四層?？ū葼柦忉屨f，"但還有其他設(shè)計挑戰(zhàn)。你不能再忽視散熱問題了......如果你在平面規(guī)劃時不考慮散熱問題，你的處理器就會燒毀。

在最近的 ISSCC 會議上，Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說："這些數(shù)據(jù)中心耗電量巨大。我參加了在舊金山舉行的 ISSCC 會議，我們的展臺就在英偉達公司旁邊，英偉達公司正在展示其人工智能訓(xùn)練箱--一個裝有八個芯片、大量風(fēng)扇和散熱片的大箱子。我們問它的耗電量有多大，他們說：'哦，最高時有 1 萬瓦，但平均也有 6000 瓦。'電力真是越來越瘋狂了。

采用系統(tǒng)方法

為了應(yīng)對這些多方面的設(shè)計挑戰(zhàn)，需要采用一種全面的系統(tǒng)級方法，涵蓋指令集、微架構(gòu)、內(nèi)存子系統(tǒng)、互連等。

“Arm 的 Jeff 說：”完整的系統(tǒng)方法使我們能夠與合作伙伴合作，根據(jù)現(xiàn)代工作負載和工藝節(jié)點定制 SoC 設(shè)計，同時利用基于芯片的設(shè)計方法?！斑@種定制芯片設(shè)計方法使數(shù)據(jù)中心運營商能夠優(yōu)化其電力成本和計算效率?！?

西門子的 Hand 還強調(diào)了系統(tǒng)級分析和優(yōu)化的重要性：“應(yīng)用的系統(tǒng)級協(xié)同設(shè)計已經(jīng)變得非常重要，而且由于高性能計算不再像以前那樣容易獲得，因此它變得更加容易獲得。這是一個帶輪子的數(shù)據(jù)中心”。

未來之路

這種架構(gòu)演變的方向很難預(yù)測，但很明顯，“高性能計算 ”的定義將繼續(xù)擴大。

“一旦你開始打破馮-諾依曼架構(gòu)，開始使用不同的內(nèi)存流，開始研究內(nèi)存計算，它就會變得非常酷。然后你會說，'高性能計算到底意味著什么?

集成硅基光電子技術(shù)、跨機架的統(tǒng)一內(nèi)存架構(gòu)和非馮-諾依曼計算模型等因素可能會從根本上重塑數(shù)據(jù)中心系統(tǒng)拓撲結(jié)構(gòu)，并重新定義什么是最佳架構(gòu)和性能。

可以肯定的是，隨著全球最大的科技巨頭繼續(xù)進行軍備競賽，為未來呈指數(shù)級增長的人工智能/移動計算和傳統(tǒng)計算工作負載提供領(lǐng)先的性能、效率和可擴展性，云數(shù)據(jù)中心芯片設(shè)計的創(chuàng)新步伐只會加快。

參考文獻

[1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].

高性能計算芯片的架構(gòu)