一边摸一边桶一边脱免费视频,日本无码一成人免费视频

在剛落幕不久的Hot Chips 32大會上，脫胎于麻省理工學(xué)院的初創(chuàng)公司Lightmatter展示了用于通用AI加速的光子計算測試芯片。該處理器利用硅光子和MEMS技術(shù)，以光速處理矩陣向量乘法，由毫瓦級激光光源供電。據(jù)悉，在相同芯片面積上，光子器件的速度比電子器件快1000倍，而功耗僅有電子器件的1/1000。

Lightmatter于2017年在馬薩諸塞州波士頓市成立，目前有46名員工，已從Google Ventures等投資方處融資3300萬美元，擁有30項專利。作為最早面向AI推理定制光子芯片的公司之一，Lightmatter將于2021年秋季推出其首款商業(yè)產(chǎn)品——搭載光子計算芯片的PCIe卡，專為數(shù)據(jù)中心AI推理工作負(fù)載而設(shè)計。

能效提升20倍，吞吐量提高5倍

得益于硅光子技術(shù)的進(jìn)步，硅芯片上的光傳輸成為可能。光子芯片通過采用與傳統(tǒng)基于晶體管的電子器件完全不同的物理學(xué)原理，可實現(xiàn)更快的性能、更低的能耗。Lightmatter首席執(zhí)行官尼克·哈里斯稱：“我們可以利用現(xiàn)有AI數(shù)據(jù)中心，將能耗降低為原來的1/20，將物理空間減少為原來的1/5?！?

據(jù)他介紹，這只是Lightmatter正在打造的第一代產(chǎn)品，未來還有很長的路線圖。哈里斯強(qiáng)調(diào)，此次展示的測試芯片只是作為其技術(shù)的演示，并不是為了在基準(zhǔn)測試中有出色表現(xiàn)。但他堅持認(rèn)為，在實際應(yīng)用中，該演示芯片仍將擊敗AI加速領(lǐng)域的市場領(lǐng)導(dǎo)者——英偉達(dá)A100 GPU。據(jù)哈里斯介紹，與A100相比，其光子芯片在BERT和ResNet-50推理等工作負(fù)載上可提供20倍的能效和至少5倍的吞吐量。

格芯代工，采用3D封裝堆疊

Lightmatter的芯片由兩個垂直堆疊的芯片組成，整個芯片面積為150平方毫米，兩個裸片均由格芯標(biāo)準(zhǔn)CMOS工藝制造，包含超過十億個FinFET晶體管、數(shù)萬個光子算術(shù)單元和數(shù)百個記錄設(shè)置數(shù)據(jù)轉(zhuǎn)換器。

上方是一個12nm ASIC(Lightmatter副總工程師Carl Ramey在Hot Chips演講時介紹的是14nm ASIC)，用于存儲內(nèi)存和控制下方作為計算引擎的90nm光子芯片裸片。該光子處理器具有64 x 64光子矩陣向量乘積計算器，可在標(biāo)準(zhǔn)數(shù)據(jù)中心工作溫度下運(yùn)行，總延遲時間不到200皮秒(1萬億皮秒=1秒)，比晶體管計算要快幾個數(shù)量級，晶體管計算需要多個時鐘周期。計算引擎由50兆瓦的激光驅(qū)動。哈里斯認(rèn)為，這種低功耗光子計算芯片的優(yōu)勢之一，是可以與控制/內(nèi)存ASIC進(jìn)行3D堆疊?；诰w管的計算芯片會散發(fā)過多的熱量。堆疊的芯片縮短了ASIC上的操作數(shù)存儲區(qū)與光子芯片上的計算元件之間的軌跡線——從數(shù)據(jù)轉(zhuǎn)換器到光子計算引擎的距離不到總路徑的1毫米。反過來，這降低了延遲和功耗。哈里斯說：“這里有一個很好的正反饋循環(huán)”， “節(jié)省功耗使我們堆疊，而堆疊可以節(jié)省更多功耗?！?

更高速度、更低功耗是如何實現(xiàn)的?

Lightmatter光學(xué)計算陣列由DAC和ADC模塊封裝，作為與數(shù)字電路的其余部分的接口。DAC接收數(shù)字輸入信號，將其轉(zhuǎn)換為模擬電壓，并使用該電壓來驅(qū)動激光器(該技術(shù)已在光纖發(fā)射器中廣泛使用)。

來自該激光器的光，在進(jìn)入馬赫曾德爾干涉儀(MZI)后，相干光分為兩束，每半束光的相位調(diào)整不同，將具有不同相位的光束組合會導(dǎo)致相長或相消干涉，從而有效地調(diào)制通過MZI的光的亮度(該調(diào)制可被視為乘法運(yùn)算)。

在波導(dǎo)(承載光的“電線”)相遇之處，信號被有效地加在一起，這是光MAC的基礎(chǔ)。計算陣列輸出的光到達(dá)光電二極管，通過機(jī)械手段實現(xiàn)MZI中的關(guān)鍵操作，改變光的相位。

Lightmatter副總工程師Carl Ramey在Hot Chips演講解釋說，其光子芯片使用了納米光學(xué)機(jī)電系統(tǒng)(NOEMS)。與MEMS器件類似，波導(dǎo)結(jié)構(gòu)通過在下面蝕刻而懸浮，然后通過向其上方和下方的電容器板添加電荷來偏轉(zhuǎn)。這成功地改變了光的相位所需的數(shù)量，并且所需功率極低。

“NOEMS設(shè)備具有一些非常驚人的性能，” Ramey說?！八鼈兊膿p耗極低，靜態(tài)功耗幾乎為零。我們只是將一些電子傾倒到小電容器上，幾乎沒有泄漏——電容足夠小，致動所用的動態(tài)功率也很小。(結(jié)構(gòu))也能以相對較高的速度啟動，最高可達(dá)數(shù)百兆赫?！?

Ramey說，Lightmatter的演示芯片具有64 x 64計算元素，但可以很容易地擴(kuò)大規(guī)模。

據(jù)他介紹：“類似于基于晶體管的脈動陣列，計算量與面積成線性比例關(guān)系，“延遲也隨著陣列的尺寸而縮放。因此，在一個典型的流水線晶體管設(shè)計中，您需要64個時鐘周期來執(zhí)行這些操作，從左到右。我們的延遲也隨陣列尺寸而定，但是速度要快三個數(shù)量級。因此，即使是1000 x 1000的陣列，其延遲也會遠(yuǎn)低于納秒?！?

有趣的是，光子計算陣列消耗的功率與面積的平方根成比例。這是因為功耗主要?dú)w因于數(shù)據(jù)轉(zhuǎn)換。

“當(dāng)我們將每個新元素添加到陣列中時，我們將獲得更高的性能，但是我們只需要付出功率平方根的代價即可?！? Ramey說，“因此，我們制造的芯片越大，實際上它們的效率就越高。這與電子系統(tǒng)有很大不同，電子系統(tǒng)只是線性擴(kuò)展：性能越高，功耗越大?！?

除了與計算相關(guān)的能量外，還有與在芯片周圍移動數(shù)據(jù)有關(guān)的能量(當(dāng)今基于晶體管的大型AI芯片在硅片上移動數(shù)據(jù)可能要消耗50-100W功率)。而通過光學(xué)計算，以光學(xué)方式移動數(shù)據(jù)，意味著不需要電源，從而節(jié)省了很多錢。

結(jié)果是，光子計算設(shè)備的運(yùn)行功耗不到3W，僅是其他計算方法每次推理操作所消耗能量的一小部分。

支持同時執(zhí)行多個AI推理任務(wù)

光子計算的另一個有趣功能是并行處理能力。與光通信中使用的技術(shù)類似，可以將多個獨(dú)立的數(shù)據(jù)流編碼到不同波長的光上，并同時饋入計算引擎。

這意味著光學(xué)計算芯片可以同時執(zhí)行多個AI推理任務(wù)?！斑@是光子計算的一個非常獨(dú)特的特性，” Lightmatter首席執(zhí)行官Nick Harris說，“這意味著您有一個物理資源，一個處理器，但它的作用就像一排處理器?！?

雖然指定的光譜(1310至1600nm)在理論上可以適合至少1000路，但哈里斯說，因激光技術(shù)還不成熟，目前僅支持8路。

結(jié)語：落地將是艱巨的挑戰(zhàn)

據(jù)悉，Lightmatter的目標(biāo)客戶是當(dāng)今的數(shù)據(jù)中心，包括高性能計算等可擴(kuò)展系統(tǒng)。自動駕駛技術(shù)是一個遙遠(yuǎn)的未來發(fā)展方向，不過哈里斯承認(rèn)，進(jìn)入這一領(lǐng)域所需的可靠性工程將是“一項艱巨的任務(wù)”。

Lightmatter具有完整的軟件堆棧，支持TensorFlow、PyTorch、ONNX等機(jī)器學(xué)習(xí)框架。哈里斯說，他們的目標(biāo)是在兩個機(jī)器學(xué)習(xí)框架之間實現(xiàn)即插即用。對于初創(chuàng)企業(yè)而言，首要挑戰(zhàn)之一可能是如何使持懷疑態(tài)度的客戶理解和接受光子計算的整個概念。

如何做到這一點(diǎn)呢?哈里斯回應(yīng)稱：“這是一個艱巨的挑戰(zhàn)”。他介紹道，自1960年代以來的計算歷史上，從來沒有一種技術(shù)取代過電子晶體管做計算，人們已經(jīng)嘗試過，但從未成功?！拔艺J(rèn)為這是您第一次看到它的實現(xiàn)，而我們銷售它的方式就是通過展示它的運(yùn)行?！惫锼拐f。

文章來源：EE Times，AnandTech

用光速跑云端AI推理 美國公司推光子芯片，商業(yè)產(chǎn)品明年見

用光速跑云端AI推理美國公司推光子芯片，商業(yè)產(chǎn)品明年見