近日,「圖靈量子」、上海交大集成量子信息技術(shù)技術(shù)研究中心(IQIT)、上海交大無錫光子芯片研究院(CHIPX)合作發(fā)表創(chuàng)新成果。上海交大金賢敏團(tuán)隊在《自然·通訊》(Nature Communications)上以「High-efficiency reinforcement learning with hybrid architecture photonic integrated circuit」為題發(fā)表最新研究成果,提出了一種新型混合架構(gòu)可編程光子計算芯片,展示了基于光子芯片的強(qiáng)化學(xué)習(xí)(PIC-RL)對鈣鈦礦材料合成任務(wù)的高效求解。文章中提出的PIC-RL框架首次成功實現(xiàn)了在可編程光子計算芯片上的復(fù)雜強(qiáng)化學(xué)習(xí)任務(wù)實驗求解。同時,混合架構(gòu)光子芯片(HyArch PIC)的獨特優(yōu)勢為光子人工智能和光量子計算開辟了新的研究方向。這項研究為深入探索前沿強(qiáng)化學(xué)習(xí)算法以及充分利用光子集成芯片實現(xiàn)先進(jìn)人工智能奠定了基礎(chǔ)。
Nature Communications官網(wǎng)截圖
強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是機(jī)器學(xué)習(xí)的核心范式之一,在構(gòu)建通用學(xué)習(xí)系統(tǒng)(例如ChatGPT等)中發(fā)揮著至關(guān)重要的作用。然而,傳統(tǒng)電子計算機(jī)在模擬強(qiáng)化學(xué)習(xí)模型中智能體與環(huán)境交互的過程中消耗了大量計算資源,對強(qiáng)化學(xué)習(xí)的效率提出了重大挑戰(zhàn)。為了克服這一難題,研究團(tuán)隊提出了一個通用框架,利用光子集成芯片(PIC)來模擬強(qiáng)化學(xué)習(xí)中智能體與環(huán)境的交互,以提高算法效率。該項研究結(jié)果驗證了在光子集成芯片平臺上模擬強(qiáng)化學(xué)習(xí)算法交互的有效性,突顯了其在處理大規(guī)模和復(fù)雜RL任務(wù)中提升計算能力的潛力。
圖1 a) 混合架構(gòu)光子芯片(HyArch PIC)示意圖,由光學(xué)幺正網(wǎng)絡(luò)結(jié)構(gòu)U和光學(xué)點積處理器OCTOPUS組成;
b) 基于光子芯片的強(qiáng)化學(xué)習(xí)(PIC-RL)框架。
研究團(tuán)隊創(chuàng)新設(shè)計的混合架構(gòu)光子芯片(HyArch PIC)在可擴(kuò)展性,多功能性以及高速兼容性方面相較于單一集成光計算架構(gòu)(如SVD網(wǎng)絡(luò)和光學(xué)線性神經(jīng)元架構(gòu))表現(xiàn)出顯著優(yōu)勢。在容錯性方面,HyArch PIC相較于SVD網(wǎng)絡(luò)具有亞指數(shù)級別的優(yōu)勢,進(jìn)而支持大規(guī)模地片上集成。計算表明,當(dāng)采用10GHz的高速薄膜鈮酸鋰電光調(diào)制器作為調(diào)制單元時,128維HyArch PIC的算力能夠超越NVIDIA A100顯卡。將HyArch PIC與高速FPGA和電驅(qū)動器集成在單個開發(fā)板上,形成高度集成的光電計算板卡,提供了巨大的參數(shù)優(yōu)化空間。174個封裝好電學(xué)接口通過「圖靈量子」自主設(shè)計的256通道100kHz驅(qū)動板卡控制,實現(xiàn)了對HyArch PIC上全部87個通道的任意編程重構(gòu)。通過全局參數(shù)優(yōu)化和鏈路校準(zhǔn),HyArch PIC可高精度完成高達(dá)15維光學(xué)點積操作,確保后續(xù)復(fù)雜RL算法在光子芯片上的有效執(zhí)行。
圖2 基于HyArch PIC芯片光電計算系統(tǒng)的實驗展示。
a) 光電集成計算板卡的架構(gòu)展示;b)光電集成計算板卡實物圖;
c) HyArch PIC顯微圖片;d)~g) HyArch PIC的測試結(jié)果。
為了驗證PIC-RL框架的有效性,研究團(tuán)隊首先進(jìn)行了基于懸崖行走環(huán)境(cliff walking)的基準(zhǔn)測試。在Q-learning算法的基礎(chǔ)上,引入相似度獎勵函數(shù)(SRF)相較于恒定獎勵函數(shù)(CRF)實現(xiàn)了訓(xùn)練加速。并且隨著環(huán)境規(guī)模的擴(kuò)大,SRF更顯著地實現(xiàn)了指數(shù)級別的加速效果。
圖3 基于PIC-RL的懸崖行走任務(wù)基準(zhǔn)測試。
為了更深入驗證 PIC-RL 的效率和通用性,上海交大研究團(tuán)隊進(jìn)一步和「圖靈量子」的材料算法專家討論,共同研究了PIC-RL框架在解決實際問題(二維鈣鈦礦材料合成問題)中的應(yīng)用。通過對比原始的Ruddlesden-Popper (RP) 相過渡金屬鈣鈦礦硫?qū)倩顲a?Sn?S?(CSS),研究團(tuán)隊發(fā)現(xiàn),當(dāng)氧元素部分取代硫族陰離子的條件下,衍生產(chǎn)物Ca?Sn?S????O? (CSSOx, x從1到5)表現(xiàn)出更為卓越的光伏性能。類似于高維空間懸崖行走任務(wù),鈣鈦礦材料合成任務(wù)的目標(biāo)是在由所有3472 個CSSOx 衍生結(jié)構(gòu)組成的狀態(tài)空間內(nèi)確定從起始結(jié)構(gòu)到目標(biāo)結(jié)構(gòu)的最佳合成路線。基于高效的PIC-RL框架,研究團(tuán)隊成功地在3472維狀態(tài)空間內(nèi)完成了鈣鈦礦材料合成的強(qiáng)化學(xué)習(xí)任務(wù),并顯著提升了算法效率(56%的提升)。
圖4 基于PIC-RL的鈣鈦礦材料合成任務(wù)求解。
a) RP phase CSSOx晶體結(jié)構(gòu)圖及其向量表示;b) CSSOx鈣鈦礦材料最優(yōu)合成路線;
c) 3472個14維結(jié)構(gòu)相似度計算的實驗與數(shù)值的對比曲線(σ=0.015);
d) PIC-RL的訓(xùn)練曲線(綠),相較于傳統(tǒng)CRF-RL算法(灰)實現(xiàn)了56%的訓(xùn)練加速;
e)3472維狀態(tài)空間中最優(yōu)合成路線的t-SNE表示。
在上述研究過程中,「圖靈量子」的光電硬件研發(fā)團(tuán)隊為集成光電計算板卡的軟硬件開發(fā)提供了關(guān)鍵支持,「圖靈量子」的材料算法專家團(tuán)隊為項目中鈣鈦礦材料合成方案提供了關(guān)鍵的知識支撐以及寶貴的數(shù)據(jù)。上海交通大學(xué)集成量子信息技術(shù)研究中心與「圖靈量子」研發(fā)團(tuán)隊緊密合作,深度推動學(xué)科交叉和融合發(fā)展,是一次產(chǎn)學(xué)研結(jié)合創(chuàng)新的重要典范。
研究團(tuán)隊感謝「圖靈量子」、上海交大無錫光子芯片研究院(CHIPX)與上海交大集成量子信息技術(shù)技術(shù)研究中心(IQIT)的合作。并感謝上海市科委重大項目、國家自然科學(xué)基金重點項、國家重點研發(fā)計劃、上海市教委的大力支持。上海交通大學(xué)集成量子信息技術(shù)研究中心博士李軒坤為論文第一作者,金賢敏教授為論文通訊作者。