24小時(shí)聯(lián)系電話:18217114652、13661815404
中文
技術(shù)專題
電阻式存儲(chǔ)器為邊緣AI提供了受生物啟發(fā)的架構(gòu)
近年來(lái),在腦啟發(fā)計(jì)算領(lǐng)域的研究活動(dòng)獲得了巨大的發(fā)展。主要原因是試圖超越傳統(tǒng)的馮·諾依曼架構(gòu)的局限性,后者越來(lái)越受存儲(chǔ)器-邏輯通信的帶寬和等待時(shí)間的局限性影響。在神經(jīng)形態(tài)架構(gòu)中,內(nèi)存是分布式的,可以與邏輯共定位。鑒于新的電阻式存儲(chǔ)器技術(shù)可以集成在CMOS工藝的互連層中,因此可以輕松地提供這種可能性。
雖然目前AI部署中的大部分注意力都集中在大型常規(guī)計(jì)算系統(tǒng)中實(shí)現(xiàn)深度學(xué)習(xí)算法,但對(duì)設(shè)備和電路技術(shù)的影響卻是混雜的。盡管先進(jìn)的標(biāo)準(zhǔn)CMOS技術(shù)已用于開發(fā)GPU和特定的電路加速器,但并沒(méi)有真正推動(dòng)使用任何“受生物啟發(fā)”的硬件。新興的電阻式存儲(chǔ)設(shè)備(RRAM)可以打開途徑,由于能夠(感知到)不夠成熟,可以通過(guò)在相對(duì)較低的偏置電壓下調(diào)節(jié)電導(dǎo)來(lái)在納米尺度上模擬生物學(xué)上合理的突觸行為,因此這些方法僅限于研究組。技術(shù)。
但是,這些新設(shè)備可以為將AI大量部署到消費(fèi)和工業(yè)產(chǎn)品中所面臨的主要問(wèn)題之一提供解決方案:能源效率。如果將AI的使用范圍擴(kuò)大,將所有數(shù)據(jù)傳輸?shù)皆?/span>/服務(wù)器系統(tǒng)進(jìn)行分析的能源開銷將很快達(dá)到AI的經(jīng)濟(jì)可行性的極限。此外,對(duì)于自動(dòng)駕駛汽車和工業(yè)控制等實(shí)時(shí)系統(tǒng)而言,如果連接到5G基礎(chǔ)架構(gòu)以處理數(shù)據(jù)的服務(wù)器集中在定義明確的區(qū)域而不是分布在整個(gè)基礎(chǔ)架構(gòu)中,則延遲仍然是一個(gè)問(wèn)題。由于這些原因,并且在歐洲也出于隱私考慮,具有高度節(jié)能的邊緣/使用點(diǎn)的,具有AI的系統(tǒng)將變得越來(lái)越重要,并且可能會(huì)逐步改善本地學(xué)習(xí)能力。
嵌入式AI系統(tǒng)非常適合處理需要實(shí)時(shí)響應(yīng)的數(shù)據(jù),并且在能源是主要問(wèn)題的情況下。如tinyML計(jì)劃的成功所證明的那樣,對(duì)此類系統(tǒng)的興趣正在增長(zhǎng)[1]。當(dāng)處理稀疏,時(shí)域,由傳感器(如麥克風(fēng),激光雷達(dá),超聲波等)生成的數(shù)據(jù)流時(shí),該領(lǐng)域的生物啟發(fā)(即存儲(chǔ)元件還充當(dāng)互連和計(jì)算元件)方法具有額外的優(yōu)勢(shì)。這些系統(tǒng)將然后能夠在模擬域中進(jìn)行大多數(shù)操作,從而避免了耗電,不必要的多次模數(shù)轉(zhuǎn)換以及使用非時(shí)鐘數(shù)據(jù)驅(qū)動(dòng)架構(gòu)來(lái)簡(jiǎn)化數(shù)據(jù)流。僅在信號(hào)脈沖期間沒(méi)有時(shí)鐘和存儲(chǔ)元件中的耗散,在沒(méi)有輸入的情況下會(huì)導(dǎo)致極低的功耗(因此適用于稀疏信號(hào)),并且可能不需要特定的睡眠模式即可獲得電池供電的工作狀態(tài)。而且,非易失性僅在首次上電或系統(tǒng)最終更新時(shí)才需要設(shè)置參數(shù),而在每次上電時(shí)都不需要從外部來(lái)源進(jìn)行傳輸。
但是,使用新型電阻式存儲(chǔ)器不僅限于此類“邊緣”或“生物啟發(fā)”應(yīng)用,還可以使執(zhí)行慢速非易失性高速緩存/快速大容量存儲(chǔ)中間存儲(chǔ)器功能的傳統(tǒng)全數(shù)字時(shí)鐘系統(tǒng)受益神經(jīng)加速器的水平。在這種情況下,好處將是減少快速DRAM和SRAM緩存區(qū)域,同時(shí)仍減少訪問(wèn)大容量存儲(chǔ)的延遲。
生物啟發(fā)式計(jì)算的硬件平臺(tái)
從技術(shù)角度來(lái)看,RRAM由于具有CMOS兼容性,高可伸縮性,強(qiáng)大的耐用性和良好的保留特性,因此是神經(jīng)形態(tài)應(yīng)用的良好候選者。但是,定義大規(guī)?;旌霞缮窠?jīng)形態(tài)系統(tǒng)(具有阻性記憶突觸的CMOS神經(jīng)元)的實(shí)際實(shí)施策略和有用應(yīng)用仍然是一個(gè)困難的挑戰(zhàn)
已經(jīng)提出了諸如相變存儲(chǔ)器(PCM),導(dǎo)電橋RAM(CBRAM)和氧化物RAM(OxRAM)之類的電阻RAM(RRAM)設(shè)備來(lái)模擬生物學(xué)上受突觸功能啟發(fā)的功能,這些功能對(duì)于實(shí)現(xiàn)神經(jīng)形態(tài)硬件至關(guān)重要。在不同類型的模擬突觸特征中,依賴于尖峰時(shí)序的可塑性(STDP)是最常用的一種,但肯定不是唯一的可能性,并且某些可能顯示出對(duì)實(shí)際應(yīng)用的實(shí)現(xiàn)更為有用。
實(shí)施這些思想并驗(yàn)證該方法的電路示例是SPIRIT,由IEDM 2019提出[2]。已實(shí)現(xiàn)的SNN拓?fù)涫菃螌拥?,完全連接的拓?fù)?,其目的是?/span>MNIST數(shù)據(jù)庫(kù)上執(zhí)行推理任務(wù),有10個(gè)輸出神經(jīng)元,每個(gè)類一個(gè)。為了減少突觸的數(shù)量,將圖像縮小到12×12像素(每個(gè)神經(jīng)元144個(gè)突觸)。使用單級(jí)單元(SLC)RRAM實(shí)現(xiàn)突觸,即僅考慮低和高電阻級(jí)別。結(jié)構(gòu)為1T-1R類型,每個(gè)單元帶有一個(gè)訪問(wèn)晶體管。多個(gè)單元并聯(lián)連接以實(shí)現(xiàn)各種重量。在學(xué)習(xí)框架上進(jìn)行的突觸量化實(shí)驗(yàn)表明,介于-4到+4之間的整數(shù)值是分類精度和RRAM數(shù)量之間的良好折衷。由于我們旨在獲得加權(quán)電流,因此必須使用4個(gè)RRAM作為正權(quán)重。對(duì)于負(fù)權(quán)重,也可以使用RRAM對(duì)符號(hào)位進(jìn)行編碼:但是,由于將需要容錯(cuò)三重冗余,因此最好使用4個(gè)附加RRAM來(lái)實(shí)現(xiàn)負(fù)權(quán)重。
“集成與射擊(IF)”模擬神經(jīng)元設(shè)計(jì)是在數(shù)學(xué)等效性的指導(dǎo)下進(jìn)行的,該數(shù)學(xué)等效性是在有監(jiān)督的離線學(xué)習(xí)中使用的tanh激活函數(shù)。規(guī)格如下:(1)突觸重量等于±4的刺激必須產(chǎn)生尖峰;(2)神經(jīng)元必須產(chǎn)生正負(fù)尖峰;(3)它們必須有一個(gè)不應(yīng)期,在此期間它們不能散發(fā)尖峰,但必須繼續(xù)積分。神經(jīng)元是圍繞MOM 200fF電容器設(shè)計(jì)的。使用兩個(gè)比較器將其電壓電平與正閾值和負(fù)閾值進(jìn)行比較。由于必須在RRAM的端子之間以不超過(guò)100mV的電壓降讀取RRAM,因此,為了防止將設(shè)備設(shè)置為LRS,所獲得的電流不能被神經(jīng)元直接積分,因此它們會(huì)被電流注入器復(fù)制。評(píng)估了編程條件的影響,并使用足夠的編程條件來(lái)確保有足夠大的內(nèi)存窗口。放松機(jī)制的確出現(xiàn)在很短的時(shí)間范圍內(nèi)(不到一小時(shí))。因此,分類精度不會(huì)隨時(shí)間降低。還驗(yàn)證了讀取穩(wěn)定性,將高達(dá)800M的峰值發(fā)送到電路。
MNIST數(shù)據(jù)庫(kù)的10K測(cè)試圖像上的分類精度測(cè)得為84%。該值必須與88%的理想模擬獲得的精度進(jìn)行比較,該精度受簡(jiǎn)單的網(wǎng)絡(luò)拓?fù)湎拗疲?/span>1層具有10個(gè)輸出神經(jīng)元)。每個(gè)突觸事件的能量耗散等于3.6 pJ。當(dāng)考慮電路邏輯和SPI接口時(shí),它總計(jì)為180 pJ(可以通過(guò)優(yōu)化通信協(xié)議來(lái)降低它)。測(cè)量表明,圖像分類平均需要136個(gè)輸入峰值(對(duì)于ΔS= 10):每個(gè)輸入所累積的峰值少于一個(gè)峰值,與130nm節(jié)點(diǎn)中的等效形式編碼MAC操作相比,能量增益提高了5倍。能量增益來(lái)自(1)基本操作的輕度(累積,而不是像經(jīng)典編碼中那樣進(jìn)行乘法累加)和(2)由于尖峰編碼而導(dǎo)致的活動(dòng)稀疏性。稀疏性的好處將隨著層數(shù)的增加而增加。
這個(gè)小演示者展示了如何可以與傳統(tǒng)的嵌入式方法相提并論,但功耗卻大大降低了。實(shí)際上,在SNN演示中使用的速率代碼使該實(shí)現(xiàn)等效于經(jīng)典編碼的實(shí)現(xiàn):從經(jīng)典域到尖峰域的代碼轉(zhuǎn)換不會(huì)引起準(zhǔn)確性上的任何損失。但是,從概念驗(yàn)證中使用的簡(jiǎn)單拓?fù)洌磫螌痈兄鳎┛梢越忉?,與使用更大網(wǎng)絡(luò)和更多層的最新深度學(xué)習(xí)模型相比,分類精度略低。為了克服這種差異,目前正在實(shí)施一種更為復(fù)雜的拓?fù)浣Y(jié)構(gòu)(MobileNet類),并且分類精度將相應(yīng)提高,同時(shí)具有相同的能源優(yōu)勢(shì)。
相同的方法將擴(kuò)展到嵌入了麥克風(fēng)或激光雷達(dá)的電路,以本地和實(shí)時(shí)分析數(shù)據(jù)流,從而無(wú)需通過(guò)網(wǎng)絡(luò)傳輸。速率編碼和時(shí)間編碼策略都可以用于優(yōu)化網(wǎng)絡(luò),具體取決于信號(hào)的信息內(nèi)容。最初,學(xué)習(xí)將集中進(jìn)行,并且僅將推理集成到系統(tǒng)中,但是在以后的世代中將引入一定程度的增量學(xué)習(xí)。
利用對(duì)嵌入式AI產(chǎn)品有益的屬性RRAM的另一種方法是使用基于RRAM交叉開關(guān)陣列的模擬架構(gòu)。與傳統(tǒng)的數(shù)字實(shí)現(xiàn)相比,它們可以提供更密集的乘法累加器(MAC)功能實(shí)現(xiàn),在推理和學(xué)習(xí)電路中居于中心。如果采取進(jìn)入時(shí)域并消除時(shí)鐘的進(jìn)一步步驟,則可獲得超出當(dāng)前技術(shù)水平的緊湊型低功率系統(tǒng)。盡管這種方法非常有前途并且受到學(xué)術(shù)界的廣泛研究,但該方法仍未被業(yè)界廣泛接受,這指出了設(shè)計(jì),驗(yàn)證,表征和認(rèn)證模擬異步設(shè)計(jì)的難度,以及擴(kuò)展模擬解決方案的難度。在我們看來(lái),
這些記憶的部分感知困難來(lái)自觀察到的變異性,但這是實(shí)驗(yàn)條件的反映。當(dāng)在300mm內(nèi)工作并且集成過(guò)程更加成熟時(shí),我們觀察到更好的分布,因此我們假設(shè)可變性問(wèn)題可以在工業(yè)化過(guò)程中解決。設(shè)計(jì)工具也即將問(wèn)世,更精確的模型也逐漸可用。溫度變化當(dāng)然會(huì)產(chǎn)生影響,但是這種計(jì)算類型的統(tǒng)計(jì)性質(zhì)及其在推理階段對(duì)參數(shù)變化在某種程度上具有固有的魯棒性,因此其最終影響遠(yuǎn)不如使用社區(qū)的常規(guī)模擬設(shè)計(jì)那么重要。模擬交叉開關(guān)方法的優(yōu)點(diǎn)之一是,當(dāng)施加“零”數(shù)據(jù)時(shí),自動(dòng)沒(méi)有電流。
有些問(wèn)題更為根本。第一個(gè)是功率效率和高度并行性來(lái)自權(quán)衡時(shí)間復(fù)用(工作頻率)與面積的關(guān)系:權(quán)衡有利的網(wǎng)大?。▎?wèn)題或類別數(shù)量)的極限是多少?它如何取決于實(shí)現(xiàn)節(jié)點(diǎn)?另一個(gè)是這些存儲(chǔ)器的可循環(huán)性。雖然對(duì)于推理階段就足夠了,并且可以在初始化階段以可接受的開銷進(jìn)行交叉開關(guān)的編程,但是由于過(guò)多的寫入負(fù)載,使用經(jīng)典的反向傳播方案和迭代次數(shù)的片上學(xué)習(xí)是毫無(wú)疑問(wèn)的。但是,正在探索使用其他學(xué)習(xí)方法的非常有前途的途徑,并有望在未來(lái)幾年內(nèi)提供有效的解決方案。
在引入這種類型的電路之前,可以在常規(guī)實(shí)現(xiàn)中使用RRAM和3D集成等技術(shù)來(lái)以較小的功率預(yù)算和較小的尺寸系數(shù)提供解決方案。如今,用于高度定制化應(yīng)用的FPGA實(shí)現(xiàn),運(yùn)行在MCU或CPU上的純軟件實(shí)現(xiàn),或?qū)S糜?/span>GPU的高度并行多核/加速器(類似于或類似的GPU)用于更通用的應(yīng)用,已成為當(dāng)今的主流。所有這些都可以從本地非易失性存儲(chǔ)器中受益,這可以使FPGA變得更緊湊,為MCU / CPU和多核/加速器芯片提供更優(yōu)化的存儲(chǔ)器層次結(jié)構(gòu)。