受人腦啟發(fā),脈沖神經(jīng)網(wǎng)絡(luò)(SNNs),即第三代神經(jīng)網(wǎng)絡(luò),通過事件驅(qū)動的脈沖提供了節(jié)能計(jì)算的前景。為了為構(gòu)建節(jié)能的大規(guī)模SNN模型提供未來方向,我們對現(xiàn)有深度脈沖神經(jīng)網(wǎng)絡(luò)開發(fā)方法進(jìn)行了綜述,重點(diǎn)介紹了新興的脈沖Transformer:(1)概述了深度脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,按人工神經(jīng)網(wǎng)絡(luò)(ANN)到SNN的轉(zhuǎn)換以及使用替代梯度的直接訓(xùn)練進(jìn)行分類;(2)概述了深度脈沖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu),按深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)和Transformer架構(gòu)進(jìn)行分類;(3)對當(dāng)前最先進(jìn)的深度SNNs進(jìn)行了全面比較,重點(diǎn)分析了新興的脈沖Transformer。最后,我們進(jìn)一步討論并概述了大規(guī)模SNN的未來發(fā)展方向。在過去十年中,深度學(xué)習(xí)取得了顯著成就【1】,在計(jì)算機(jī)視覺【2】、語音識別【3】、自然語言處理(NLP)【4】和圍棋【5】【6】等領(lǐng)域展現(xiàn)了可與甚至超越人類表現(xiàn)的成果。最近,大型語言模型(LLMs),即基于Transformer架構(gòu)【7】的超深神經(jīng)網(wǎng)絡(luò),包含數(shù)千億個參數(shù),吸引了全球的廣泛關(guān)注。受到ChatGPT【8】(一個具備卓越溝通能力的大型語言模型)成功的推動,人工智能(AI)領(lǐng)域在2022年和2023年見證了關(guān)于大規(guī)模神經(jīng)網(wǎng)絡(luò)研究的迅速擴(kuò)展。盡管深度神經(jīng)網(wǎng)絡(luò)(DNNs)展示了強(qiáng)大的潛力,但其對內(nèi)存和計(jì)算資源需求的不斷增加,給DNNs的發(fā)展和應(yīng)用帶來了重大挑戰(zhàn),尤其是在邊緣計(jì)算等資源受限的環(huán)境中。此外,DNNs不斷增長的碳足跡也加劇了全球變暖等環(huán)境問題。例如,GPT-3在訓(xùn)練過程中據(jù)稱消耗了1,287 MWh,而OpenAI每天大約消耗564 MWh來運(yùn)行ChatGPT【9】。相比之下,人類大腦能夠以大約20瓦的功率完成一系列復(fù)雜任務(wù)【10】。為了應(yīng)對深度學(xué)習(xí)的瓶頸,研究人員從人類大腦中汲取靈感,提出了脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)【11】,它們有望實(shí)現(xiàn)高能效計(jì)算。脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)。 不同于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANNs),SNNs由脈沖神經(jīng)元組成,這些神經(jīng)元通過離散的脈沖(事件,值為0或1)而不是連續(xù)值激活來交換信息。利用事件驅(qū)動的計(jì)算模型,SNNs中的脈沖神經(jīng)元只在脈沖到達(dá)時異步更新。此外,與依賴大量乘加(MAC)操作的DNNs相比,SNNs使用更節(jié)能的累加(AC)操作【10】。隨著TrueNorth【12】、Loihi【13】和Darwin【14】等新興神經(jīng)形態(tài)硬件的出現(xiàn),SNNs有望解決馮·諾依曼瓶頸,并通過脈沖驅(qū)動的高度并行處理實(shí)現(xiàn)高能效的機(jī)器智能【15】。

發(fā)展情況

由于脈沖的不連續(xù)性,SNNs的訓(xùn)練一直具有挑戰(zhàn)性,因?yàn)閺?qiáng)大的梯度下降算法無法直接應(yīng)用。早期的工作(如SpikeProp【16】、Tempotron【17】、ReSuMe【18】和無監(jiān)督STDP【19】)中,由于缺乏有效的學(xué)習(xí)算法,SNNs的能力有限。受深度學(xué)習(xí)成功的啟發(fā),自2015年以來,研究人員開發(fā)了基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的各種學(xué)習(xí)算法,在復(fù)雜任務(wù)(如ImageNet分類【20】)中取得了顯著進(jìn)展。最近,受大型語言模型成功的啟發(fā),SNNs研究中出現(xiàn)了一個新趨勢:構(gòu)建基于Transformer架構(gòu)的深度SNNs。由于Transformer模塊是大多數(shù)LLM框架中的關(guān)鍵和恒定部分,結(jié)合脈沖Transformer與神經(jīng)形態(tài)硬件有望在緩解LLM推理的能量瓶頸方面取得重大進(jìn)展,通過實(shí)現(xiàn)大規(guī)模SNN模型。

研究范圍

我們的研究集中于深度神經(jīng)網(wǎng)絡(luò),范圍限于能夠執(zhí)行復(fù)雜任務(wù)(如ImageNet分類【20】)的深度脈沖神經(jīng)網(wǎng)絡(luò)。為此,我們主要考察了兩個備受關(guān)注且極為重要的方面:學(xué)習(xí)規(guī)則和網(wǎng)絡(luò)架構(gòu)。關(guān)于學(xué)習(xí)規(guī)則,我們重點(diǎn)關(guān)注兩種流行的途徑:ANN到SNN的轉(zhuǎn)換和使用替代梯度的直接訓(xùn)練。對于基于局部可塑性規(guī)則(如STDP【21】)構(gòu)建的SNNs(如【22】),請參閱其他綜述【23】。關(guān)于網(wǎng)絡(luò)架構(gòu),我們集中于兩類流行的架構(gòu):DCNNs和脈沖Transformer。

相關(guān)工作

脈沖神經(jīng)網(wǎng)絡(luò),尤其是其訓(xùn)練方法,已經(jīng)成為近期多篇綜述的主題【24】【25】【26】【27】【28】。在文獻(xiàn)【24】中,Yi等人描述了多種SNN的學(xué)習(xí)規(guī)則。Guo等人則側(cè)重于直接學(xué)習(xí)方法,綜述了提高準(zhǔn)確性、提升效率和利用時間動態(tài)的方法。Dampfhoffer等人【26】聚焦于深度SNNs,回顧了ANN到SNN的轉(zhuǎn)換和反向傳播方法,并對空間、時空和單脈沖方法進(jìn)行了分類。同樣,Eshraghian等人【27】探討了SNNs如何利用深度學(xué)習(xí)技術(shù)。在文獻(xiàn)【28】中,Rathi等人提供了對SNNs的系統(tǒng)回顧,涵蓋了算法和硬件。然而,以上綜述中都未涉及新興的脈沖Transformer架構(gòu),而這類架構(gòu)有望實(shí)現(xiàn)大規(guī)模SNN模型。

論文概述

首先,第2.1節(jié)對構(gòu)建深度SNNs的學(xué)習(xí)方法進(jìn)行了綜述。第2.2節(jié)對深度SNNs的網(wǎng)絡(luò)架構(gòu)(如DCNNs和脈沖Transformer)進(jìn)行了綜述。第2.3節(jié)比較了在ImageNet基準(zhǔn)上當(dāng)前最先進(jìn)的深度SNNs。第3節(jié)討論了構(gòu)建大規(guī)模脈沖神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)與未來方向。第4節(jié)提供了總結(jié)。

深度脈沖神經(jīng)網(wǎng)絡(luò)

學(xué)習(xí)規(guī)則

在本節(jié)中,我們將概述深度脈沖神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)規(guī)則,分為兩種常見的方法:ANN到SNN的轉(zhuǎn)換和使用替代梯度的直接訓(xùn)練。

ANN到SNN的轉(zhuǎn)換

ANN到SNN的轉(zhuǎn)換有助于高效利用預(yù)訓(xùn)練模型,使其兼容現(xiàn)有框架,并減少訓(xùn)練和推理過程中的資源需求。這種轉(zhuǎn)換方法促進(jìn)了遷移學(xué)習(xí)和微調(diào),同時增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的生物學(xué)合理性。SNNs固有的稀疏性和事件驅(qū)動處理方式與硬件實(shí)現(xiàn)高度契合,推動了神經(jīng)形態(tài)計(jì)算中的可擴(kuò)展性和能效?;贏NN激活近似SNN發(fā)放率的假設(shè),研究人員提出了多種轉(zhuǎn)換方法,以利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,通過將實(shí)值激活神經(jīng)元映射為離散的脈沖神經(jīng)元來構(gòu)建深度SNN(圖1)。Cao等人【38】最早提出將帶有ReLU激活且無偏置的CNN映射為由積分-發(fā)放(IF)神經(jīng)元組成的SNN。ReLU函數(shù)定義為:

image

image

其中T表示總的時間步數(shù)。為提高轉(zhuǎn)換SNN的性能,Diehl等人【22】檢查了轉(zhuǎn)換過程,報告了脈沖神經(jīng)元的過度/不足激活,這扭曲了ANN激活和SNN發(fā)放率之間的近似。為解決這一問題,他們提出了權(quán)重歸一化和閾值平衡,這在數(shù)學(xué)上是等效的。在文獻(xiàn)【39】中,Rueckauer等人對ANN到SNN的轉(zhuǎn)換進(jìn)行了詳細(xì)分析。他們發(fā)現(xiàn),由于脈沖神經(jīng)元的重置操作,信息丟失嚴(yán)重,并提出使用減法重置或軟重置來替代原來的歸零重置方法。他們進(jìn)一步指出,由于殘余膜電位未被整合到脈沖中的量化問題是導(dǎo)致轉(zhuǎn)換SNN性能下降的主要因素。為解決此問題,他們通過使用激活的第99或99.9百分位數(shù)代替最大值來改進(jìn)權(quán)重歸一化【22】。此外,他們實(shí)現(xiàn)了現(xiàn)代DCNN中的常見操作(如批歸一化)的脈沖版本,促使了更深層CNN的轉(zhuǎn)換。繼【22】和【39】之后,出現(xiàn)了幾種新穎的歸一化方法以減輕轉(zhuǎn)換后的性能退化問題。在【40】中,Sengupta等人提出了一種動態(tài)閾值平衡策略,可以在運(yùn)行時對SNN進(jìn)行歸一化?;凇?0】的工作,Han等人【41】提出根據(jù)IF神經(jīng)元的fan-in和fan-out縮放閾值。Kim等人【42】引入了通道級權(quán)重歸一化,以消除極小的激活值,并實(shí)現(xiàn)了Spiking-YOLO,用于目標(biāo)檢測,它引入了負(fù)脈沖以表示負(fù)激活值。為提高轉(zhuǎn)換SNN的性能,一些有趣的工作在轉(zhuǎn)換后使用了微調(diào)方法。在【29】中,Yan等人提出了一個框架,通過引入SNN中時間量化的知識來調(diào)整預(yù)訓(xùn)練的ANNs。他們在ANN中引入了一個殘差項(xiàng)來模擬SNN中的殘余膜電位,從而減少量化誤差。在【31】中,Wu等人提出了一種名為漸進(jìn)雙學(xué)習(xí)的混合框架,以通過時間量化知識微調(diào)全精度浮點(diǎn)ANNs。為了緩解轉(zhuǎn)換誤差導(dǎo)致的性能下降和推理延遲增加,多個研究進(jìn)一步分析了轉(zhuǎn)換過程,并開發(fā)了促進(jìn)ANN到SNN轉(zhuǎn)換的方法。在【30】中,Hu等人提出通過基于統(tǒng)計(jì)估計(jì)誤差增加深層神經(jīng)元的發(fā)放率來抵消累積誤差。在【32】中,Deng等人建議使用截頂ReLU函數(shù)(如ReLU1和ReLU2)訓(xùn)練ANNs,并通過最大激活值對發(fā)放閾值進(jìn)行歸一化。在【33】中,Li等人引入了逐層校準(zhǔn)來優(yōu)化SNN的權(quán)重,逐層修正轉(zhuǎn)換誤差。與優(yōu)化突觸權(quán)重不同,Bu等人【34】提出通過優(yōu)化初始膜電位來減少轉(zhuǎn)換誤差。在【35】中,Bu等人引入了一種量化截頂-地板-移位激活函數(shù)來替代ReLU,實(shí)現(xiàn)了超低延遲(4個時間步)的轉(zhuǎn)換SNN。通過分析ANN量化與SNN脈沖發(fā)放的等效性,Hu等人【36】提出了一個映射框架,促進(jìn)從量化ANN到SNN的轉(zhuǎn)換。他們還展示了一個帶符號的IF神經(jīng)元模型,并提出了逐層微調(diào)方案以解決低延遲SNN中的順序誤差問題。在【37】中,Li等人提出了一組逐層參數(shù)校準(zhǔn)算法,以應(yīng)對激活不匹配問題。在表1中,我們總結(jié)了ANN到SNN轉(zhuǎn)換方法在CIFAR-10和ImageNet數(shù)據(jù)集上的最新成果。

image

使用替代梯度的直接訓(xùn)練

使用替代梯度直接訓(xùn)練脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)可以通過提供平滑近似來使用標(biāo)準(zhǔn)優(yōu)化算法,如隨機(jī)梯度下降(SGD)或Adam。這簡化了SNNs的端到端學(xué)習(xí)過程,使訓(xùn)練更加便捷。為解決不連續(xù)的脈沖函數(shù),研究人員使用替代梯度(可微函數(shù)的導(dǎo)數(shù))來近似脈沖非線性的導(dǎo)數(shù)。對于深度脈沖神經(jīng)網(wǎng)絡(luò),一種常用方法是將SNN視為具有二進(jìn)制輸出的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),并使用時間反向傳播(BPTT)來訓(xùn)練SNN【27】【62】。類似于RNN中鏈?zhǔn)椒▌t的迭代應(yīng)用,BPTT展開SNN并將梯度從損失函數(shù)傳播到所有后代。例如,突觸權(quán)重可以通過以下規(guī)則更新:

image

image

image

大規(guī)模脈沖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)

在過去十年中,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)【2】在各種應(yīng)用中取得了顯著的成功。基于這些進(jìn)展,深度脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)的開發(fā)也借鑒了DCNNs中的經(jīng)驗(yàn)。最近,基于Transformer架構(gòu)的人工神經(jīng)網(wǎng)絡(luò)(ANNs)【7】在性能上設(shè)立了新標(biāo)桿?;赥ransformer骨干的大型語言模型展示了強(qiáng)大的能力,引發(fā)了神經(jīng)形態(tài)計(jì)算領(lǐng)域的廣泛興趣。因此,結(jié)合Transformer架構(gòu)的SNNs成為了研究熱點(diǎn)。本節(jié)中,我們將深度脈沖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)分為兩類:DCNN架構(gòu)和Transformer架構(gòu)。

DCNN架構(gòu)

在早期的研究中,Cao等人【38】展示了帶有ReLU激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)可以映射為由積分-發(fā)放(IF)神經(jīng)元組成的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)。在這個框架中,人工神經(jīng)網(wǎng)絡(luò)(ANNs)中的卷積和池化操作可以解釋為SNNs中的不同突觸連接模式。因此,SNNs可以看作是具有脈沖神經(jīng)元作為激活函數(shù)的CNN,這為構(gòu)建具有DCNN架構(gòu)的深度SNN鋪平了道路。Esser等人【69】進(jìn)一步展示了批歸一化(BN)可以集成到推理過程中的發(fā)放函數(shù)中。這一發(fā)展促進(jìn)了使用DCNN架構(gòu)構(gòu)建深度SNNs的可能,因?yàn)榕鷼w一化是高效訓(xùn)練DCNNs的常用技術(shù)。因此,像AlexNet【2】、VGG【70】和ResNet【71】這樣的流行ANN架構(gòu)已經(jīng)廣泛應(yīng)用于SNNs中。在深度SNN架構(gòu)的探索中,ResNet架構(gòu)【71】因其有效緩解梯度爆炸/消失問題而受到關(guān)注。在【30】中,Hu等人展示了一種用于轉(zhuǎn)換殘差結(jié)構(gòu)的ANN到SNN轉(zhuǎn)換方法,并報告了與同等深度的普通網(wǎng)絡(luò)相比,ResNet在轉(zhuǎn)換過程中產(chǎn)生的誤差較小。在【67】中,F(xiàn)ang等人提出了脈沖元素級ResNet(SEW-ResNet),該架構(gòu)通過激活-加和方式取代了標(biāo)準(zhǔn)的殘差結(jié)構(gòu),允許脈沖神經(jīng)元發(fā)放正整數(shù)脈沖。雖然這一修改增強(qiáng)了脈沖的表示能力,但也削弱了事件驅(qū)動計(jì)算的優(yōu)勢。在【68】中,Hu等人引入了膜快捷ResNet(MS-ResNet),結(jié)合了ANNs中的預(yù)激活結(jié)構(gòu)。此方法采用了一條快捷路徑,將脈沖神經(jīng)元的全精度膜電位直接傳播到所有后續(xù)的殘差塊。然而,這種ANNs和SNNs的混合結(jié)構(gòu)也減少了事件驅(qū)動計(jì)算的優(yōu)勢。圖3展示了這三種不同的快捷方式實(shí)現(xiàn)。

image

與上述手動設(shè)計(jì)的架構(gòu)相比,一些研究提出使用神經(jīng)架構(gòu)搜索(NAS)來自動發(fā)現(xiàn)SNN的最佳架構(gòu)。Kim等人【72】提出了SNASNet,能夠同時搜索前向和后向連接。Na等人【73】開發(fā)了AutoSNN,一個脈沖感知的NAS框架,旨在有效探索已定義的節(jié)能搜索空間中的SNNs。Yan等人【74】提出將候選架構(gòu)編碼到無分支的脈沖超級網(wǎng)絡(luò)中,以應(yīng)對長時間的搜索問題,并通過突觸操作(SynOps)感知優(yōu)化來減少計(jì)算需求。

Transformer架構(gòu)

受Transformer網(wǎng)絡(luò)優(yōu)異性能的啟發(fā),研究人員提出將Transformer架構(gòu)引入脈沖神經(jīng)網(wǎng)絡(luò)(SNNs),以縮小最先進(jìn)的人工神經(jīng)網(wǎng)絡(luò)(ANNs)與SNNs之間的性能差距。隨著大型語言模型(LLMs)的成功,基于Transformer架構(gòu)的深度SNNs研究已經(jīng)成為神經(jīng)形態(tài)計(jì)算領(lǐng)域的焦點(diǎn)。

1)基礎(chǔ)自注意力機(jī)制:早期的研究通常結(jié)合基于ANN的自注意力模塊和脈沖組件構(gòu)建混合結(jié)構(gòu)。例如,Mueller等人【75】提出了一種使用Rueckauer等人【39】轉(zhuǎn)換方法的脈沖Transformer。Zhang等人【76】提出了用于基于事件的單目標(biāo)跟蹤的脈沖Transformer,使用SNN進(jìn)行特征提取,同時保留實(shí)值Transformer。同樣,Zhang等人【77】開發(fā)了一種模型,將Transformer集成到連續(xù)脈沖流(由脈沖攝像機(jī)生成的)中以估計(jì)單目深度。然而,這些使用基礎(chǔ)自注意力機(jī)制的方法在充分利用SNNs的事件驅(qū)動特性以及減少資源消耗方面面臨挑戰(zhàn)。

2)脈沖自注意力機(jī)制:Zhou等人【78】取得了突破,首次引入脈沖自注意力機(jī)制,并提出了一個框架,即Spikformer,用于構(gòu)建具有Transformer架構(gòu)的深度SNN。與基礎(chǔ)自注意力【7】不同,脈沖自注意力(圖4)摒棄了復(fù)雜的softmax操作,后者難以用脈沖操作替代,而是對Query(Q)、Key(K)和Value(V)的脈沖形式執(zhí)行矩陣點(diǎn)積。在ImageNet上,Spikformer使用Spikformer8-768架構(gòu)和4個時間步達(dá)到了74.81%的準(zhǔn)確率。然而,ANNs和SNNs之間仍然存在性能差距(Transformer-8-512的準(zhǔn)確率為80.80%,而Spikformer-8-512的準(zhǔn)確率為73.38%)。

image

繼【78】之后,一些研究進(jìn)一步探索了脈沖Transformer中自注意力機(jī)制的實(shí)現(xiàn)。在【80】中,Yao等人引入了脈沖驅(qū)動Transformer和脈沖驅(qū)動自注意力(SDSA),該方法僅利用掩碼和加法操作來實(shí)現(xiàn)自注意力機(jī)制。Shi等人【105】提出了雙脈沖自注意力機(jī)制(DSSA),它能夠高效處理多尺度特征圖并兼容SNN。在【104】中,Zhou等人開發(fā)了Q-K注意力機(jī)制,僅采用了兩種脈沖形式的組件:Query(Q)和Key(K)。為增強(qiáng)脈沖Transformer的時空注意力機(jī)制,一些研究提出了時空自注意力機(jī)制。Xu等人【95】提出了具有內(nèi)在可塑性和時空注意力的去噪脈沖Transformer(DISTA),它結(jié)合了神經(jīng)元級和網(wǎng)絡(luò)級的時空注意力機(jī)制。他們還引入了一個非線性去噪層,以減輕計(jì)算出的時空注意力圖中的噪聲信號。Wang等人【88】開發(fā)了時空自注意力(STSA),使脈沖Transformer能夠從時間和空間域中捕獲特征。他們將時空相對位置偏差(STRPB)集成到他們的時空脈沖Transformer(STS-Transformer)中,以注入脈沖的時空位置信息。為了利用頻率表示,F(xiàn)ang等人【114】提出了脈沖小波Transformer(SWformer)。該模型結(jié)合了負(fù)脈沖和一個頻率感知的token混合器(FATM),旨在有效提取空間和頻率特征。

3)提升性能:為了提高網(wǎng)絡(luò)性能,一些研究集中于優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。Zhou等人【93】提出了Spikingformer,它修改了脈沖元素級(SEW)快捷方式【43】,改用膜快捷方式,避免了整數(shù)脈沖。Zhou等人【94】引入了ConvBN-MaxPooling-LIF(CML),以增強(qiáng)深度SNN中的下采樣模塊,與ConvBN-LIF-MaxPooling相比,促進(jìn)了梯度反向傳播。為了進(jìn)一步改進(jìn)Spikformer【78】,Zhou等人【97】開發(fā)了Spikformer V2,結(jié)合了脈沖卷積干(SCS)。類似地,Li等人【100】提出了用于patch嵌入的卷積Tokenizer(CT)模塊。在【98】中,Yao等人引入了Spike-driven Transformer V2,并結(jié)合了一種元架構(gòu)來提高性能和多功能性。Zhang等人【111】提出了脈沖全局-局部融合Transformer(SGLFormer),設(shè)計(jì)用于高效處理全球和局部尺度的信息,并引入了一個新的最大池化模塊和分類頭。

4)降低復(fù)雜性:為減少復(fù)雜性,Wang等人【91】提出了AutoST,這是一種無訓(xùn)練的神經(jīng)架構(gòu)搜索方法,旨在識別最優(yōu)的脈沖Transformer架構(gòu)。通過強(qiáng)調(diào)浮點(diǎn)運(yùn)算量(FLOPs),該方法提供了對模型效率和計(jì)算復(fù)雜性的標(biāo)準(zhǔn)化和客觀評估。Wang等人【82】旨在通過用未參數(shù)化的線性變換(LTs)替代脈沖自注意力,減少Spikformer【78】的時間復(fù)雜度,例如傅里葉和小波變換。為了避免從頭訓(xùn)練的高成本,一些研究采用ANN到SNN的轉(zhuǎn)換方法來構(gòu)建脈沖Transformer。Wang等人【92】提出基于ANN到SNN轉(zhuǎn)換構(gòu)建脈沖Transformer,并結(jié)合量化剪切-移位【35】。為了應(yīng)對Transformer中的非線性機(jī)制(如自注意力和測試時歸一化),Jiang等人【107】提出了時空近似(STA),通過引入新的脈沖操作符和層來近似ANN中的浮點(diǎn)值。

結(jié)論

在本文中,我們回顧了開發(fā)大規(guī)模脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法和架構(gòu)范式,特別關(guān)注了新興的脈沖Transformer。通過深入探討構(gòu)建深度脈沖神經(jīng)網(wǎng)絡(luò)的最先進(jìn)方法,本研究展示了大規(guī)模SNN在實(shí)現(xiàn)節(jié)能型機(jī)器智能系統(tǒng)方面的潛力。我們希望本研究能夠幫助研究人員有效掌握新興脈沖Transformer中使用的核心技術(shù)。我們的研究還識別了開發(fā)大規(guī)模脈沖神經(jīng)網(wǎng)絡(luò)的關(guān)鍵挑戰(zhàn),包括優(yōu)化訓(xùn)練算法、增強(qiáng)模型可擴(kuò)展性等。這些挑戰(zhàn)需要更強(qiáng)大的算法、更大的模型以及對該領(lǐng)域的進(jìn)一步探索。

原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/mM5OQaSYcvLCWg9J7oGbiA

上一篇:

時間序列表示學(xué)習(xí),全面介紹!

下一篇:

DeepSeekMath:挑戰(zhàn)大語言模型的數(shù)學(xué)推理極限
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費(fèi)