鍵.png)
使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API
記憶和學(xué)習(xí)之間的動(dòng)態(tài)相互關(guān)系是智能生物系統(tǒng)的基本標(biāo)志。它使有機(jī)體不僅能夠吸收新知識(shí),而且能夠不斷完善現(xiàn)有能力,使它們能夠熟練地應(yīng)對(duì)不斷變化的環(huán)境條件。這種適應(yīng)性特征與各種時(shí)間尺度相關(guān),包括通過短期可塑性機(jī)制進(jìn)行的長期學(xué)習(xí)和快速短期學(xué)習(xí),突出了生物神經(jīng)系統(tǒng)的復(fù)雜性和適應(yīng)性1–3。從大腦中提取高層次靈感的人工系統(tǒng)的開發(fā)是跨越幾十年的長期科學(xué)追求。雖然早期的嘗試取得了有限的成功,但最新一代的人工智能(AI)算法在許多具有挑戰(zhàn)性的任務(wù)中取得了重大突破。這些任務(wù)包括但不限于根據(jù)人類提供的提示生成圖像和文本4–7復(fù)雜機(jī)器人系統(tǒng)的控制8–10、以及對(duì)國際象棋和圍棋等策略游戲的掌握11 以及這些的多模式融合12。
雖然人工神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域都取得了顯著的進(jìn)步,但在控制神經(jīng)網(wǎng)絡(luò)的能力方面仍有很大的局限性。
像生物大腦一樣不斷學(xué)習(xí)和適應(yīng)13-15。與當(dāng)前的機(jī)器智能模型不同,動(dòng)物可以在整個(gè)生命周期中學(xué)習(xí),這對(duì)穩(wěn)定適應(yīng)不斷變化的環(huán)境至關(guān)重要。這種被稱為終身學(xué)習(xí)的能力仍然是人工智能的一個(gè)重大挑戰(zhàn),人工智能主要優(yōu)化由固定標(biāo)簽數(shù)據(jù)集組成的問題,使其難以概括新任務(wù)或在重復(fù)學(xué)習(xí)迭代中保留信息14。應(yīng)對(duì)這一挑戰(zhàn)是一個(gè)活躍的研究領(lǐng)域,開發(fā)具有終身學(xué)習(xí)能力的人工智能的潛在影響可能會(huì)對(duì)多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響。
在本文中,我們提供了一篇獨(dú)特的綜述,旨在識(shí)別啟發(fā)了當(dāng)前人工智能算法的大腦機(jī)制。為了更好地理解自然智能背后的生物學(xué)過程,第一部分將探索塑造神經(jīng)調(diào)節(jié)的低水平組件,從突觸可塑性到塑造神經(jīng)活動(dòng)的局部和全局動(dòng)力學(xué)的作用。這將與第三部分的人工神經(jīng)網(wǎng)絡(luò)相關(guān),我們將人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)系統(tǒng)進(jìn)行比較和對(duì)比。這將為我們提供一個(gè)邏輯基礎(chǔ),試圖證明為什么大腦可以為AI提供更多,超越當(dāng)前人工模型的繼承。接下來,我們將深入研究模擬這些過程的人工學(xué)習(xí)算法,以提高人工智能系統(tǒng)的能力。最后,我們將討論這些人工智能技術(shù)在現(xiàn)實(shí)世界中的各種應(yīng)用,強(qiáng)調(diào)它們對(duì)機(jī)器人、終身學(xué)習(xí)和神經(jīng)形態(tài)計(jì)算等領(lǐng)域的潛在影響。通過這樣做,我們旨在提供對(duì)生物大腦和人工智能學(xué)習(xí)機(jī)制之間相互作用的全面理解,強(qiáng)調(diào)這種協(xié)同關(guān)系可能帶來的潛在好處。我們希望我們的發(fā)現(xiàn)將鼓勵(lì)新一代大腦啟發(fā)的學(xué)習(xí)算法。
神經(jīng)科學(xué)的一項(xiàng)重大努力旨在確定大腦中學(xué)習(xí)的深層過程。已經(jīng)提出了幾種機(jī)制來解釋不同粒度水平的學(xué)習(xí)的生物學(xué)基礎(chǔ)——從突觸到種群水平的活動(dòng)。
?
圖一 突觸生物神經(jīng)元的長時(shí)程增強(qiáng)(LTP)和抑制(LTD)的圖示。A 突觸連接的突觸前和突觸后神經(jīng)元。B 突觸末端,神經(jīng)元之間的連接點(diǎn)。C 突觸生長(LTP)和突觸減弱(LTD)。D 頂部,神經(jīng)元軸突小丘中的膜電位動(dòng)力學(xué)。底部,突觸前和突觸后棘波。E 描繪LTP和LTD的實(shí)驗(yàn)記錄的尖峰時(shí)間依賴性可塑性曲線
然而,絕大多數(shù)生物學(xué)上看似合理的學(xué)習(xí)模式都具有可塑性的特征,這種可塑性來自于局部和全局事件之間的相互作用16。下面,我們將更詳細(xì)地介紹各種形式的可塑性以及這些過程是如何相互作用的。
突觸可塑性 大腦中的突觸可塑性是指經(jīng)驗(yàn)改變神經(jīng)回路功能的能力。突觸的可塑性具體指基于活動(dòng)的突觸傳遞強(qiáng)度的改變,并且是目前最廣泛研究的大腦適應(yīng)新信息的機(jī)制17,18。(Plasticity in the brain refers to the capacity of experience to modify the function of neural circuits. The plasticity of synapses specifically refers to the modification of the strength of synaptic transmission based on activity and is currently the most widely investigated mechanism by which the brain adapts to new information) 突觸可塑性有兩大類:短期和長期可塑性。短期可塑性在幾十毫秒到幾分鐘的范圍內(nèi)起作用,并且在對(duì)感覺刺激的短期適應(yīng)和短期記憶形成中具有重要作用19。長期可塑性在幾分鐘到更長的時(shí)間內(nèi)起作用,被認(rèn)為是長期行為變化和記憶儲(chǔ)存的主要過程之一20。
神經(jīng)調(diào)節(jié) 除了突觸的可塑性,大腦適應(yīng)新信息的另一個(gè)重要機(jī)制是神經(jīng)調(diào)節(jié)3,21,22。神經(jīng)調(diào)節(jié)是指通過化學(xué)信號(hào)分子(通常稱為神經(jīng)遞質(zhì)或激素)對(duì)神經(jīng)活動(dòng)的調(diào)節(jié)。這些信號(hào)分子可以改變神經(jīng)回路的興奮性和突觸的強(qiáng)度,并對(duì)神經(jīng)功能產(chǎn)生短期和長期影響。已經(jīng)確定了不同類型的神經(jīng)調(diào)節(jié),包括乙酰膽堿、多巴胺和血清張力素,它們與各種功能如注意力、學(xué)習(xí)和情緒有關(guān)23。神經(jīng)調(diào)節(jié)已經(jīng)建議在各種形式的可塑性中發(fā)揮作用,包括短-19和長期可塑性22。
元可塑性 神經(jīng)元根據(jù)活動(dòng)改變其功能和結(jié)構(gòu)的能力是突觸可塑性的特征。發(fā)生在突觸上的這些變化必須精確地組織起來,以便在正確的時(shí)間以正確的數(shù)量發(fā)生變化。這種可塑性的調(diào)節(jié)被稱為元可塑性,或“突觸可塑性的可塑性”,在保護(hù)不斷變化的大腦免于飽和方面起著至關(guān)重要的作用24–26。本質(zhì)上,變塑通過誘導(dǎo)神經(jīng)元或突觸生理狀態(tài)的變化來改變突觸產(chǎn)生可塑性的能力。超可塑性被認(rèn)為是記憶穩(wěn)定性、學(xué)習(xí)和調(diào)節(jié)神經(jīng)興奮性的基本機(jī)制。雖然相似,但化生可以與神經(jīng)調(diào)節(jié)區(qū)分開,在突觸的改變過程中,化生和神經(jīng)調(diào)節(jié)事件經(jīng)常在時(shí)間上重疊。
神經(jīng)發(fā)生 新形成的神經(jīng)整合到現(xiàn)有神經(jīng)回路的過程稱為神經(jīng)發(fā)生。神經(jīng)發(fā)生在胚胎發(fā)育期間最為活躍,但也已知在整個(gè)成年期都會(huì)發(fā)生,特別是在側(cè)腦室的腦室下區(qū)27杏仁核28和海馬結(jié)構(gòu)的齒狀回29。在成年小鼠中,與標(biāo)準(zhǔn)實(shí)驗(yàn)室條件相比,當(dāng)生活在豐富的環(huán)境中時(shí),神經(jīng)發(fā)生被證明增加30。此外,許多環(huán)境因素,如鍛煉31,32和壓力33,34已經(jīng)證明可以改變嚙齒類動(dòng)物海馬體中的神經(jīng)發(fā)生率。總的來說,雖然神經(jīng)發(fā)生在學(xué)習(xí)中的作用還不完全清楚,但它被認(rèn)為在支持大腦中的學(xué)習(xí)中起著重要的作用。
神經(jīng)膠質(zhì)細(xì)胞 神經(jīng)膠質(zhì)細(xì)胞或神經(jīng)膠質(zhì),通過調(diào)節(jié)突觸處的神經(jīng)遞質(zhì)信號(hào),在支持學(xué)習(xí)和記憶中起著至關(guān)重要的作用,突觸是神經(jīng)元之間釋放和接收神經(jīng)遞質(zhì)的小間隙35。星形膠質(zhì)細(xì)胞是一種神經(jīng)膠質(zhì)細(xì)胞,可以釋放和再攝取神經(jīng)遞質(zhì),并對(duì)其進(jìn)行代謝和解毒。這有助于調(diào)節(jié)大腦中神經(jīng)遞質(zhì)的平衡和可用性,這對(duì)正常的大腦功能和學(xué)習(xí)至關(guān)重要36。小膠質(zhì)細(xì)胞是另一種神經(jīng)膠質(zhì)細(xì)胞,也可以調(diào)節(jié)神經(jīng)遞質(zhì)信號(hào),并參與受損組織的重新配對(duì)和再生,這對(duì)學(xué)習(xí)和記憶很重要37。除了修復(fù)和調(diào)節(jié),突觸強(qiáng)度的結(jié)構(gòu)變化需要不同類型的神經(jīng)膠質(zhì)細(xì)胞的參與,其中最不明顯的影響來自星形膠質(zhì)細(xì)胞36。然而,盡管他們的參與至關(guān)重要,我們還沒有完全了解膠質(zhì)細(xì)胞的作用。了解神經(jīng)膠質(zhì)細(xì)胞支持突觸學(xué)習(xí)的機(jī)制是正在進(jìn)行的研究的重要領(lǐng)域。
人工神經(jīng)網(wǎng)絡(luò)和脈沖神經(jīng)網(wǎng)絡(luò)。在過去的幾十年里,人工神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)中發(fā)揮了至關(guān)重要的作用。這些網(wǎng)絡(luò)在解決各種挑戰(zhàn)性問題方面催化了巨大的進(jìn)步。人工智能中許多最令人印象深刻的成就都是通過使用經(jīng)過大量數(shù)據(jù)訓(xùn)練的大型人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。雖然有許多技術(shù)進(jìn)步,但人工智能的許多成就可以用計(jì)算技術(shù)的創(chuàng)新來解釋,如大規(guī)模GPU加速器和數(shù)據(jù)的可訪問性。雖然大規(guī)模人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用帶來了重大的創(chuàng)新,但仍存在許多挑戰(zhàn)。人工神經(jīng)網(wǎng)絡(luò)的一些最緊迫的實(shí)際限制是它們在功耗方面效率不高,并且它們不太擅長處理動(dòng)態(tài)和噪聲數(shù)據(jù)。此外,人工神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)超出其訓(xùn)練周期(例如,在部署期間)的數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)獨(dú)立且同分布(IID)的形式,而沒有時(shí)間,這不能反映信息在時(shí)間和空間上高度相關(guān)的物理現(xiàn)實(shí)。這些缺陷已經(jīng)導(dǎo)致它們的應(yīng)用在大規(guī)模設(shè)置中需要大量的能量38并且也向集成到諸如機(jī)器人和可穿戴設(shè)備的邊緣計(jì)算設(shè)備提出了挑戰(zhàn)39。
從神經(jīng)科學(xué)中尋找解決方案,研究人員一直在探索脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)作為人工神經(jīng)網(wǎng)絡(luò)的替代方案40。SNNs是一類人工神經(jīng)網(wǎng)絡(luò),其設(shè)計(jì)更接近于生物神經(jīng)元的行為。ann和SNNs之間的主要區(qū)別在于SNNs將時(shí)間的概念結(jié)合到它們的通信中。尖峰神經(jīng)元以膜電位的形式積累來自相連(突觸前)神經(jīng)元(或通過感覺輸入)的信息。一旦神經(jīng)元的膜電位超過閾值,它向所有傳出(突觸后)連接發(fā)出一個(gè)二進(jìn)制“尖峰”。盡管尖峰信號(hào)是二進(jìn)制的并且在時(shí)間上是稀疏的,但是理論上已經(jīng)證明它比基于速率的信息表示(例如在人工神經(jīng)網(wǎng)絡(luò)中)包含更多的信息41。此外,建模研究顯示了SNNs的優(yōu)勢,例如更好的能量效率、處理噪聲和動(dòng)態(tài)數(shù)據(jù)的能力,以及更健壯和容錯(cuò)計(jì)算的潛力42。這些益處不僅歸因于其增加的生物合理性,還歸因于脈沖神經(jīng)網(wǎng)絡(luò)的獨(dú)特性質(zhì),其將它們與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)區(qū)分開來。下面描述了一個(gè)簡單的漏積分觸發(fā)神經(jīng)元的工作模型:
盡管有這些潛在的優(yōu)勢,snn仍然處于發(fā)展的早期階段,在它們能夠被更廣泛地使用之前,還有幾個(gè)挑戰(zhàn)需要解決。最緊迫的挑戰(zhàn)之一是如何優(yōu)化這些模型的突觸權(quán)重,因?yàn)閭鹘y(tǒng)的基于反向傳播的人工神經(jīng)網(wǎng)絡(luò)方法由于離散和稀疏的非線性而失敗。不考慮這些挑戰(zhàn),確實(shí)有一些工作突破了現(xiàn)代尖峰網(wǎng)絡(luò)的極限,例如基于大尖峰的SpikeGPT模型43。尖峰模型對(duì)這篇綜述非常重要,因?yàn)樗鼈儤?gòu)成了許多大腦啟發(fā)的學(xué)習(xí)算法的基礎(chǔ)。
Hebbian and spike-timing dependent plasticity。Hebbian和STDP(spike-timing dependent plasticity)是突觸可塑性的兩個(gè)重要模型,在神經(jīng)回路和行為的形成中起著重要作用。唐納德·赫布于1949年首次提出的赫布-邊學(xué)習(xí)規(guī)則44假設(shè)神經(jīng)元之間的突觸在它們相互作用時(shí)得到加強(qiáng),這樣一個(gè)神經(jīng)元的激活會(huì)導(dǎo)致另一個(gè)神經(jīng)元的激活。另一方面,STDP是最近提出的突觸可塑性模型,它考慮了突觸前和突觸后尖峰的精確定時(shí)45 以確定突觸的增強(qiáng)或減弱。人們普遍認(rèn)為,STDP在發(fā)育過程中神經(jīng)回路的形成和完善以及回路對(duì)經(jīng)驗(yàn)的不斷適應(yīng)中起著關(guān)鍵作用。在下面的小節(jié)中,我們將提供hebb學(xué)習(xí)和STDP的基本原理的概述。
Hebbian學(xué)習(xí) Hebbian學(xué)習(xí)基于這樣一種觀點(diǎn),即如果兩個(gè)神經(jīng)元同時(shí)活躍,那么它們之間的突觸強(qiáng)度應(yīng)該增強(qiáng),反之則減弱。赫布認(rèn)為,當(dāng)一個(gè)細(xì)胞“重復(fù)或持續(xù)地參與激發(fā)”另一個(gè)細(xì)胞時(shí),這種增加就會(huì)發(fā)生(有因果關(guān)系)。然而,這一原則往往是相互關(guān)聯(lián)的,如著名的格言“細(xì)胞一起開火,電線在一起”(不同地歸因于sie grid lwel46 或者卡拉·沙茨47)1
Hebbian學(xué)習(xí)通常用作無監(jiān)督學(xué)習(xí)算法,其目標(biāo)是在沒有顯式反饋的情況下識(shí)別輸入數(shù)據(jù)中的模式48。這個(gè)過程的一個(gè)例子是Hopfield網(wǎng)絡(luò),其中通過對(duì)(對(duì)稱的)權(quán)重應(yīng)用Hebbian規(guī)則,大的二進(jìn)制模式可以容易地存儲(chǔ)在全連接的循環(huán)網(wǎng)絡(luò)中49。它還可以適用于監(jiān)督學(xué)習(xí)算法,其中規(guī)則被修改以考慮網(wǎng)絡(luò)的期望輸出。在這種情況下,希伯恩學(xué)習(xí)規(guī)則與指示給定輸入的正確輸出的教導(dǎo)信號(hào)相結(jié)合。
一個(gè)簡單的Hebbian學(xué)習(xí)規(guī)則可以用下面的等式進(jìn)行數(shù)學(xué)描述:
其中▲wij是神經(jīng)元I和神經(jīng)元j之間的權(quán)重變化,η是學(xué)習(xí)速率,神經(jīng)元I中的xi“活動(dòng)”,通常被認(rèn)為是神經(jīng)元放電速率。這條規(guī)則規(guī)定,如果兩個(gè)神經(jīng)元同時(shí)被激活,它們的連接應(yīng)該得到加強(qiáng)。
基本赫比規(guī)則的一個(gè)潛在缺點(diǎn)是它的不穩(wěn)定性。例如,如果xi和xj最初是弱正相關(guān)的,這個(gè)規(guī)則將增加兩者之間的權(quán)重,這將反過來加強(qiáng)相關(guān)性,導(dǎo)致甚至更大的權(quán)重增加,等等。因此,需要某種形式的穩(wěn)定。這可以簡單地通過限制權(quán)重來實(shí)現(xiàn),或者通過更復(fù)雜的規(guī)則來實(shí)現(xiàn),這些規(guī)則考慮了額外的因素,例如突觸前和突觸后活動(dòng)的歷史或者網(wǎng)絡(luò)中其他神經(jīng)元的影響(參見參考文獻(xiàn)50對(duì)于許多這樣的規(guī)則的實(shí)際回顧)。
三因素法則:Hebbian強(qiáng)化學(xué)習(xí) 通過引入關(guān)于獎(jiǎng)勵(lì)的信息,Hebbian學(xué)習(xí)也可以用于強(qiáng)化學(xué)習(xí)。一個(gè)明顯可行的想法是簡單地將Hebbian更新直接乘以獎(jiǎng)勵(lì),如下所示:
R是獎(jiǎng)勵(lì)(對(duì)于這個(gè)時(shí)間步或?qū)τ谡麄€(gè)情節(jié))。不幸的是,這種想法不能產(chǎn)生可靠的強(qiáng)化學(xué)習(xí)。通過注意到如果wij已經(jīng)處于其最佳值,這可以直觀地感覺到,上述規(guī)則仍然會(huì)產(chǎn)生凈變化,從而驅(qū)使wij遠(yuǎn)離最佳值。
更正式地說,正如弗雷莫等人所指出的53,以正確跟蹤輸入、輸出和回報(bào)之間的實(shí)際協(xié)方差,xixjR乘積中的至少一項(xiàng)必須居中,也就是用圍繞其期望值的零均值波動(dòng)代替。一個(gè)可能的解決方案是通過從R中減去一個(gè)基線來計(jì)算回報(bào),這個(gè)基線通常等于這個(gè)試驗(yàn)的R的期望值。雖然有幫助,但實(shí)際上這種解決方案通常是不夠的。
更有效的解決方案是從輸出中去除平均值。這可以通過使神經(jīng)活動(dòng)xj受到偶然的隨機(jī)擾動(dòng)(取自適當(dāng)?shù)牧阒行姆植?來容易地完成,然后在三因子乘積中使用擾動(dòng)xj,而不是原始的突觸后活動(dòng)xj:
這就是Fiete和Seung提出的所謂的“節(jié)點(diǎn)擾動(dòng)”規(guī)則54,55。直觀地說,注意xi xj增量的作用是將未來的XJ響應(yīng)(當(dāng)?shù)窒嗤腦i輸入時(shí))推向擾動(dòng)的方向:如果擾動(dòng)為正,則更大;如果擾動(dòng)為負(fù),則更小。如果R為正,將這一位移乘以R會(huì)將未來的響應(yīng)推向擾動(dòng),如果R為負(fù),則遠(yuǎn)離擾動(dòng)。即使R不為零均值,凈效應(yīng)(在預(yù)期中)仍將驅(qū)使wij向更高的R移動(dòng),盡管方差會(huì)更高。
這個(gè)規(guī)則實(shí)現(xiàn)了加強(qiáng)算法(Williams的原始論文56 實(shí)際上提出了一種算法,這種算法對(duì)于脈沖隨機(jī)神經(jīng)元來說是精確的節(jié)點(diǎn)擾動(dòng)),從而估計(jì)了wij上R的理論梯度。它也可以用生物學(xué)上可行的方式實(shí)現(xiàn),允許循環(huán)網(wǎng)絡(luò)從稀疏、延遲的獎(jiǎng)勵(lì)中學(xué)習(xí)非平凡的認(rèn)知或運(yùn)動(dòng)任務(wù)57。
Spike-timing dependent plasticity (STDP)是突觸可塑性的理論模型,允許神經(jīng)元之間的連接強(qiáng)度根據(jù)其spike電位的相對(duì)時(shí)序進(jìn)行修改。與依賴于突觸前和突觸后神經(jīng)元同時(shí)激活的赫比學(xué)習(xí)規(guī)則不同,STDP考慮了突觸前和突觸后尖峰的精確定時(shí)。具體來說,STDP認(rèn)為,如果一個(gè)突觸前神經(jīng)元恰好在一個(gè)突觸后神經(jīng)元之前激活,那么它們之間的聯(lián)系應(yīng)該得到加強(qiáng)。相反,如果突觸后神經(jīng)元恰好在突觸前神經(jīng)元之前觸發(fā),那么這種連接應(yīng)該會(huì)被削弱。
已經(jīng)在多種生物系統(tǒng)中觀察到STDP,包括新皮層、海馬和小腦。該規(guī)則已被證明在神經(jīng)回路的發(fā)育和可塑性中起著至關(guān)重要的作用,包括學(xué)習(xí)和記憶過程。STDP還被用作開發(fā)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),人工神經(jīng)網(wǎng)絡(luò)是用來模仿大腦的結(jié)構(gòu)和功能的。
STDP的數(shù)學(xué)公式比赫比學(xué)習(xí)規(guī)則更復(fù)雜,并且可以根據(jù)具體的實(shí)現(xiàn)而變化。然而,一個(gè)常見的公式是:
觀點(diǎn),布朗和他的同事引用威廉·詹姆斯的話:“當(dāng)兩個(gè)基本的大腦過程一起或連續(xù)活躍時(shí),其中一個(gè)在重復(fù)出現(xiàn)時(shí),傾向于將其興奮傳播到另一個(gè)。
圖二 人工和類腦學(xué)習(xí)算法之間有很強(qiáng)的相似性。左,頂端,嚙齒動(dòng)物和一群相互連接的神經(jīng)元的圖形描述。中間,嚙齒動(dòng)物正在參與莫里斯水迷宮任務(wù),以測試其學(xué)習(xí)能力。下圖描述了生物突觸前和突觸后錐體神經(jīng)元。右,頂端,具有人工神經(jīng)網(wǎng)絡(luò)策略和調(diào)節(jié)學(xué)習(xí)和控制的批判頭的嚙齒動(dòng)物肌肉骨骼物理模型(參見參考文獻(xiàn)。51)。中間,用于基準(zhǔn)學(xué)習(xí)算法的虛擬迷宮環(huán)境(參考文獻(xiàn)。52)。底部,一種具有正向傳播方程的人工突觸前和突觸后神經(jīng)元。
其中,wij是神經(jīng)元I和神經(jīng)元j之間的權(quán)重變化,t是突觸前和突觸后尖峰之間的時(shí)間差,A+和A分別是增強(qiáng)和抑制的幅度,τ+和τ分別是增強(qiáng)和抑制的時(shí)間常數(shù)。該規(guī)則規(guī)定,兩個(gè)神經(jīng)元之間的連接強(qiáng)度將根據(jù)它們相對(duì)于彼此的尖峰的時(shí)間而增加或減少。
在人工神經(jīng)網(wǎng)絡(luò)中有兩種主要的權(quán)重優(yōu)化方法:錯(cuò)誤驅(qū)動(dòng)的全局學(xué)習(xí)和大腦啟發(fā)的局部學(xué)習(xí)。在第一種方法中,通過將全局誤差驅(qū)動(dòng)到其最小值來修改網(wǎng)絡(luò)權(quán)重。這是通過將誤差分配給每個(gè)權(quán)重并同步每個(gè)權(quán)重之間的修改來實(shí)現(xiàn)的。相比之下,大腦啟發(fā)的局部學(xué)習(xí)算法旨在通過使用局部可用信息修改動(dòng)態(tài)方程的權(quán)重,以更符合生物學(xué)的方式進(jìn)行學(xué)習(xí)。這兩種優(yōu)化方法都有獨(dú)特的優(yōu)點(diǎn)和缺點(diǎn)。在下面的部分中,我們將討論最常用的錯(cuò)誤驅(qū)動(dòng)全局學(xué)習(xí)形式,即反向傳播,然后深入討論大腦啟發(fā)的局部算法。值得一提的是,這兩種方法并不相互排斥,為了補(bǔ)充它們各自的優(yōu)勢,通常會(huì)將它們集成在一起58-61。
反向傳播。反向傳播是一種強(qiáng)大的誤差驅(qū)動(dòng)的全局學(xué)習(xí)方法,它改變神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間連接的權(quán)重,以產(chǎn)生期望的目標(biāo)行為62。這是通過使用定量指標(biāo)(目標(biāo)函數(shù))實(shí)現(xiàn)的,該指標(biāo)描述了給定感覺信息(如視覺輸入、書面文本、機(jī)器人關(guān)節(jié)位置)下的行為質(zhì)量。反向傳播算法包括兩個(gè)階段:前向傳遞和后向傳遞。在前向傳遞中,輸入通過網(wǎng)絡(luò)傳播,然后計(jì)算輸出。在反向傳遞期間,計(jì)算預(yù)測輸出和“真實(shí)”輸出之間的誤差,并且通過將誤差反向傳播通過網(wǎng)絡(luò)來計(jì)算損失函數(shù)相對(duì)于網(wǎng)絡(luò)權(quán)重的梯度。然后,使用諸如隨機(jī)梯度下降的優(yōu)化算法,將這些梯度用于更新網(wǎng)絡(luò)的權(quán)重。這個(gè)過程重復(fù)多次迭代,直到權(quán)重收斂到一組使損失函數(shù)最小的值。
讓我們來看看反向傳播的簡單數(shù)學(xué)解釋。首先,我們定義一個(gè)期望損失函數(shù),它是網(wǎng)絡(luò)輸出和真實(shí)值的函數(shù):
其中y是真實(shí)輸出,y’是網(wǎng)絡(luò)輸出。在這種情況下,我們將最小化平方誤差,但可以很好地優(yōu)化任何平滑和可微分的損失函數(shù)。接下來,我們使用鏈?zhǔn)椒▌t來計(jì)算
相對(duì)于網(wǎng)絡(luò)權(quán)重的損失。設(shè)wl是層l中的神經(jīng)元I和層l + 1中的神經(jīng)元j之間的權(quán)重,并且設(shè)al是層l中的神經(jīng)元I的激活。然后,損失相對(duì)于權(quán)重的梯度由下式給出:
其中,α是學(xué)習(xí)率。通過重復(fù)計(jì)算梯度和更新權(quán)重,網(wǎng)絡(luò)逐漸學(xué)會(huì)最小化損失函數(shù)并做出更準(zhǔn)確的預(yù)測。在實(shí)踐中,梯度下降法通常與將動(dòng)量引入梯度估計(jì)的方法相結(jié)合,這已被證明能顯著提高泛化能力63。
反向傳播令人印象深刻的成就促使神經(jīng)科學(xué)家研究它是否能更好地理解大腦中的學(xué)習(xí)。盡管關(guān)于反向傳播變異是否會(huì)發(fā)生在大腦中仍有爭議64,65很明顯,目前的反向傳播在生物學(xué)上是不合理的。另一種理論認(rèn)為,復(fù)雜的反饋回路或局部活動(dòng)與自上而下信號(hào)的交互作用(第三個(gè)因素)可能支持類似的反向傳播學(xué)習(xí)形式64。
盡管它的性能令人印象深刻,但仍然存在基本的算法挑戰(zhàn),這些挑戰(zhàn)來自于對(duì)網(wǎng)絡(luò)權(quán)重重復(fù)應(yīng)用反向傳播。其中一個(gè)挑戰(zhàn)是一種被稱為災(zāi)難性遺忘的現(xiàn)象,即神經(jīng)網(wǎng)絡(luò)在對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)會(huì)忘記之前學(xué)習(xí)的信息13。當(dāng)網(wǎng)絡(luò)根據(jù)新數(shù)據(jù)進(jìn)行微調(diào)時(shí),或者當(dāng)網(wǎng)絡(luò)根據(jù)一系列任務(wù)進(jìn)行訓(xùn)練而沒有保留從以前的任務(wù)中學(xué)到的知識(shí)時(shí),會(huì)發(fā)生這種情況。災(zāi)難性遺忘是開發(fā)能夠從多樣化和不斷變化的環(huán)境中持續(xù)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的一個(gè)重大障礙。另一個(gè)挑戰(zhàn)是反向傳播需要通過網(wǎng)絡(luò)的所有層反向傳播信息,這在計(jì)算上是昂貴和耗時(shí)的,尤其是對(duì)于非常深的網(wǎng)絡(luò)。這可能會(huì)限制深度學(xué)習(xí)算法的可擴(kuò)展性,并使其難以在有限的計(jì)算資源上訓(xùn)練大型模型。盡管如此,對(duì)于涉及人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用,反向傳播仍然是最廣泛使用和最成功的算法
進(jìn)化和遺傳算法。另一類近年來受到廣泛關(guān)注的全局學(xué)習(xí)算法是進(jìn)化和遺傳算法。這些算法受自然選擇過程的啟發(fā),在人工神經(jīng)網(wǎng)絡(luò)的背景下,旨在通過模擬進(jìn)化過程來優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重。在遺傳算法中66用隨機(jī)權(quán)重初始化一組神經(jīng)網(wǎng)絡(luò),并對(duì)每個(gè)網(wǎng)絡(luò)的特定任務(wù)或問題進(jìn)行評(píng)估。在這項(xiàng)任務(wù)中表現(xiàn)較好的網(wǎng)絡(luò)被選擇出來進(jìn)行繁殖,由此它們產(chǎn)生的后代在權(quán)重上略有變化。這一過程會(huì)重復(fù)幾代的操作類似于進(jìn)化算法,但使用不同的方法來逼近隨機(jī)梯度67,68。這是通過擾動(dòng)權(quán)重并結(jié)合網(wǎng)絡(luò)目標(biāo)函數(shù)性能來更新參數(shù)來實(shí)現(xiàn)的。這導(dǎo)致更全面的搜索在尋找最優(yōu)解時(shí)比像back-這樣的局部搜索方法更有效傳播69。
這些算法的一個(gè)優(yōu)點(diǎn)是它們能夠有效地搜索巨大的參數(shù)空間,使它們適合于具有大量參數(shù)或復(fù)雜搜索空間的問題。此外,它們不需要不同的目標(biāo)函數(shù),這在目標(biāo)函數(shù)難以定義或計(jì)算的情況下是有用的(例如脈沖神經(jīng)網(wǎng)絡(luò))。然而,這些算法也有一些缺點(diǎn)。一個(gè)主要的限制是評(píng)估和發(fā)展大量網(wǎng)絡(luò)所需的高計(jì)算成本。另一個(gè)挑戰(zhàn)是算法可能陷入局部最優(yōu)或收斂過快,導(dǎo)致次優(yōu)解。另外,隨機(jī)突變的使用會(huì)導(dǎo)致學(xué)習(xí)過程中的不穩(wěn)定性和不可預(yù)測性。
無論如何,進(jìn)化和遺傳算法已經(jīng)在各種應(yīng)用中顯示出有希望的結(jié)果,特別是在優(yōu)化不可微和非平凡的參數(shù)空間時(shí)。正在進(jìn)行的研究集中于提高這些算法的效率和可擴(kuò)展性,以及發(fā)現(xiàn)何時(shí)何地使用這些方法代替梯度下降是有意義的。
局部學(xué)習(xí)算法。與要求信息通過整個(gè)網(wǎng)絡(luò)傳播的全局學(xué)習(xí)算法(如反向傳播)不同,局部學(xué)習(xí)算法專注于基于來自附近或突觸連接的神經(jīng)元的局部信息來更新突觸權(quán)重。這些方法經(jīng)常受到生物突觸可塑性的強(qiáng)烈啟發(fā)。正如我們將看到的,通過利用局部學(xué)習(xí)算法,人工神經(jīng)網(wǎng)絡(luò)可以更有效地學(xué)習(xí),并適應(yīng)不斷變化的輸入分布,使它們更適合現(xiàn)實(shí)世界的應(yīng)用。在這一節(jié)中,我們將回顧大腦啟發(fā)的局部學(xué)習(xí)算法的最新進(jìn)展,以及它們在提高人工神經(jīng)網(wǎng)絡(luò)的性能和魯棒性方面的潛力。
反向傳播衍生的局部學(xué)習(xí)。反向傳播衍生的局部學(xué)習(xí)算法是一類試圖模仿反向傳播的數(shù)學(xué)特性。不同于傳統(tǒng)的反向傳播算法,它涉及通過整個(gè)網(wǎng)絡(luò)反向傳播誤差信號(hào),反向傳播導(dǎo)出的局部學(xué)習(xí)算法基于使用反向傳播計(jì)算的局部誤差梯度來更新突觸權(quán)重。這種方法計(jì)算效率高,并允許在線學(xué)習(xí),使其適合于訓(xùn)練數(shù)據(jù)不斷到達(dá)的應(yīng)用。
反向傳播衍生的局部學(xué)習(xí)算法的一個(gè)突出例子是反饋校準(zhǔn)(FA e Feedback Alignment ()算法70,71這用固定的隨機(jī)矩陣代替了反向傳播中使用的權(quán)重傳輸矩陣,允許誤差信號(hào)從直接連接傳播,從而避免了對(duì)反向傳播誤差信號(hào)的需要。反饋校準(zhǔn)的簡單數(shù)學(xué)描述如下:假設(shè)wout是連接網(wǎng)絡(luò)最后一層到輸出的權(quán)重矩陣,而win是連接輸入到第一層的權(quán)重矩陣。在反饋對(duì)準(zhǔn)中,誤差信號(hào)使用固定隨機(jī)矩陣B從輸出傳播到輸入,而不是wout的轉(zhuǎn)置。然后,使用輸入和誤差信號(hào)的乘積來計(jì)算權(quán)重更新,win = ηxz其中x是輸入,η是學(xué)習(xí)速率,z是通過網(wǎng)絡(luò)反向傳播的誤差信號(hào),類似于傳統(tǒng)的反向傳播。
直接反饋校準(zhǔn)71(DFA)通過將輸出層誤差直接連接到每個(gè)隱藏層,與FA相比簡化了權(quán)重傳輸鏈。符號(hào)對(duì)稱(SS)算法類似于FA,除了反饋權(quán)重對(duì)稱地共享符號(hào)。雖然FA在MNIST和CIFAR這樣的小數(shù)據(jù)集上表現(xiàn)出了令人印象深刻的結(jié)果,但它們在ImageNet這樣的大數(shù)據(jù)集上的性能通常是次優(yōu)的72。另一方面,最近的研究表明,即使在大規(guī)模數(shù)據(jù)集上,SS算法也能夠獲得與反向傳播算法相當(dāng)?shù)男阅?3。
資格傳播59,74 (e-prop)擴(kuò)展了脈沖神經(jīng)網(wǎng)絡(luò)反饋校準(zhǔn)的思想,結(jié)合了傳統(tǒng)誤差反向傳播和生物學(xué)似是而非的學(xué)習(xí)規(guī)則的優(yōu)點(diǎn),如脈沖定時(shí)相關(guān)的可塑性(STDP)。對(duì)于每個(gè)突觸,e-prop算法計(jì)算并維護(hù)一個(gè)合格軌跡
輸出神經(jīng)元的誤差,通過使用對(duì)稱的
反饋權(quán)重或通過使用固定的反饋權(quán)重,如在反饋校準(zhǔn)中。e-prop的一個(gè)可能的缺點(diǎn)是,它需要在每個(gè)時(shí)間點(diǎn)的實(shí)時(shí)誤差信號(hào)Lt,因?yàn)樗豢紤]過去的事件,而對(duì)未來的誤差視而不見。特別是,它不能從超出個(gè)人時(shí)間范圍的延遲誤差信號(hào)中學(xué)習(xí)神經(jīng)元(包括短期適應(yīng))59與加強(qiáng)法和節(jié)點(diǎn)擾動(dòng)法相反。
在本參考文獻(xiàn)的工作中75,76 ?;谧罱z傳學(xué)發(fā)現(xiàn)的突觸學(xué)習(xí)規(guī)范理論77神經(jīng)元信號(hào)傳遞結(jié)構(gòu)的研究。他們提出,神經(jīng)元通過細(xì)胞類型特異性的局部神經(jīng)調(diào)節(jié)將它們對(duì)學(xué)習(xí)結(jié)果的貢獻(xiàn)傳達(dá)給附近的神經(jīng)元,并且神經(jīng)元類型多樣性和神經(jīng)元類型特異性的局部神經(jīng)調(diào)節(jié)可能是生物學(xué)分分配難題的關(guān)鍵部分。在這項(xiàng)工作中,作者建立了一個(gè)基于eligibility propagation的簡化計(jì)算模型來探索這一理論,并表明他們的模型,包括多巴胺樣時(shí)間差和神經(jīng)肽樣局部調(diào)節(jié)信號(hào),導(dǎo)致了對(duì)先前方法如e-prop和反饋校準(zhǔn)的改進(jìn)。
泛化屬性 深度學(xué)習(xí)中的泛化屬性技術(shù)在理解其學(xué)習(xí)算法的泛化方面取得了巨大的進(jìn)步。一個(gè)特別有用的發(fā)現(xiàn)是平坦的極小值傾向于導(dǎo)致更好的一般化78。這意味著,給定參數(shù)空間(突觸權(quán)重值)中的擾動(dòng)?,在更窄的最小值附近觀察到更顯著的性能下降。在參數(shù)空間中找到更平坦的最小值的學(xué)習(xí)算法最終導(dǎo)致更好的泛化。
最近的工作已經(jīng)探索了由(大腦啟發(fā)的)反向傳播導(dǎo)出的局部學(xué)習(xí)規(guī)則所表現(xiàn)出的泛化特性79。與通過時(shí)間的反向傳播相比,反向傳播導(dǎo)出的局部學(xué)習(xí)規(guī)則表現(xiàn)出更差和更多變量的泛化,由于梯度近似與真實(shí)梯度不太一致,這種泛化不能通過縮放步長來改善。雖然優(yōu)化過程的局部近似比它們的完整對(duì)應(yīng)物具有更差的泛化屬性可能不足為奇,但這項(xiàng)工作為提出新的問題打開了大門,即設(shè)計(jì)大腦啟發(fā)的學(xué)習(xí)算法的最佳方法是什么。這也提出了一個(gè)問題,即反向傳播衍生的局部學(xué)習(xí)規(guī)則是否值得探索,因?yàn)樗鼈儚母旧蟻碚f將表現(xiàn)出低于標(biāo)準(zhǔn)的一般化。
總之,雖然反向傳播衍生的局部學(xué)習(xí)規(guī)則作為設(shè)計(jì)大腦啟發(fā)的學(xué)習(xí)算法的一種有前途的方法出現(xiàn),但它們具有必須解決的局限性。這些算法的通用性差,突出了進(jìn)一步研究的需要,以提高它們的性能,并探索替代的大腦啟發(fā)的學(xué)習(xí)規(guī)則。這也提出了一個(gè)問題,即反向傳播衍生的局部學(xué)習(xí)規(guī)則是否值得探索,因?yàn)樗鼈兓旧蠒?huì)表現(xiàn)出低于標(biāo)準(zhǔn)的泛化能力。
元優(yōu)化可塑性規(guī)則。元優(yōu)化的可塑性規(guī)則在錯(cuò)誤驅(qū)動(dòng)的全局學(xué)習(xí)和大腦啟發(fā)的局部學(xué)習(xí)之間提供了有效的平衡。元學(xué)習(xí)可以被定義為自動(dòng)搜索學(xué)習(xí)算法本身,而不是依賴人類工程學(xué)為了描述一個(gè)學(xué)習(xí)算法,采用了一個(gè)尋找該算法的搜索過程80。元學(xué)習(xí)的思想自然延伸到大腦啟發(fā)的學(xué)習(xí)算法,這樣大腦啟發(fā)的學(xué)習(xí)機(jī)制本身可以被優(yōu)化,從而允許發(fā)現(xiàn)更有效的學(xué)習(xí),而無需手動(dòng)調(diào)整規(guī)則。在接下來的部分,我們將從可微分優(yōu)化的突觸可塑性規(guī)則開始,討論這一研究的各個(gè)方面。
可微分可塑性 在文獻(xiàn)中這一原理的一個(gè)實(shí)例是可微分可塑性,它是一個(gè)框架,專注于通過梯度下降優(yōu)化神經(jīng)網(wǎng)絡(luò)中的突觸可塑性規(guī)則81,82。在這些規(guī)則中,塑性規(guī)則以這樣的方式描述,即控制其動(dòng)力學(xué)的參數(shù)是可微的,允許反向傳播用于塑性規(guī)則參數(shù)的元優(yōu)化(例如,簡單赫比規(guī)則中的η項(xiàng)或STDP規(guī)則中的A+項(xiàng))。這允許權(quán)重動(dòng)態(tài)精確地解決需要在執(zhí)行時(shí)間期間優(yōu)化權(quán)重的任務(wù),這被稱為壽命內(nèi)學(xué)習(xí)。
可微分的可塑性規(guī)則也能夠?qū)ι窠?jīng)調(diào)節(jié)動(dòng)力學(xué)進(jìn)行可微分的優(yōu)化60,82。這個(gè)框架包括神經(jīng)調(diào)制的兩個(gè)主要變體:全局神經(jīng)調(diào)制,其中權(quán)重變化的方向和幅度由網(wǎng)絡(luò)輸出相關(guān)的全局參數(shù)控制,以及追溯神經(jīng)調(diào)制,其中過去活動(dòng)的效果由短時(shí)間窗口內(nèi)的多巴胺樣信號(hào)調(diào)制。這是通過使用資格跟蹤來實(shí)現(xiàn)的,資格跟蹤用于跟蹤哪些突觸促成了最近的活動(dòng),多巴胺信號(hào)調(diào)節(jié)這些跟蹤到實(shí)際塑性變化的轉(zhuǎn)換。
涉及可微可塑性的方法在順序聯(lián)想任務(wù)的廣泛應(yīng)用中得到了改進(jìn)83熟悉度檢測84和機(jī)器人噪音適應(yīng)60。這種方法也被用來優(yōu)化短期塑性規(guī)則84,85其在強(qiáng)化和時(shí)間監(jiān)督學(xué)習(xí)問題中表現(xiàn)出改進(jìn)的性能。雖然這些方法顯示出很大的前景,但不同的可塑性方法需要大量的內(nèi)存,因?yàn)榉聪騻鞑ビ糜陔S時(shí)間優(yōu)化每個(gè)突觸的多個(gè)參數(shù)。這些方法的實(shí)際進(jìn)展可能需要參數(shù)共享86 或者更節(jié)省內(nèi)存的反向傳播形式87。
脈沖神經(jīng)元的可塑性 最近在通過具有替代梯度的脈沖神經(jīng)元的不可微分部分反向傳播方面的進(jìn)展已經(jīng)允許使用不同的可塑性來優(yōu)化脈沖神經(jīng)網(wǎng)絡(luò)中的可塑性規(guī)則60。參考文獻(xiàn)。61這種優(yōu)化范例的能力通過使用可微分的尖峰時(shí)間相關(guān)的可塑性規(guī)則來展示,以在在線單次連續(xù)學(xué)習(xí)問題和在線單次圖像類別識(shí)別問題上實(shí)現(xiàn)“學(xué)會(huì)學(xué)習(xí)”。類似的方法被用來優(yōu)化第三個(gè)因子信號(hào)使用e-prop的梯度近似作為塑性規(guī)則,引入e-prop的元優(yōu)化形式88。由進(jìn)化調(diào)整的遞歸神經(jīng)網(wǎng)絡(luò)也可以用于元優(yōu)化的學(xué)習(xí)規(guī)則。進(jìn)化神經(jīng)單元89 (枚舉)引入門控結(jié)構(gòu),控制如何處理、存儲(chǔ)輸入和更新動(dòng)態(tài)參數(shù)。這項(xiàng)工作證明了單個(gè)神經(jīng)元體細(xì)胞和突觸間隔模型的進(jìn)化,并表明神經(jīng)元網(wǎng)絡(luò)可以學(xué)習(xí)解決T-迷宮環(huán)境任務(wù),獨(dú)立發(fā)現(xiàn)脈沖動(dòng)力學(xué)和強(qiáng)化型學(xué)習(xí)規(guī)則。
Plasticity in RNNs and Transformers 獨(dú)立于旨在使用更新規(guī)則學(xué)習(xí)可塑性的研究,變壓器最近被證明是良好的終生學(xué)習(xí)者5,90,91。情境學(xué)習(xí)的過程不是通過更新突觸權(quán)重來進(jìn)行的,而是純粹在網(wǎng)絡(luò)激活中進(jìn)行的。像變形金剛一樣,這個(gè)過程也可能發(fā)生在遞歸神經(jīng)網(wǎng)絡(luò)中92。雖然情境學(xué)習(xí)似乎是一種不同于突觸可塑性的機(jī)制,但這些過程已被證明表現(xiàn)出很強(qiáng)的相關(guān)性。文獻(xiàn)中討論的一個(gè)令人興奮的聯(lián)系是認(rèn)識(shí)到元學(xué)習(xí)者的參數(shù)共享經(jīng)常導(dǎo)致將激活解釋為權(quán)重93。這表明,雖然這些模型可能具有固定的權(quán)重,但它們表現(xiàn)出與具有塑料權(quán)重的模型相同的學(xué)習(xí)能力。另一個(gè)聯(lián)系是,變形金剛中的自我關(guān)注包括外部和內(nèi)部產(chǎn)品,它們可以被轉(zhuǎn)換為學(xué)習(xí)到的重量更新94甚至可以實(shí)現(xiàn)梯度下降95,96。
進(jìn)化和遺傳元優(yōu)化 很像可微塑性,進(jìn)化和遺傳算法已被用于優(yōu)化各種應(yīng)用的塑性規(guī)則的參數(shù)97,包括:適應(yīng)機(jī)器人系統(tǒng)的肢體損傷98,99。最近的工作還通過使用笛卡爾遺傳程序優(yōu)化了塑性系數(shù)和塑性規(guī)則方程100,提出了一種基于正在解決的特定任務(wù)來發(fā)現(xiàn)生物學(xué)上的可塑性規(guī)則的自動(dòng)化方法。在這些方法中,遺傳或進(jìn)化優(yōu)化過程類似于微分過程,使得它在外環(huán)過程中優(yōu)化可塑性參數(shù),而可塑性規(guī)則在內(nèi)環(huán)過程中優(yōu)化回報(bào)。這些方法是有吸引力的,因?yàn)榕c可微分方法相比,它們具有低得多的內(nèi)存足跡,因?yàn)樗鼈儾恍枰S時(shí)間反向傳播誤差。然而,雖然內(nèi)存效率高,但它們通常需要大量數(shù)據(jù)才能獲得與基于梯度的方法相當(dāng)?shù)男阅?01。
自我參照元學(xué)習(xí) 突觸可塑性有兩個(gè)層次的學(xué)習(xí),元學(xué)習(xí)者和發(fā)現(xiàn)的學(xué)習(xí)規(guī)則,自我參照元學(xué)習(xí)102,103擴(kuò)展了這種層次結(jié)構(gòu)。在可塑性方法中,僅更新網(wǎng)絡(luò)參數(shù)的子集(例如突觸權(quán)重),而元學(xué)習(xí)更新規(guī)則在元優(yōu)化后保持固定。
圖3 前饋神經(jīng)網(wǎng)絡(luò)通過向下游傳播輸入信息來計(jì)算給定輸入的輸出。輸出的精確值由突觸系數(shù)的權(quán)重決定。為了在給定輸入的情況下提高任務(wù)的輸出,突觸權(quán)重被修改。突觸可塑性算法*代表了一種計(jì)算模型,它模擬了大腦根據(jù)神經(jīng)元的活動(dòng)來加強(qiáng)或削弱突觸(神經(jīng)元之間的連接)的能力,從而促進(jìn)學(xué)習(xí)和記憶的形成。三因素可塑性*指的是一種突觸可塑性模型,其中神經(jīng)連接強(qiáng)度的變化由三個(gè)因素決定:突觸前活動(dòng)、突觸后活動(dòng)和調(diào)節(jié)信號(hào),促進(jìn)了更細(xì)致和適應(yīng)性更強(qiáng)的學(xué)習(xí)過程。反饋校準(zhǔn)算法*是一種學(xué)習(xí)技術(shù),其中使用隨機(jī)的、固定的反饋連接而不是對(duì)稱的權(quán)重矩陣來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),證明了成功的學(xué)習(xí)可以在沒有精確的反向傳播的情況下發(fā)生。反向傳播是機(jī)器學(xué)習(xí)和人工智能中的基本算法,用于通過計(jì)算損失函數(shù)相對(duì)于網(wǎng)絡(luò)中權(quán)重的梯度來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
自引用架構(gòu)使神經(jīng)網(wǎng)絡(luò)能夠以遞歸方式修改其所有參數(shù)。因此,學(xué)習(xí)者也可以修改元學(xué)習(xí)者。這在原則上允許任意級(jí)別的學(xué)習(xí)、元學(xué)習(xí)、元元學(xué)習(xí)等。一些方法對(duì)這種系統(tǒng)的參數(shù)初始化進(jìn)行元學(xué)習(xí)102,104。找到這個(gè)初始化仍然需要一個(gè)硬連線的元學(xué)習(xí)者。在其他作品中,網(wǎng)絡(luò)自我修改的方式甚至消除了這種元學(xué)習(xí)者103,105。有時(shí),待發(fā)現(xiàn)的學(xué)習(xí)規(guī)則具有結(jié)構(gòu)搜索空間限制,這簡化了自我改進(jìn),其中基于梯度的優(yōu)化器可以發(fā)現(xiàn)自身106或者進(jìn)化算法可以優(yōu)化自身107。盡管它們有所不同,但突觸可塑性和自我參照方法都旨在實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的自我改進(jìn)和適應(yīng)。
元優(yōu)化學(xué)習(xí)規(guī)則的泛化 所發(fā)現(xiàn)的學(xué)習(xí)規(guī)則推廣到多種任務(wù)的范圍是一個(gè)重要的未決問題——特別是,它們何時(shí)應(yīng)該取代人工導(dǎo)出的通用學(xué)習(xí)規(guī)則,如反向傳播?對(duì)這些方法提出挑戰(zhàn)的一個(gè)特別觀察是,當(dāng)搜索空間很大并且對(duì)學(xué)習(xí)機(jī)制幾乎沒有限制時(shí)92,108,109概括變得更加困難。然而,為了修正這一點(diǎn),在變量共享元學(xué)習(xí)93靈活的學(xué)習(xí)規(guī)則由參數(shù)共享的遞歸神經(jīng)網(wǎng)絡(luò)來參數(shù)化,該網(wǎng)絡(luò)局部交換信息以實(shí)現(xiàn)學(xué)習(xí)算法,該算法概括了在元優(yōu)化期間沒有看到的分類問題。對(duì)于強(qiáng)化學(xué)習(xí)算法的發(fā)現(xiàn)也顯示了類似的結(jié)果性110。
神經(jīng)形態(tài)計(jì)算 神經(jīng)形態(tài)計(jì)算代表了計(jì)算系統(tǒng)設(shè)計(jì)中的范式轉(zhuǎn)變,其目標(biāo)是創(chuàng)建模擬生物大腦的功能結(jié)構(gòu)的硬件42,111,112。這種方法旨在開發(fā)人工神經(jīng)網(wǎng)絡(luò),不僅復(fù)制大腦的學(xué)習(xí)能力,還復(fù)制其能量效率和固有的并行性。神經(jīng)形態(tài)計(jì)算機(jī)系統(tǒng)通常包含專門的硬件,如神經(jīng)形態(tài)芯片或憶阻設(shè)備,以實(shí)現(xiàn)大腦啟發(fā)的學(xué)習(xí)算法的有效執(zhí)行112。這些系統(tǒng)有可能極大地提高機(jī)器學(xué)習(xí)應(yīng)用程序的性能,特別是在邊緣計(jì)算和實(shí)時(shí)處理場景中。
神經(jīng)形態(tài)計(jì)算的一個(gè)關(guān)鍵方面在于開發(fā)專門的硬件體系結(jié)構(gòu),這些硬件體系結(jié)構(gòu)有助于實(shí)現(xiàn)脈沖神經(jīng)網(wǎng)絡(luò),這更類似于生物神經(jīng)元的信息處理機(jī)制。神經(jīng)形態(tài)系統(tǒng)基于大腦啟發(fā)的局部學(xué)習(xí)原理運(yùn)行,這使得它們能夠?qū)崿F(xiàn)高能效、低延遲處理和抗噪聲的魯棒性,這對(duì)于現(xiàn)實(shí)世界的應(yīng)用來說是至關(guān)重要的113。腦啟發(fā)學(xué)習(xí)技術(shù)與神經(jīng)形態(tài)硬件的集成對(duì)于這項(xiàng)技術(shù)的成功應(yīng)用至關(guān)重要。
近年來,神經(jīng)形態(tài)計(jì)算的進(jìn)步導(dǎo)致了各種平臺(tái)的發(fā)展,如英特爾的Loihi113,IBM的TrueNorth115,和SpiNNaker116,它為實(shí)現(xiàn)SNNs和大腦啟發(fā)的學(xué)習(xí)算法提供了專門的硬件架構(gòu)。這些平臺(tái)為進(jìn)一步探索神經(jīng)計(jì)算系統(tǒng)提供了基礎(chǔ),使研究人員能夠設(shè)計(jì)、模擬和評(píng)估新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)規(guī)則。隨著神經(jīng)形態(tài)計(jì)算的不斷進(jìn)步,預(yù)計(jì)它將在人工智能的未來發(fā)揮關(guān)鍵作用,推動(dòng)創(chuàng)新,并實(shí)現(xiàn)更高效、多功能和生物合理的學(xué)習(xí)系統(tǒng)的開發(fā)。
機(jī)器人學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)中大腦啟發(fā)的學(xué)習(xí)有可能通過啟用機(jī)器人來克服機(jī)器人領(lǐng)域中目前存在的許多挑戰(zhàn)以更靈活的方式學(xué)習(xí)和適應(yīng)他們的環(huán)境117,118。傳統(tǒng)的機(jī)器人系統(tǒng)依賴于預(yù)編程的行為,這些行為在適應(yīng)不斷變化的條件的能力方面受到限制。相比之下,正如我們在這篇綜述中所展示的,神經(jīng)網(wǎng)絡(luò)可以通過基于它們接收的數(shù)據(jù)調(diào)整它們的內(nèi)部參數(shù)來訓(xùn)練以適應(yīng)新的情況。
由于它們與機(jī)器人的天然關(guān)系,大腦啟發(fā)的學(xué)習(xí)算法在機(jī)器人領(lǐng)域有著悠久的歷史117。為此,突觸可塑性規(guī)則已被引入,以適應(yīng)機(jī)器人的行為領(lǐng)域的變化,如運(yùn)動(dòng)增益和粗糙的地形60,119-121 以及用于避障122-124和鉸接(臂)控制125,126。大腦啟發(fā)的學(xué)習(xí)規(guī)則也被用來探索學(xué)習(xí)如何在昆蟲大腦中發(fā)生,使用機(jī)器人系統(tǒng)作為具體化的媒介127-130。
深度強(qiáng)化學(xué)習(xí)(DRL)代表了大腦啟發(fā)的學(xué)習(xí)算法的重大成功,它將神經(jīng)網(wǎng)絡(luò)的優(yōu)勢與大腦中的強(qiáng)化學(xué)習(xí)理論相結(jié)合,以創(chuàng)建能夠通過與環(huán)境交互來學(xué)習(xí)復(fù)雜行為的自主代理131-133。通過利用模擬多巴胺神經(jīng)元活動(dòng)的獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)過程134與最小化例如分類或回歸誤差相反,DRL算法指導(dǎo)機(jī)器人學(xué)習(xí)最佳策略以實(shí)現(xiàn)它們的目標(biāo),即使在高度動(dòng)態(tài)和不確定的環(huán)境中135,136。這種強(qiáng)大的方法已經(jīng)在各種機(jī)器人應(yīng)用中得到證實(shí),包括靈巧操作、機(jī)器人移動(dòng)137,以及多智能體協(xié)調(diào)138。
終身學(xué)習(xí)和在線學(xué)習(xí) 終身學(xué)習(xí)和在線學(xué)習(xí)是腦啟發(fā)學(xué)習(xí)在人工智能中的重要應(yīng)用,因?yàn)樗鼈兪瓜到y(tǒng)能夠適應(yīng)不斷變化的環(huán)境并不斷獲得新的技能和知識(shí)14。相比之下,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常在固定的數(shù)據(jù)集上訓(xùn)練,缺乏適應(yīng)新信息或變化環(huán)境的能力。成熟的大腦是終身學(xué)習(xí)的一個(gè)不可思議的媒介,因?yàn)樗谝簧胁粩鄬W(xué)習(xí),同時(shí)保持相對(duì)固定的大小139。正如這篇綜述所表明的那樣,與大腦類似,被賦予大腦啟發(fā)的學(xué)習(xí)機(jī)制的神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練來不斷學(xué)習(xí)和適應(yīng),隨著時(shí)間的推移提高它們的性能。
使人工系統(tǒng)能夠展示這種能力的腦啟發(fā)學(xué)習(xí)算法的發(fā)展有可能顯著增強(qiáng)它們的性能和能力,并對(duì)各種應(yīng)用具有廣泛的影響。這些應(yīng)用在數(shù)據(jù)缺乏或收集費(fèi)用昂貴的情況下特別有用,例如在機(jī)器人領(lǐng)域140 或者自治系統(tǒng)141因?yàn)樗试S系統(tǒng)實(shí)時(shí)學(xué)習(xí)和適應(yīng),而不是在學(xué)習(xí)發(fā)生之前需要收集和處理大量數(shù)據(jù)。
終身學(xué)習(xí)領(lǐng)域中的一個(gè)主要目標(biāo)是緩解與人工神經(jīng)網(wǎng)絡(luò)中持續(xù)應(yīng)用反向傳播相關(guān)的一個(gè)主要問題,即一種現(xiàn)象被稱為災(zāi)難性遺忘13。災(zāi)難性遺忘是指人工神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新數(shù)據(jù)時(shí)突然忘記以前學(xué)習(xí)過的信息的傾向。發(fā)生這種情況是因?yàn)樽畛鯙樵缙谌蝿?wù)優(yōu)化的網(wǎng)絡(luò)中的權(quán)重被徹底改變以適應(yīng)新的學(xué)習(xí),從而擦除或覆蓋了先前的信息。這是因?yàn)榉聪騻鞑ニ惴ㄔ诖龠M(jìn)新的學(xué)習(xí)的同時(shí),并不固有地考慮保存先前獲取的信息的需要。幾十年來,解決這個(gè)問題一直是人工智能領(lǐng)域的一個(gè)重大障礙。我們假設(shè),通過使用模擬大腦動(dòng)態(tài)學(xué)習(xí)機(jī)制的大腦啟發(fā)學(xué)習(xí)算法,我們可能能夠利用生物有機(jī)體固有的熟練解決問題的策略。
了解大腦 人工智能和神經(jīng)科學(xué)的世界已經(jīng)從彼此身上受益匪淺。專門為某些任務(wù)定制的深度神經(jīng)網(wǎng)絡(luò)在處理空間信息的方式上與人腦有著驚人的相似之處142-144 和視覺145-147 信息。這種重疊暗示了人工神經(jīng)網(wǎng)絡(luò)(ann)作為有用模型的潛力,有助于我們更好地理解大腦的復(fù)雜機(jī)制。一個(gè)被稱為神經(jīng)連接主義者研究計(jì)劃的新運(yùn)動(dòng)148 體現(xiàn)了這種結(jié)合的方法,使用人工神經(jīng)網(wǎng)絡(luò)作為計(jì)算語言來形成和測試關(guān)于大腦如何計(jì)算的想法。這種觀點(diǎn)匯集了不同的研究成果,提供了一個(gè)通用的計(jì)算框架和工具來測試關(guān)于大腦的特定理論。
雖然這篇綜述強(qiáng)調(diào)了一系列模擬大腦功能的算法,但我們?nèi)匀挥写罅康墓ぷ饕?,以完全掌握學(xué)習(xí)在大腦中實(shí)際上是如何發(fā)生的。使用反向傳播和類似反向傳播的局部學(xué)習(xí)規(guī)則來訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)可以為大腦功能建模提供良好的起點(diǎn)。人們進(jìn)行了大量卓有成效的研究,以了解大腦中哪些過程的運(yùn)作與反向傳播相似64,導(dǎo)致神經(jīng)科學(xué)的新觀點(diǎn)和理論。盡管目前形式的反向傳播可能不會(huì)在大腦中發(fā)生,但盡管學(xué)習(xí)機(jī)制如此不同,大腦可能會(huì)發(fā)展出與人工神經(jīng)網(wǎng)絡(luò)相似的內(nèi)部表示,這一想法是一個(gè)令人興奮的開放性問題,可能會(huì)導(dǎo)致對(duì)大腦和人工智能的更深入理解。
探索現(xiàn)在正從靜態(tài)網(wǎng)絡(luò)動(dòng)力學(xué)擴(kuò)展到揭示時(shí)間功能的網(wǎng)絡(luò),就像大腦一樣。隨著我們在持續(xù)和終身學(xué)習(xí)中進(jìn)一步開發(fā)算法,我們的模型需要更緊密地反映自然界中觀察到的學(xué)習(xí)機(jī)制,這一點(diǎn)可能會(huì)變得很清楚。這種焦點(diǎn)的轉(zhuǎn)移要求將局部學(xué)習(xí)規(guī)則——那些反映大腦自身方法的規(guī)則——整合到人工神經(jīng)網(wǎng)絡(luò)中。
我們確信,在人工神經(jīng)網(wǎng)絡(luò)中采用更具生物學(xué)真實(shí)性的學(xué)習(xí)規(guī)則不僅會(huì)產(chǎn)生上述益處,而且還會(huì)為神經(jīng)科學(xué)研究者指明正確的方向..換句話說,這是一個(gè)有雙重好處的策略:它不僅有望振奮工程上的創(chuàng)新,但它也讓我們更接近解開大腦中錯(cuò)綜復(fù)雜的過程。有了更現(xiàn)實(shí)的模型,我們可以從人工智能的新視角更深入地探索大腦計(jì)算的復(fù)雜性。
在這篇綜述中,我們研究了將更符合生物學(xué)原理的學(xué)習(xí)機(jī)制整合到人工神經(jīng)網(wǎng)絡(luò)中。這種進(jìn)一步的整合對(duì)神經(jīng)科學(xué)和人工智能來說都是重要的一步。這與人工智能在大型語言模型和嵌入式系統(tǒng)方面取得的巨大進(jìn)步尤其相關(guān),這迫切需要更節(jié)能的學(xué)習(xí)和執(zhí)行方法。此外,雖然人工神經(jīng)網(wǎng)絡(luò)在這些應(yīng)用方面取得了很大進(jìn)展,但它們像生物大腦一樣適應(yīng)的能力仍然有很大的局限性,我們認(rèn)為這是大腦啟發(fā)學(xué)習(xí)機(jī)制的主要應(yīng)用。
當(dāng)我們?yōu)樯窠?jīng)科學(xué)和人工智能之間更詳細(xì)的大腦啟發(fā)的學(xué)習(xí)算法的未來合作制定戰(zhàn)略時(shí),重要的是要承認(rèn)神經(jīng)科學(xué)對(duì)人工智能的過去影響很少是關(guān)于現(xiàn)成的解決方案對(duì)機(jī)器的直接應(yīng)用149。更常見的是,神經(jīng)科學(xué)通過提出關(guān)于動(dòng)物學(xué)習(xí)和智力方面的有趣的算法級(jí)問題來刺激人工智能研究人員。它為支持學(xué)習(xí)的重要機(jī)制提供了初步的指導(dǎo)。我們的觀點(diǎn)是,通過利用來自神經(jīng)科學(xué)的觀點(diǎn),我們可以大大加速人工神經(jīng)網(wǎng)絡(luò)中使用的學(xué)習(xí)機(jī)制的進(jìn)步。同樣,在人工智能中使用類腦學(xué)習(xí)算法的實(shí)驗(yàn)可以加速我們對(duì)神經(jīng)科學(xué)的理解。
1.運(yùn)動(dòng)學(xué)習(xí)與發(fā)展的時(shí)間尺度。心理評(píng)論108,57 (2001)。
2.前額葉皮層的“活動(dòng)-沉默”工作記憶:一個(gè)動(dòng)態(tài)編碼框架。認(rèn)知科學(xué)趨勢19,394–405(2015)。
3.Gerstner,w .,Lehmann,m .,Liakoni,v .,Corneil,D. & Brea,j .行為時(shí)間尺度上的資格痕跡和可塑性:新希伯來人三因素學(xué)習(xí)規(guī)則的實(shí)驗(yàn)支持。神經(jīng)回路前沿12,53 (2018)。
4.科學(xué)文本的預(yù)訓(xùn)練語言模型。arXiv預(yù)印本arXiv:1903.10676 (2019)。
5.語言模型是一次性學(xué)習(xí)者。神經(jīng)信息處理系統(tǒng)進(jìn)展33,1877–1901(2020)。
文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)