工作原理:?jiǎn)晤^Attention通過(guò)計(jì)算每個(gè)token的查詢(xún)向量與所有token的鍵向量的點(diǎn)積,并經(jīng)過(guò)softmax歸一化得到注意力權(quán)重,再將這些權(quán)重應(yīng)用于值向量進(jìn)行加權(quán)求和,從而生成每個(gè)token的自注意力輸出表示。

二、多頭Attention工作原理

多頭Attention(Multi-Head Attention):多頭注意力機(jī)制通過(guò)并行運(yùn)行多個(gè)Self-Attention層并綜合其結(jié)果,能夠同時(shí)捕捉輸入序列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。

工作原理:多頭Attention將每個(gè)頭得到向量拼接在一起,最后乘一個(gè)線性矩陣,得到 Multi-Head Attention 的輸出。

三、全連接網(wǎng)絡(luò)工作原理

前饋網(wǎng)絡(luò)(Feed-Forward Network):Transformer模型中,前饋網(wǎng)絡(luò)用于將輸入的詞向量映射到輸出的詞向量,以提取更豐富的語(yǔ)義信息。前饋網(wǎng)絡(luò)通常包括幾個(gè)線性變換和非線性激活函數(shù),以及一個(gè)殘差連接和一個(gè)層歸一化操作。

工作原理:Multi-head Attention的輸出,經(jīng)過(guò)殘差和norm之后進(jìn)入一個(gè)兩層全連接網(wǎng)絡(luò)。

文章轉(zhuǎn)自微信公眾號(hào)@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

大模型開(kāi)發(fā) - 一文搞懂Encoder-Decoder工作原理

下一篇:

大模型開(kāi)發(fā) - 一文搞懂人工智能基礎(chǔ)(上):模型
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)