Transformer模型出現(xiàn)的背景

在Transformer模型之前,大多數(shù)最先進的NLP系統(tǒng)都依賴于諸如LSTM門控循環(huán)單元(GRU)等門控RNN模型,并在此基礎上增加了注意力機制。Transformer正是在注意力機制的基礎上構建的,但其沒有使用RNN結構,這表明僅依靠注意力機制就能在性能上比肩加上了注意力機制的RNN模型。

順序處理

門控RNN模型按順序處理每一個標記(token)并維護一個狀態(tài)向量,其中包含所有已輸入數(shù)據的表示。如要處理第

一站搜索、試用、比較全球API!
冪簡集成已收錄 4999種API!
試用API,一次比較多個渠道