https://arxiv.org/abs/2402.13116 這篇論文是干嘛的?這篇論文是關(guān)于“知識(shí)蒸餾”(Knowledge Distillation,簡(jiǎn)稱 KD)在大型語言模型(Large Language Models,簡(jiǎn)稱 LLMs)中的應(yīng)用。

image

簡(jiǎn)單來說,知識(shí)蒸餾就像是讓一個(gè)“聰明的大老師”(比如 GPT-4)教一個(gè)“普通的小學(xué)生”(比如開源模型 LLaMA),把大模型的聰明才智傳給小模型,讓小模型也能變聰明,而且更省資源、更容易用。

論文的作者們想給大家講清楚三件事:

他們還特別提到了一種“數(shù)據(jù)增強(qiáng)”(Data Augmentation,簡(jiǎn)稱 DA)的技術(shù),說它在知識(shí)蒸餾里特別重要,能讓小模型學(xué)得更好。

論文結(jié)構(gòu)很清晰,分成了算法、技能和應(yīng)用三個(gè)大塊(這叫“三大支柱”),后面我會(huì)詳細(xì)講。

為什么要研究這個(gè)?

想象一下,GPT-4 這樣的“大模型”超級(jí)聰明,能寫文章、回答問題、甚至幫你解決問題,但它有個(gè)問題:太大了,太貴了,不是每個(gè)人都能用得上。就像一臺(tái)超級(jí)豪華跑車,性能強(qiáng)但耗油多、一般人開不起。

而開源模型(比如 LLaMA、Mistral)呢,雖然免費(fèi)、靈活,但本事沒那么大,就像一輛普通小轎車。知識(shí)蒸餾的目標(biāo)就是:

論文里還提到,這種技術(shù)還能讓開源模型自己教自己變得更強(qiáng)(自改進(jìn)),或者把大模型壓縮得更高效。

核心內(nèi)容拆解

1. 知識(shí)蒸餾是什么?(Overview)

知識(shí)蒸餾最早是用來把復(fù)雜的神經(jīng)網(wǎng)絡(luò)“壓縮”成簡(jiǎn)單的小網(wǎng)絡(luò)。比如原來一個(gè)大模型有幾億個(gè)參數(shù),跑起來很費(fèi)電腦,蒸餾后弄成一個(gè)小模型,參數(shù)少多了,但還能干差不多的事。

到了大型語言模型時(shí)代,知識(shí)蒸餾變得更高級(jí)了?,F(xiàn)在不光是壓縮模型,還要把大模型的“知識(shí)”和“能力”傳給小模型。比如,GPT-4 能寫詩、推理、聊天,知識(shí)蒸餾就想讓小模型也學(xué)會(huì)這些本事。

論文里提到,知識(shí)蒸餾有三個(gè)主要作用(見圖 1 位置:Fig. 1: KD plays three key roles in LLMs):

image

2. 數(shù)據(jù)增強(qiáng)(DA)和知識(shí)蒸餾的關(guān)系

數(shù)據(jù)增強(qiáng)聽起來很高大上,其實(shí)就是“造數(shù)據(jù)”。

比如,你給 GPT-4 一點(diǎn)點(diǎn)“種子知識(shí)”(比如幾個(gè)問題和答案),它就能生成成千上萬類似的問答對(duì)。這些數(shù)據(jù)不是隨便亂造,而是針對(duì)特定技能(比如數(shù)學(xué)推理)或領(lǐng)域(比如醫(yī)學(xué))量身定做的。有了這些數(shù)據(jù),小模型就能拿來練習(xí),學(xué)到大模型的本事。

這就像給小學(xué)生準(zhǔn)備了一堆精選練習(xí)題,比隨便找點(diǎn)題做效果好多了。

3. 知識(shí)蒸餾的流程

論文給了個(gè)通用流程,告訴你怎么把大模型的知識(shí)傳給小模型(見圖 4 位置:Fig. 4: An illustration of a general pipeline to distill knowledge):

  1. 挑目標(biāo):先決定教小模型什么,比如“學(xué)會(huì)寫代碼”或“懂法律”。
  2. 給種子:給大模型一點(diǎn)“種子知識(shí)”(比如幾個(gè)例子),讓它知道從哪開始。
  3. 生成教材:大模型根據(jù)種子知識(shí),生成一大堆教學(xué)材料(比如問答對(duì))。
  4. 教學(xué)生:拿這些材料訓(xùn)練小模型,讓它模仿大模型的本事。

image

這個(gè)流程簡(jiǎn)單來說就是:

4. 知識(shí)蒸餾的三大支柱

論文把知識(shí)蒸餾分成三大塊(見圖 3 位置:Fig. 3: Taxonomy of Knowledge Distillation of Large Language Models):

(1)算法(KD Algorithms)

這是講怎么“教”。論文分了兩步:

(2)技能(Skill Distillation)

這是講教小模型“學(xué)會(huì)什么”。論文列了好多技能:

(3)應(yīng)用(Verticalization Distillation)

這是講小模型“用在哪”。論文舉了幾個(gè)例子:

image

這篇論文說了啥新鮮的?

對(duì)應(yīng)用的好處

總結(jié)

這篇論文就像一份“AI 教學(xué)指南”。

它告訴你怎么用大模型(比如 GPT-4)當(dāng)老師,把知識(shí)傳給小模型(比如 LLaMA),讓小模型變得聰明、好用還能省資源。核心是三大塊:

數(shù)據(jù)增強(qiáng)是個(gè)秘密武器,能造出好教材,讓小模型學(xué)得更好。論文還給了很多例子和方法(具體看圖 2 位置:Fig. 2: An overview of this survey)。

image

如果你感興趣,可以去他們的 GitHub(https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs)找更多資料。

上一篇:

Jenkins API如何快速創(chuàng)建視圖

下一篇:

如何給Jenkins API添加節(jié)點(diǎn)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)