論文地址:https://arxiv.org/pdf/2311.04254.pdf

一、當(dāng)前Prompt技術(shù)的局限性

? ? ? ?LLM使用自然語(yǔ)言Prompt可以將復(fù)雜的問(wèn)題分解為更易于管理的“thought”可以回復(fù)用戶的問(wèn)題。然而,大多數(shù)現(xiàn)有的Prompt技術(shù)都有局限性:

PS:當(dāng)前的Prompt技術(shù)面臨“Penrose Triangle”約束——最多可以實(shí)現(xiàn)(性能、效率和靈活性)中兩個(gè)屬性,三個(gè)屬性不能同時(shí)實(shí)現(xiàn)。

常見(jiàn)Prompt技術(shù)對(duì)比,如下圖所示:

輸入輸出(IO)Prompt(圖1(a)):IO方法在不提供任何中間thought過(guò)程的情況下,直接指導(dǎo)LLM解決問(wèn)題;

思維鏈(CoT)(圖1(b)):CoT將待解決問(wèn)題分解為一系列的thought鏈,讓LLM能夠一步一步地處理復(fù)雜的問(wèn)題;

自洽CoT(CoT-SC)(圖1(c)):CoT SC使用多個(gè)CoT實(shí)例從而讓LLM生成多個(gè)輸出,它從中選擇最佳的輸出,與普通的CoT相比,提供了更穩(wěn)健和一致的推理;

思維樹(shù)(ToT)(圖1(d)):ToT以樹(shù)狀結(jié)構(gòu)組織思想并利用搜索算法(例如,廣度優(yōu)先搜索、深度優(yōu)先搜索)將樹(shù)擴(kuò)展到追求最佳解決方案。但是ToT中的thought評(píng)價(jià)依賴于LLM本身,需要多次調(diào)用LLM進(jìn)行推理,這昂貴且低效;

思維圖(GoT)(圖1(e)):GoT擴(kuò)展了ToT方法,通過(guò)thought聚合和細(xì)化生成類似圖形的思想結(jié)構(gòu)。

PS:在中間搜索階段期間。盡管這種方法允許更靈活的思維結(jié)構(gòu)仍然需要多次LLM推理調(diào)用進(jìn)行評(píng)估,從而產(chǎn)生顯著的計(jì)算成本。

二、XOT介紹

       為了解決上述Prompt的這些局限性,本文將介紹一種新的Prompt技術(shù)XOT(Everything of Thoughts)。XOT使用強(qiáng)化學(xué)習(xí)和蒙特卡羅樹(shù)搜索(MCTS)將外部知識(shí)注入Prompt過(guò)程。

XOT的關(guān)鍵組成部分是:

三、XOT工作原理

XOT框架包括以下關(guān)鍵步驟:

  1. 預(yù)訓(xùn)練階段:對(duì)MCTS模塊進(jìn)行特定任務(wù)的預(yù)訓(xùn)練,以學(xué)習(xí)有關(guān)高效thought搜索的領(lǐng)域知識(shí)。輕量級(jí)策略和價(jià)值網(wǎng)絡(luò)指導(dǎo)搜索;
  2. Thought搜索:在推理過(guò)程中,預(yù)訓(xùn)練的MCTS模塊使用策略/價(jià)值網(wǎng)絡(luò)來(lái)有效地探索和生成LLM的thought軌跡;
  3. Thought修正LLM審查MCTS生成的thought,并識(shí)別其中可能的任何錯(cuò)誤,如果有錯(cuò)誤,再通過(guò)額外的MCTS模擬產(chǎn)生修正后的thought;
  4. LLM推理:把包括修改thought后的最終Prompt提供給LLM來(lái)解決問(wèn)題。

下圖說(shuō)明了XOT框架:

  MCTS模塊針對(duì)特定任務(wù)進(jìn)行預(yù)訓(xùn)練,使用策略和價(jià)值網(wǎng)絡(luò)來(lái)指導(dǎo)搜索和學(xué)習(xí)領(lǐng)域知識(shí)。

  1. thought搜索過(guò)程中,預(yù)訓(xùn)練的MCTS使用策略和價(jià)值網(wǎng)絡(luò)來(lái)有效地探索搜索空間并生成thought軌跡。整個(gè)過(guò)程迭代地選擇、擴(kuò)展、評(píng)估和反向傳播節(jié)點(diǎn);
  2. thought軌跡提供給LLM作為Prompt;
  3. LLM使用其內(nèi)部知識(shí)來(lái)檢測(cè)thought中的任何錯(cuò)誤
  4. 如果發(fā)現(xiàn)錯(cuò)誤,MCTS模塊將用于通過(guò)額外的模擬來(lái)修改thought;
  5. 該過(guò)程重復(fù)進(jìn)行,直到LLM使用修訂后的高質(zhì)量thought解決問(wèn)題。

四、XOT Pocket Cube問(wèn)題實(shí)戰(zhàn)

      我們使用Pocket Cube問(wèn)題(2x2x2魔方)來(lái)看一下XOT是如何工作的?

  1. 選擇:算法從根節(jié)點(diǎn)開(kāi)始,從可用集合中選擇一個(gè)動(dòng)作,用于在當(dāng)前狀態(tài)下生成單步思想。這個(gè)過(guò)程一直持續(xù)到到達(dá)當(dāng)前樹(shù)中的一個(gè)葉節(jié)點(diǎn)為止。該選擇由PUCT算法指導(dǎo),旨在最大化置信上限(UCB);
  2. 評(píng)估和擴(kuò)展:到達(dá)之前未選擇的葉節(jié)點(diǎn)后,我們擴(kuò)展到下一步新思想探索的狀態(tài)。這種擴(kuò)展涉及對(duì)其值和狀態(tài)的作用概率的評(píng)估,這些值和作用概率由θ參數(shù)化的神經(jīng)網(wǎng)絡(luò)建模,(Pθ(s), vθ(s)) = fθ(s)。這里,Pθ(s)是s上所有動(dòng)作的先驗(yàn)概率,vθ(s)表示其預(yù)測(cè)狀態(tài)值。這兩個(gè)值被保留和存儲(chǔ)用于備份目的,狀態(tài)s被標(biāo)記為“已訪問(wèn)”;
  3. 反向傳播:在上述階段對(duì)葉節(jié)點(diǎn)進(jìn)行擴(kuò)展后,可能是未探索狀態(tài)或終端狀態(tài),算法繼續(xù)通過(guò)反向傳播更新所有Q(s,a)值。對(duì)于未探索的節(jié)點(diǎn),這種更新涉及計(jì)算其估計(jì)值vθ的平均值,而對(duì)于終止的節(jié)點(diǎn),它是基于真實(shí)獎(jiǎng)勵(lì)r。這些更新是在信息沿著軌跡反向傳播到后續(xù)節(jié)點(diǎn)時(shí)發(fā)生的。此外,每個(gè)狀態(tài)操作對(duì)的訪問(wèn)計(jì)數(shù)也會(huì)增加;
  4. 思想推理:在MCTS完成搜索后,提取思想并將其提供給LLM。LLM然后審查和提煉這些想法,如果需要,繼續(xù)MCTS搜索過(guò)程,并最終通過(guò)將這些外部想法與其內(nèi)部知識(shí)相結(jié)合來(lái)制定最終答案。

PS:重復(fù)此過(guò)程,直到問(wèn)題得到解決或達(dá)到預(yù)定義的迭代次數(shù)。

五、XOT的主要優(yōu)點(diǎn)

       與現(xiàn)有Prompt技術(shù)相比,XOT有以下優(yōu)點(diǎn):

PS:XOT實(shí)現(xiàn)了其他Prompt范式不能同時(shí)滿足“Penrose Triangle”。

六、XOT實(shí)驗(yàn)結(jié)果

     研究人員在需要長(zhǎng)期規(guī)劃的復(fù)雜任務(wù)上評(píng)估了XOT,如《24小時(shí)游戲》、《8拼圖》和《口袋魔方》。一些關(guān)鍵發(fā)現(xiàn):

PS:這些結(jié)果突出了XOT如何通過(guò)高效靈活的提示釋放LLM在復(fù)雜問(wèn)題解決方面的潛力。

參考文獻(xiàn):

[1]?https://medium.com/@raphael.mansuy/xot-a-new-prompting-technique-for-ai-the-secret-sauce-to-level-up-your-llms-reasoning-prowess-3e19703ab582

本文章轉(zhuǎn)載微信公眾號(hào)@ArronAI

上一篇:

LLM之Prompt(二):Prompt 對(duì)齊優(yōu)化技術(shù)BPO

下一篇:

LLM之Prompt(四)| OpenAI、微軟發(fā)布Prompt技術(shù)報(bào)告
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)