論文地址:https://arxiv.org/pdf/2403.05313

Github地址:https://github.com/CraftJarvis/RAT

Demo地址:https://huggingface.co/spaces/jeasinema/RAT

北京大學(xué)、加州大學(xué)洛杉磯分校和北京通用人工智能研究院的研究人員探索如何在信息檢索的幫助下迭代修改思想鏈提高大型語言模型在長生成任務(wù)中的推理和生成能力,同時極大地減輕幻覺。特別是,所提出的方法——檢索增強的思想(RAT):利用檢索到的與任務(wù)查詢相關(guān)的信息逐一修正每個思考步驟,在生成初始零樣本CoT之后,將RAT應(yīng)用于GPT-3.5、GPT-4和CodeLLaMA-7b大大提高了它們在各種長期范圍內(nèi)的性能生成任務(wù);平均而言,代碼生成的評分相對提高了13.63%,16.96%在數(shù)學(xué)推理方面,19.2%的人在創(chuàng)造性寫作方面,42.78%的人在具體任務(wù)計劃方面。

? ? ? ?大語言模型(LLM)在各種自然語言推理任務(wù)上取得了豐碩的進展,尤其是當將大模型與復(fù)雜的提示策略相結(jié)合時,比如思維鏈(CoT)提示。然而,人們越來越擔心LLM推理的事實正確性,經(jīng)常會出現(xiàn)所謂的“幻覺”(hallucination)——模型會生成看似合理但實際上并不準確的信息,尤其是在長任務(wù)推理中。當涉及到零樣本CoT提示時,這個問題變得更加重要?!發(fā)et’s think step-by-step”和需要多步驟和上下文感知推理的長期生成任務(wù),包括代碼生成、任務(wù)規(guī)劃、數(shù)學(xué)推理等。事實上有效的中間思想可能對成功完成這些任務(wù)至關(guān)重要。

? ? ? ?為解決長任務(wù)推理問題,研究人員提出了各種方法旨在改進 LLM 的推理過程。一些較早的方法嘗試將外部信息檢索與模型生成的內(nèi)容相結(jié)合,以確保模型輸出的事實準確性。然而,這些方法通常無法動態(tài)地改進推理過程,導(dǎo)致產(chǎn)生的結(jié)果雖然有所改善,卻仍然未能達到理想的上下文理解和準確性水平。

? ? ? ?來自北京大學(xué)、加州大學(xué)洛杉磯分校和北京通用人工智能研究院的研究人員提出的 Retrieval Augmented Thoughts (RAT) 方法,直覺是幻覺在中間推理過程可以通過外部知識的幫助來緩解,RAT旨在直接解決 LLM 中的事實準確性問題,如圖1所示:

RAT 是一種著重于迭代修正模型生成思路的新方法。

首先,LLM產(chǎn)生的初始零樣本CoT以及原始任務(wù)提示將被用作查詢,以檢索可能有助于修改可能有缺陷的CoT的信息。其次,設(shè)計一種漸進的方法,而不是用完整的CoT進行檢索和修改并立即產(chǎn)生最終響應(yīng),其中LLM在CoT(一系列子任務(wù))之后逐步生成響應(yīng),并且只有當前思維步驟將根據(jù)任務(wù)提示檢索到的信息、當前和過去的CoT進行修改。這種策略可以類比于人類的推理過程:在復(fù)雜的長期問題解決過程中,利用外部知識來調(diào)整我們的逐步思維。RAT和其他技術(shù)的對比,如圖2所示:

論文在一系列具有挑戰(zhàn)性的長期任務(wù)中評估RAT,包括代碼生成、數(shù)學(xué)推理、具體任務(wù)規(guī)劃和創(chuàng)造性寫作,使用了幾種不同規(guī)模的LLM:GPT-3.5、GPT-4、CodeLLaMA-7b。結(jié)果表明:與vanilla CoT提示和RAG方法相比,將RAT與這些LLM相結(jié)合具有強大的優(yōu)勢,在如下任務(wù)中達到SOTA性能水平:

1)代碼生成:HumanEval(+20.94%)、HumanEval+(+18.89%)、MBPP(+14.83%)、MBPP+(+1.86%);

2) 數(shù)學(xué)推理問題:GSM8K(+8.36%)和GSMHard(+31.37%);

3) Minecraft任務(wù)規(guī)劃:(可執(zhí)行性提高到2.96倍,合理性增加+51.94%);

4) 創(chuàng)造性寫作:(超過人類得分+19.19%)。

? ? ? 消融實驗研究進一步證實了RAT的兩個關(guān)鍵成分所起的關(guān)鍵作用:1)使用RAG修正CoT和2)逐步修正和生成。這項工作揭示了LLM如何修改他們的推理在外部知識的幫助下,以零樣本的方式進行過程,就像人類所做的那樣。

RAT算法如下所示:

使用RAG修正CoT產(chǎn)生的每一個思維步驟提示,算法如圖1和算法1所示。具體來說,給定任務(wù)提示I、 我們首先讓LLM以zero-shot(“l(fā)et’s think step-by-step”)逐步生成思考??,???? 代表第??步思考。在長生成任務(wù)中,?? 可以是中間推理步驟,例如代碼生成中帶有注釋的偽代碼,創(chuàng)造性寫作中的文章提綱等,或草稿響應(yīng)本身,例如包含的子目標列表任務(wù)規(guī)劃,如圖1所示。

? ? ? ?由于?? 可能有缺陷(例如,包含幻覺),因此需要繼續(xù)使用RAG來修改生成思想步驟,然后根據(jù)這些思想生成最終響應(yīng)。具體來說,假設(shè)已經(jīng)修復(fù)了之前的思考步驟現(xiàn)在即將修訂??,我們首先將文本??轉(zhuǎn)換到查詢中????,公式如下所示:

???? = ToQuery(  ),

? ? ? ?其中ToQuery(·)可以是文本編碼器,也可以是轉(zhuǎn)換任務(wù)提示I,當前和過去的思維步驟??為檢索系統(tǒng)處理的一個查詢???? 。作者采用RAG使用????檢索相關(guān)文件????,最后生成修改后的思考步驟提示??

? ? ? ?最后,根據(jù)實際任務(wù),修訂思維步驟??可以簡單地用作最后模型的響應(yīng),例如具體任務(wù)規(guī)劃。對于代碼生成或創(chuàng)造性寫作等任務(wù),LLM將被進一步提示生成每個人的完整回應(yīng)(代碼、段落)逐步修正思想步驟。

? ? ? ?在修正第??個思考步驟????,而不是僅使用當前步驟????,或完整的思想鏈??來生成RAG的查詢,我們確保查詢????由當前的思維步驟????以及之前修改的思維步驟??生成的。即我們使用RAG采用因果推理來修正思想,公式如下所示:

???? = ToQuery(  ),

RAT算法實驗效果如下所示:

本文章轉(zhuǎn)載微信公眾號@ArronAI

上一篇:

LLM之RAG理論(九)| 如何在LLM應(yīng)用程序中提高RAG結(jié)果:從基礎(chǔ)到高級

下一篇:

LLM之RAG理論(十一)| 面向生產(chǎn)的RAG應(yīng)用程序的12種調(diào)整策略指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費