論文題目:《Black-Box Prompt Optimization: Aligning Large Language Models without Model Training》

論文鏈接:https://arxiv.org/abs/2311.04155

github地址:https://github.com/thu-coai/BPO

BPO背景介紹

? ? ? ?最近,大型語(yǔ)言模型(LLM)在各種應(yīng)用中都取得了顯著的成功,比如文本生成,文生圖大模型等。然而,這些模型往往與人類意圖不太一致,這就需要對(duì)其進(jìn)行額外的處理,即對(duì)齊問題。為了使LLM更好地遵循用戶指令,現(xiàn)有的對(duì)齊方法(比如RLHF、RLAIF和DPO)主要側(cè)重于對(duì)LLM進(jìn)行進(jìn)一步的訓(xùn)練,然而這些對(duì)齊方法有如下缺點(diǎn):

? ? ? ?清華大學(xué)提出了一種黑盒提示優(yōu)化(BPO)來(lái)執(zhí)行對(duì)齊,其思想是優(yōu)化用戶Prompt以適應(yīng)LLM對(duì)輸入的理解,從而在不更新LLM參數(shù)的情況下更好地實(shí)現(xiàn)用戶的意圖理解。

? ? ? BPO可以應(yīng)用在任何LLM模型上,經(jīng)驗(yàn)結(jié)果表明,使用BPO對(duì)齊的ChatGPT的勝率比原始版本提高了22%,GPT-4的勝率提高了10%。對(duì)于相同的LLM,BPO對(duì)齊的LLM性能優(yōu)于PPO和DPO對(duì)齊,而且BPO技術(shù)可以與PPO或DPO進(jìn)行組合使用,可能帶來(lái)額外的性能增益。

? ? ? 在 VicunaEval 上使用 GPT-4 進(jìn)行自動(dòng)評(píng)估,BPO 能夠大幅提升 ChatGPT、Claude 等模型的人類偏好,并助力 llama2-13b 模型大幅超過 llama2-70b 的版本,如下圖所示:

BPO方法原理? ? ? ?

BPO黑盒優(yōu)化的目標(biāo)是讓模型更好地理解和滿足人類的喜好,通過調(diào)整輸入內(nèi)容,使模型生成的輸出更符合用戶的期望。這個(gè)過程可以分為三個(gè)主要步驟:

1、反饋數(shù)據(jù)收集:為了建模人類偏好,首先搜集了一系列帶有反饋信號(hào)的開源指令微調(diào)數(shù)據(jù)集,并對(duì)這些數(shù)據(jù)經(jīng)過精心篩選和過濾;

2、構(gòu)造提示優(yōu)化對(duì):使用這些反饋數(shù)據(jù)來(lái)引導(dǎo)大型模型識(shí)別用戶喜歡的回復(fù)和不喜歡的回復(fù),基于這些特征,再利用模型優(yōu)化原始的用戶輸入,以期得到更符合用戶喜好的模型輸出;

3、訓(xùn)練提示優(yōu)化器:經(jīng)過上述兩個(gè)步驟,得到了大量?jī)?yōu)化前后的Prompt pair,利用這些Prompt pair訓(xùn)練一個(gè)seq2seq模型(作者使用llama2-7b-chat作為bachbone模型),這樣后期就可以使用該seq2seq模型進(jìn)行自動(dòng)化優(yōu)化用戶的Prompt了

BPO與其他對(duì)齊方法的對(duì)比

BPO實(shí)驗(yàn)效果

BPO對(duì)齊技術(shù)對(duì) GPT-3.5-turbo 有22%的提升,對(duì) GPT-4 有 10% 的提升。

BPO 能夠助力 llama2-13b 大幅超過 llama2-70b 版本的模型效果,并讓 llama2-7b 版本的模型逼近比它大 10 倍的模型。

?在 vicuna-7b 和 vicuna-13b 上,使用 BPO 對(duì)齊的模型超過了常用的反饋學(xué)習(xí)方法—— PPO(Proximal Policy Optimization) 和 DPO(Direct Preference Optimization)的效果,并且能夠和這些方法相結(jié)合進(jìn)一步提升模型效果。

 此外,BPO還可以用于提升SFT數(shù)據(jù)的質(zhì)量,幫助構(gòu)建更高質(zhì)量的SFT模型。

BPO優(yōu)化前后Prompt的對(duì)比

參考文獻(xiàn):

[1]?https://arxiv.org/abs/2311.04155

本文章轉(zhuǎn)載微信公眾號(hào)@ArronAI

上一篇:

LLM之Prompt(一):5個(gè)Prompt高效方法在文心一言3.5的測(cè)試對(duì)比

下一篇:

LLM之Prompt(三)| XoT:使用強(qiáng)化學(xué)習(xí)和蒙特卡羅樹搜索將外部知識(shí)注入Prompt中,性能超過CoT,ToT和GoT
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)