
使用Python語言調(diào)用零一萬物API實戰(zhàn)指南
GPT-4 Turbo 將作為第一位評委,根據(jù)我根據(jù)用例編寫的評估提示,對每個答案進行滿分 10 分的評分。
我自己擔任第二位評委。
每位評委將對答案進行滿分 10 分的評分
最終得分是 2 個分數(shù)的平均值。
在擴展每個用例的類別后,我必須仔細制作將提供給每個 LLM 的提示。不僅僅是創(chuàng)作提示,我知道如果我是唯一一個評估這些 LLM 答案的人,那將是非常有偏見和不可靠的,所以我與最好的 LLM gpt-04-turbo 聯(lián)手。
現(xiàn)在,將會有,
其中評估將由另一個 LLM 完成,我知道這聽起來很奇怪,但像 MT-Bench 這樣的基準(請注意,這次評估與 MT-Bench 相差甚遠)也使用強大的 LLM 作為評委來自動化評估過程。
為了策劃創(chuàng)作提示,我使用了提示工程技術(shù),例如人員采用、清晰的說明、思考時間和分隔的參考文本。
例如,
社交媒體文案提示:假設(shè)你是一家精品咖啡店的社交媒體經(jīng)理,這家咖啡店以使用公平貿(mào)易的有機咖啡豆而自豪。你的目標是吸引經(jīng)常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子:— 用生動的視覺效果和誘人的描述介紹一種新的季節(jié)性混合咖啡。— 宣傳即將舉行的現(xiàn)場音樂晚會,突出舒適的氛圍和優(yōu)質(zhì)的咖啡。— 分享客戶對他們最喜歡的咖啡和學習場所的評價。確保每篇帖子都引人入勝,使用對話語氣,并包含可提高知名度和推動互動的主題標簽。
評估提示也使用了類似的技術(shù)和框架進行評估。我將每個評估標準分為 5 個部分,每個部分價值 2 分,部分滿足標準則進行部分評分。
示例:
社交媒體文案響應評估提示:你是專業(yè)的文案撰稿人和編輯。根據(jù)以下標準對以下社交媒體文案(下面用三重引號分隔)進行 10 分制評分,其中每個點有 2 分,如果大綱未能完全捕捉到該元素,則給 0 分,如果大綱部分涵蓋該元素,則給 1 分,如果大綱完全涵蓋該標準的所有本質(zhì),則給 2 分:評估社交媒體文案的以下元素:— 相關(guān)性:內(nèi)容是否與當前趨勢、熱門標簽和受眾興趣一致?— 對話語氣:文案是否使用友好、隨意的語氣,引起社交媒體用戶的共鳴?— 視覺沖擊:文案是否提到使用引人入勝的視覺效果(例如圖像、視頻或 GIF)來提高參與度? — 簡潔性:文案是否簡短、簡潔,一目了然? — 可分享性:內(nèi)容是否以鼓勵點贊、分享和評論的方式制作,以擴大影響力? “””{text}”””
所有 22 個類別都進行了此項測試。
現(xiàn)在是生成和評估響應的時候了。
為了進行評估,我使用了 chatgpt,默認情況下它使用 gpt-4-turbo。
以下是我按類別得到的結(jié)果:
GPT 的評估分數(shù):
我的評估分數(shù):
然后將以上兩個分數(shù)的平均數(shù)作為最終得分:
博客寫作評選 — Llama-3–70B
Llama-3–70b 得分 48.5,其大綱非常詳盡,能夠從參考文本中學習,并且具有高質(zhì)量的文本生成能力,最終成為贏家。
Sonnet 和 Gemini 也給出了很好的回答,但 Llama 的回答具有人們在閱讀真實文本時所尋找的細微差別或?qū)毠?jié)的更多關(guān)注。
這是一個有點令人失望的類別,部分原因是提示,我應該花更多精力來制作更詳細的電子郵件提示,但是,它們對所有人來說都是一樣的,所以讓我們看看結(jié)果:
GPT 分數(shù):
我的分數(shù):
最終分數(shù):
電子郵件寫作的評價——Llama-3–70B
同樣,Llama-3–70b 以 41.5 分(滿分 50 分)的表現(xiàn)優(yōu)于其競爭對手,但我對質(zhì)量和現(xiàn)代電子郵件寫作實踐并不十分滿意,我們優(yōu)先考慮簡潔和直接的回復,但考慮到提示,他們做得相當不錯。
在文案撰寫方面,所有模型都表現(xiàn)得相當不錯。
GPT 得分:
我的得分:
最終得分:
文案撰寫評價 — Llama-3–70B
llama-3 的質(zhì)量和遵循指令的能力都很不錯。它抓住了提示中的每個小細節(jié),因此不僅在 GPT 的評估中得分很高,而且我還發(fā)現(xiàn)文案更詳細、更有條理、更連貫、更有吸引力。
GPT 分數(shù):
我的分數(shù):
最終分數(shù):
劇本寫作評價——Llama-3–70b
所有模型在制作初稿時都表現(xiàn)得相當不錯,但需要大量改進才能跟上另一位作者的寫作風格,這是我這次錯過的,但肯定會檢查的。
我們有 3 個獲勝者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。
這是我手頭上最重要的任務之一,結(jié)果如下:
GPT 分數(shù):
我的分數(shù):
最終分數(shù):
內(nèi)容摘要評價——Claude 和 Gemini 1.5 Pro
Claude 模型生成的摘要質(zhì)量讓我感到驚訝。Claude Sonnet 和我也嘗試過 Claude 3 Opus(他們最好的模型,但非常昂貴),Opus 的摘要結(jié)構(gòu)嚴謹、注重細節(jié),盡可能地抓住了文檔的精髓。經(jīng)過微調(diào)后,這些模型的表現(xiàn)絕對非常好。
獲勝者:Gemini 1.5 Pro 和 Claude 3 Sonnet
總分為 220 分,得分 199.5 分,Llama-3–70b 在內(nèi)容創(chuàng)作方面總體表現(xiàn)優(yōu)異。
原文鏈接:http://www.bimant.com/blog/llm-content-creation-capability-evaluation/