2、簡單的評估框架

GPT-4 Turbo 將作為第一位評委,根據(jù)我根據(jù)用例編寫的評估提示,對每個答案進行滿分 10 分的評分。

我自己擔任第二位評委。

每位評委將對答案進行滿分 10 分的評分

最終得分是 2 個分數(shù)的平均值。

3、制作和策劃提示

在擴展每個用例的類別后,我必須仔細制作將提供給每個 LLM 的提示。不僅僅是創(chuàng)作提示,我知道如果我是唯一一個評估這些 LLM 答案的人,那將是非常有偏見和不可靠的,所以我與最好的 LLM gpt-04-turbo 聯(lián)手。

現(xiàn)在,將會有,

其中評估將由另一個 LLM 完成,我知道這聽起來很奇怪,但像 MT-Bench 這樣的基準(請注意,這次評估與 MT-Bench 相差甚遠)也使用強大的 LLM 作為評委來自動化評估過程。

為了策劃創(chuàng)作提示,我使用了提示工程技術(shù),例如人員采用、清晰的說明、思考時間和分隔的參考文本。

例如,

社交媒體文案提示:假設(shè)你是一家精品咖啡店的社交媒體經(jīng)理,這家咖啡店以使用公平貿(mào)易的有機咖啡豆而自豪。你的目標是吸引經(jīng)常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子:— 用生動的視覺效果和誘人的描述介紹一種新的季節(jié)性混合咖啡。— 宣傳即將舉行的現(xiàn)場音樂晚會,突出舒適的氛圍和優(yōu)質(zhì)的咖啡。— 分享客戶對他們最喜歡的咖啡和學習場所的評價。確保每篇帖子都引人入勝,使用對話語氣,并包含可提高知名度和推動互動的主題標簽。

評估提示也使用了類似的技術(shù)和框架進行評估。我將每個評估標準分為 5 個部分,每個部分價值 2 分,部分滿足標準則進行部分評分。

示例:

社交媒體文案響應評估提示:你是專業(yè)的文案撰稿人和編輯。根據(jù)以下標準對以下社交媒體文案(下面用三重引號分隔)進行 10 分制評分,其中每個點有 2 分,如果大綱未能完全捕捉到該元素,則給 0 分,如果大綱部分涵蓋該元素,則給 1 分,如果大綱完全涵蓋該標準的所有本質(zhì),則給 2 分:評估社交媒體文案的以下元素:— 相關(guān)性:內(nèi)容是否與當前趨勢、熱門標簽和受眾興趣一致?— 對話語氣:文案是否使用友好、隨意的語氣,引起社交媒體用戶的共鳴?— 視覺沖擊:文案是否提到使用引人入勝的視覺效果(例如圖像、視頻或 GIF)來提高參與度? — 簡潔性:文案是否簡短、簡潔,一目了然? — 可分享性:內(nèi)容是否以鼓勵點贊、分享和評論的方式制作,以擴大影響力? “””{text}”””

所有 22 個類別都進行了此項測試。

4、生成和評估

現(xiàn)在是生成和評估響應的時候了。

為了進行評估,我使用了 chatgpt,默認情況下它使用 gpt-4-turbo。

以下是我按類別得到的結(jié)果:

4.1 博客寫作

GPT 的評估分數(shù):

我的評估分數(shù):

然后將以上兩個分數(shù)的平均數(shù)作為最終得分:

博客寫作評選 — Llama-3–70B

Llama-3–70b 得分 48.5,其大綱非常詳盡,能夠從參考文本中學習,并且具有高質(zhì)量的文本生成能力,最終成為贏家。

Sonnet 和 Gemini 也給出了很好的回答,但 Llama 的回答具有人們在閱讀真實文本時所尋找的細微差別或?qū)毠?jié)的更多關(guān)注。

4.2 電子郵件寫作

這是一個有點令人失望的類別,部分原因是提示,我應該花更多精力來制作更詳細的電子郵件提示,但是,它們對所有人來說都是一樣的,所以讓我們看看結(jié)果:

GPT 分數(shù):

我的分數(shù):

最終分數(shù):

電子郵件寫作的評價——Llama-3–70B

同樣,Llama-3–70b 以 41.5 分(滿分 50 分)的表現(xiàn)優(yōu)于其競爭對手,但我對質(zhì)量和現(xiàn)代電子郵件寫作實踐并不十分滿意,我們優(yōu)先考慮簡潔和直接的回復,但考慮到提示,他們做得相當不錯。

4.3 文案撰寫

在文案撰寫方面,所有模型都表現(xiàn)得相當不錯。

GPT 得分:

我的得分:

最終得分:

文案撰寫評價 — Llama-3–70B

llama-3 的質(zhì)量和遵循指令的能力都很不錯。它抓住了提示中的每個小細節(jié),因此不僅在 GPT 的評估中得分很高,而且我還發(fā)現(xiàn)文案更詳細、更有條理、更連貫、更有吸引力。

4.4 劇本寫作

GPT 分數(shù):

我的分數(shù):

最終分數(shù):

劇本寫作評價——Llama-3–70b

所有模型在制作初稿時都表現(xiàn)得相當不錯,但需要大量改進才能跟上另一位作者的寫作風格,這是我這次錯過的,但肯定會檢查的。

我們有 3 個獲勝者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。

4.5 內(nèi)容摘要

這是我手頭上最重要的任務之一,結(jié)果如下:

GPT 分數(shù):

我的分數(shù):

最終分數(shù):

內(nèi)容摘要評價——Claude 和 Gemini 1.5 Pro

Claude 模型生成的摘要質(zhì)量讓我感到驚訝。Claude Sonnet 和我也嘗試過 Claude 3 Opus(他們最好的模型,但非常昂貴),Opus 的摘要結(jié)構(gòu)嚴謹、注重細節(jié),盡可能地抓住了文檔的精髓。經(jīng)過微調(diào)后,這些模型的表現(xiàn)絕對非常好。

獲勝者:Gemini 1.5 Pro 和 Claude 3 Sonnet

5、最終獲勝者 — Llama-3–70b

總分為 220 分,得分 199.5 分,Llama-3–70b 在內(nèi)容創(chuàng)作方面總體表現(xiàn)優(yōu)異。

原文鏈接:http://www.bimant.com/blog/llm-content-creation-capability-evaluation/

上一篇:

利用人工智能增強 IaC,實現(xiàn)下一代基礎(chǔ)設(shè)施效率

下一篇:

一文搞懂生成式檢索增強
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費