日韩人妻精品一区二区三区视频,色噜噜狠狠色综合网

2、簡單的評估框架

GPT-4 Turbo 將作為第一位評委，根據(jù)我根據(jù)用例編寫的評估提示，對每個答案進行滿分 10 分的評分。

我自己擔任第二位評委。

每位評委將對答案進行滿分 10 分的評分

最終得分是 2 個分數(shù)的平均值。

3、制作和策劃提示

在擴展每個用例的類別后，我必須仔細制作將提供給每個 LLM 的提示。不僅僅是創(chuàng)作提示，我知道如果我是唯一一個評估這些 LLM 答案的人，那將是非常有偏見和不可靠的，所以我與最好的 LLM gpt-04-turbo 聯(lián)手。

現(xiàn)在，將會有，

每個類別的創(chuàng)建提示
每個類別的評估提示

其中評估將由另一個 LLM 完成，我知道這聽起來很奇怪，但像 MT-Bench 這樣的基準（請注意，這次評估與 MT-Bench 相差甚遠）也使用強大的 LLM 作為評委來自動化評估過程。

為了策劃創(chuàng)作提示，我使用了提示工程技術(shù)，例如人員采用、清晰的說明、思考時間和分隔的參考文本。

例如，

社交媒體文案提示：假設(shè)你是一家精品咖啡店的社交媒體經(jīng)理，這家咖啡店以使用公平貿(mào)易的有機咖啡豆而自豪。你的目標是吸引經(jīng)常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子：— 用生動的視覺效果和誘人的描述介紹一種新的季節(jié)性混合咖啡。— 宣傳即將舉行的現(xiàn)場音樂晚會，突出舒適的氛圍和優(yōu)質(zhì)的咖啡。— 分享客戶對他們最喜歡的咖啡和學習場所的評價。確保每篇帖子都引人入勝，使用對話語氣，并包含可提高知名度和推動互動的主題標簽。

評估提示也使用了類似的技術(shù)和框架進行評估。我將每個評估標準分為 5 個部分，每個部分價值 2 分，部分滿足標準則進行部分評分。

示例：

社交媒體文案響應評估提示：你是專業(yè)的文案撰稿人和編輯。根據(jù)以下標準對以下社交媒體文案（下面用三重引號分隔）進行 10 分制評分，其中每個點有 2 分，如果大綱未能完全捕捉到該元素，則給 0 分，如果大綱部分涵蓋該元素，則給 1 分，如果大綱完全涵蓋該標準的所有本質(zhì)，則給 2 分：評估社交媒體文案的以下元素：— 相關(guān)性：內(nèi)容是否與當前趨勢、熱門標簽和受眾興趣一致？— 對話語氣：文案是否使用友好、隨意的語氣，引起社交媒體用戶的共鳴？— 視覺沖擊：文案是否提到使用引人入勝的視覺效果（例如圖像、視頻或 GIF）來提高參與度？ — 簡潔性：文案是否簡短、簡潔，一目了然？ — 可分享性：內(nèi)容是否以鼓勵點贊、分享和評論的方式制作，以擴大影響力？ “””{text}”””

所有 22 個類別都進行了此項測試。

4、生成和評估

現(xiàn)在是生成和評估響應的時候了。

我使用 Groq 評估了 Llama-3–70b 和 Mixtral-8x7B。
Google Vertex 的 AI Studio 評估了 Gemini 1.5 Pro 和
Anthropic 的工作臺和聊天來評估他們的 Claude 模型。

為了進行評估，我使用了 chatgpt，默認情況下它使用 gpt-4-turbo。

以下是我按類別得到的結(jié)果：

4.1 博客寫作

GPT 的評估分數(shù)：

我的評估分數(shù)：

然后將以上兩個分數(shù)的平均數(shù)作為最終得分：

博客寫作評選 — Llama-3–70B

Llama-3–70b 得分 48.5，其大綱非常詳盡，能夠從參考文本中學習，并且具有高質(zhì)量的文本生成能力，最終成為贏家。

Sonnet 和 Gemini 也給出了很好的回答，但 Llama 的回答具有人們在閱讀真實文本時所尋找的細微差別或?qū)毠?jié)的更多關(guān)注。

4.2 電子郵件寫作

這是一個有點令人失望的類別，部分原因是提示，我應該花更多精力來制作更詳細的電子郵件提示，但是，它們對所有人來說都是一樣的，所以讓我們看看結(jié)果：

GPT 分數(shù)：

我的分數(shù)：

最終分數(shù)：

電子郵件寫作的評價——Llama-3–70B

同樣，Llama-3–70b 以 41.5 分（滿分 50 分）的表現(xiàn)優(yōu)于其競爭對手，但我對質(zhì)量和現(xiàn)代電子郵件寫作實踐并不十分滿意，我們優(yōu)先考慮簡潔和直接的回復，但考慮到提示，他們做得相當不錯。

4.3 文案撰寫

在文案撰寫方面，所有模型都表現(xiàn)得相當不錯。

GPT 得分：

我的得分：

最終得分：

文案撰寫評價 — Llama-3–70B

llama-3 的質(zhì)量和遵循指令的能力都很不錯。它抓住了提示中的每個小細節(jié)，因此不僅在 GPT 的評估中得分很高，而且我還發(fā)現(xiàn)文案更詳細、更有條理、更連貫、更有吸引力。

4.4 劇本寫作

GPT 分數(shù)：

我的分數(shù)：

最終分數(shù)：

劇本寫作評價——Llama-3–70b

所有模型在制作初稿時都表現(xiàn)得相當不錯，但需要大量改進才能跟上另一位作者的寫作風格，這是我這次錯過的，但肯定會檢查的。

我們有 3 個獲勝者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。

4.5 內(nèi)容摘要

這是我手頭上最重要的任務之一，結(jié)果如下：

GPT 分數(shù)：

我的分數(shù)：

最終分數(shù)：

內(nèi)容摘要評價——Claude 和 Gemini 1.5 Pro

Claude 模型生成的摘要質(zhì)量讓我感到驚訝。Claude Sonnet 和我也嘗試過 Claude 3 Opus（他們最好的模型，但非常昂貴），Opus 的摘要結(jié)構(gòu)嚴謹、注重細節(jié)，盡可能地抓住了文檔的精髓。經(jīng)過微調(diào)后，這些模型的表現(xiàn)絕對非常好。