
Salesforce元數(shù)據(jù)API開發(fā)指南
來(lái)源:Anthropic
不同模型版本之間的準(zhǔn)確率提升了近 13%,這并非小幅改進(jìn)。這表明 Claude 3.7 Sonnet 已針對(duì)更好地理解和執(zhí)行編程相關(guān)任務(wù)進(jìn)行了優(yōu)化。對(duì)于依賴 Claude 進(jìn)行軟件工程、調(diào)試或自動(dòng)化的用戶來(lái)說(shuō),此次升級(jí)帶來(lái)了切實(shí)的改變。
代理工具使用性能是 Claude 3.7 Sonnet 超越其前代產(chǎn)品的另一個(gè)方面。在零售相關(guān)任務(wù)中,其準(zhǔn)確率達(dá)到 81.2%,高于 Claude 3.5 Sonnet 的 71.5%。在航空相關(guān)任務(wù)中,其準(zhǔn)確率達(dá)到 58.4%,比前一版本提高了近 10 個(gè)百分點(diǎn)。
來(lái)源:Anthropic
在所有基準(zhǔn)測(cè)試中,最大的進(jìn)步來(lái)自于擴(kuò)展思維模式,這使得 Claude 3.7 在復(fù)雜的推理任務(wù)中表現(xiàn)得更高。依賴人工智能進(jìn)行結(jié)構(gòu)化工作流程、編碼或解決問(wèn)題的用戶會(huì)發(fā)現(xiàn) Claude 3.5 和 Claude 3.7 之間存在明顯差異,尤其是在使用擴(kuò)展思維時(shí)。
來(lái)源:Anthropic
這一進(jìn)展大部分源自Claude 的延伸思考,讓我們進(jìn)一步了解一下。
啟用擴(kuò)展思考模式后,Claude 在最終確定答案之前所采取的推理步驟數(shù)量會(huì)增加。開發(fā)人員可以通過(guò)設(shè)置思考預(yù)算來(lái)微調(diào)此過(guò)程,該預(yù)算定義了模型在解決問(wèn)題時(shí)可以使用多少個(gè)標(biāo)記。如下面的 AIME 2024 性能圖所示,隨著分配更多標(biāo)記,準(zhǔn)確率會(huì)提高,并呈現(xiàn)對(duì)數(shù)趨勢(shì)。
來(lái)源:Anthropic
這種方法反映了人類的認(rèn)知努力:對(duì)于簡(jiǎn)單的任務(wù),快速回答就足夠了,但對(duì)于復(fù)雜的任務(wù),更深入的分析會(huì)帶來(lái)更好的結(jié)果。Claude 現(xiàn)在可以決定何時(shí)暫停、重新評(píng)估和改進(jìn)其推理,而不是默認(rèn)立即做出反應(yīng)。
擴(kuò)展思維模式最有趣的方面之一是 Claude 的推理過(guò)程對(duì)用戶可見。然而,這一特性也帶來(lái)了一些挑戰(zhàn)。雖然它提供了對(duì)人工智能推理的洞察,但所顯示的思維過(guò)程可能并不總是與模型實(shí)際做出決策的方式完全一致。“忠實(shí)度問(wèn)題”——人工智能自我報(bào)告的想法是否準(zhǔn)確地代表了其內(nèi)部機(jī)制——仍然是一個(gè)懸而未決的研究問(wèn)題。
Claude 3.7 Sonnet 進(jìn)行長(zhǎng)期迭代推理的能力在 OSWorld 和 Pokémon Red 游戲等評(píng)估中得到了檢驗(yàn)。例如,在 Pokémon Red 中,Claude 3.7 Sonnet 的游戲進(jìn)度遠(yuǎn)高于之前的版本,能夠完成多個(gè)里程碑,而之前的模型在游戲早期就停滯不前了。
來(lái)源:Anthropic
我們已經(jīng)看到了 Claude 3.7 Sonnet 與其早期版本相比的表現(xiàn)如何,但它與 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何?
從更新的基準(zhǔn)來(lái)看,Claude 3.7 Sonnet 已成為性能最好的模型之一,尤其是在推理密集型任務(wù)、編碼和代理工具使用方面。
在研究生水平推理 (GPQA Diamond) 中,Claude 3.7 Sonnet 在標(biāo)準(zhǔn)模式下得分為 68.0%,在擴(kuò)展思維模式下得分為 84.8%,是此類別中最強(qiáng)大的模型之一。它的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%),而 Grok 3 Beta (84.6%) 僅略勝一籌。
基準(zhǔn) | Claude 3.7 Sonnet (Standard) | Claude 3.7 Sonnet (Extended Thinking) | OpenAI o1 | OpenAI o3-mini (high) | DeepSeek R1 | Grok 3 Beta |
GPQA Diamond (Graduate-level reasoning) | 68.0% | 84.8% | 78.0% | 79.7% | 71.5% | 84.6% |
AIME 2024 (High school math competition) | 23.3% | 80.0% | 83.3% | 87.3% | 79.8% | 93.3% |
Math Problem-Solving (MATH 500) | 82.2% | 96.2% | 96.4% | 97.9% | 97.3% | – |
測(cè)試高中數(shù)學(xué)競(jìng)賽問(wèn)題的AIME 2024基準(zhǔn)測(cè)試也顯示出類似的趨勢(shì)。Claude 3.7 Sonnet 比以前的版本有了很大的飛躍,在啟用擴(kuò)展思維的情況下得分為 80.0%。雖然它以微弱優(yōu)勢(shì)擊敗了 DeepSeek-R1(79.8%),但仍落后于 OpenAI 的 o3-mini(87.3%)和 Grok 3 Beta(93.3%)。
在數(shù)學(xué)問(wèn)題解決(MATH 500)方面,Claude 3.7 Sonnet 達(dá)到了 96.2%,與 OpenAI 的 o3-mini(97.9%)和 DeepSeek R1(97.3%)非常接近。
Claude 3.7 Sonnet 在編碼基準(zhǔn)測(cè)試中取得了最大的進(jìn)步。在 SWE-bench Verified(評(píng)估軟件工程任務(wù)中的 AI 模型)中,Claude 3.7 Sonnet 得分為 62.3%,使用自定義支架后上升到 70.3%。這使其遠(yuǎn)遠(yuǎn)領(lǐng)先于 OpenAI 的 o1(48.9%)和 o3-mini(49.3%),以及在設(shè)計(jì)時(shí)考慮到編碼的 DeepSeek R1(49.2%)。這證實(shí)了 Claude 3.7 現(xiàn)在是編程相關(guān)任務(wù)的最佳 AI 模型之一。
基準(zhǔn) | Claude 3.7 Sonnet (Standard) | Claude 3.7 Sonnet (Custom Scaffold) | OpenAI o1 | OpenAI o3-mini (high) | DeepSeek R1 |
SWE-bench Verified (Coding) | 62.3% | 70.3% | 48.9% | 49.3% | 49.2% |
TAU-bench Retail (Tool Use) | 81.2% | – | 73.5% | – | – |
TAU-bench Airline (Tool Use) | 58.4% | – | 54.2% | – | – |
除了編碼之外,Claude 3.7 Sonnet 在代理工具使用方面也處于領(lǐng)先地位,使其成為自動(dòng)化和工作流程執(zhí)行的不二之選。在 TAU-bench(測(cè)試 AI 在結(jié)構(gòu)化環(huán)境中與外部工具交互的能力)上,Claude 3.7 在零售相關(guān)任務(wù)中的得分為 81.2%,超過(guò)了 OpenAI o1(73.5%)。在航空相關(guān)任務(wù)中,Claude 3.7 達(dá)到 58.4%,再次超越 OpenAI o1(54.2%)。
這表明 Claude 3.7 非常適合商業(yè)應(yīng)用程序和結(jié)構(gòu)化工作流程,使其成為希望將 AI 融入決策和運(yùn)營(yíng)流程的企業(yè)用戶的有力選擇。
Claude 3.7 Sonnet 可通過(guò)多種渠道獲得,包括 Anthropic 的 Web 界面、Claude 在各種應(yīng)用中的集成以及開發(fā)人員的 API 訪問(wèn)。雖然該模型是一項(xiàng)重大升級(jí),但它的可用性也有一些限制——尤其是如果你想使用思維模式,目前它被鎖定在付費(fèi)層級(jí)后面。
對(duì)于普通用戶,可以通過(guò) Anthropic 的官方網(wǎng)站 ( claude.ai ) 和 Claude 應(yīng)用程序訪問(wèn) Claude 3.7 Sonnet。它提供免費(fèi)套餐,但有限制:
要啟用思考模式,您需要從模型下拉菜單中單擊“擴(kuò)展” :
開發(fā)人員可以使用 Anthropic 的 API 將 Claude 3.7 Sonnet 集成到他們的應(yīng)用程序中,該 API 可通過(guò)Anthropic 的開發(fā)人員門戶訪問(wèn)。該 API 支持基于代幣使用情況的按需付費(fèi)定價(jià)模型。
以下是 Anthropic API 產(chǎn)品概述:
特征 | Claude 3.7 Sonnet | Claude 3.7 Sonnet | Claude 3.5 Haiku | Claude 3 Opus | Claude 3 Haiku |
描述 | 我們最智能的模型 | 我們之前最智能的模型 | 我們最快的型號(hào) | 適用于復(fù)雜任務(wù)的強(qiáng)大模型 | 最快、最緊湊的型號(hào),可實(shí)現(xiàn)近乎即時(shí)的響應(yīng) |
優(yōu)勢(shì) | 最高級(jí)別的智能和能力,具有可切換的擴(kuò)展思維 | 高水平的智力和能力 | 飛速發(fā)展的情報(bào) | 頂級(jí)智力、流利程度和理解力 | 快速、準(zhǔn)確的目標(biāo)表現(xiàn) |
多種語(yǔ)言 | 是的 | 是的 | 是的 | 是的 | 是的 |
想象 | 是的 | 是的 | 是的 | 是的 | 是的 |
延伸思考 | 是的 | 不 | 不 | 不 | 不 |
API 型號(hào)名稱 | Claude-3-7-十四行詩(shī)-20250219 | 升級(jí)版本:claude-3-5-sonnet-20241022先前版本:claude-3-5-sonnet-20240620 | Claude-3-5-俳句-20241022 | Claude-3-作品-20240229 | Claude-3-俳句-20240307 |
比較延遲 | 快速地 | 快速地 | 最快的 | 中等速度 | 最快的 |
上下文窗口 | 20萬(wàn) | 20萬(wàn) | 20萬(wàn) | 20萬(wàn) | 20萬(wàn) |
最大輸出 | Normal: 8192 tokens Extended thinking:64000 tokens | 8192 tokens | 8192 tokens | 4096 tokens | 4096 tokens |
成本(輸入/輸出/百萬(wàn)tokens) | $3.00 / $15.00 | $3.00 / $15.00 | 0.80 美元 / 4.00 美元 | $15.00 / $75.00 | 0.25 美元 / 1.25 美元 |
訓(xùn)練數(shù)據(jù)截?cái)?/strong> | 2024 年 10 月 | 2024 年 4 月 | 2024 年 7 月 | 2023 年 8 月 | 2023 年 8 月 |
來(lái)源:Anthropic
確保始終檢查最新的 API 定價(jià)。
Anthropic 剛剛推出了 Claude 3.7 Sonnet,這是該公司近期最大的舉措,該模型最終將其帶入了推理 AI 領(lǐng)域。根據(jù)基準(zhǔn)測(cè)試,我們可以看到,它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力競(jìng)爭(zhēng)對(duì)手,在編碼、結(jié)構(gòu)化問(wèn)題解決和代理工具使用方面具有強(qiáng)大的性能。
能夠在通用模式和推理模式之間切換使其更加通用,但將思維模式鎖定在付費(fèi)墻后面感覺像是一個(gè)失誤,尤其是在有免費(fèi)替代品可用的情況下。不過(guò),Claude 3.7 是一個(gè)重大進(jìn)步。
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)