來(lái)源:Anthropic

不同模型版本之間的準(zhǔn)確率提升了近 13%,這并非小幅改進(jìn)。這表明 Claude 3.7 Sonnet 已針對(duì)更好地理解和執(zhí)行編程相關(guān)任務(wù)進(jìn)行了優(yōu)化。對(duì)于依賴 Claude 進(jìn)行軟件工程、調(diào)試或自動(dòng)化的用戶來(lái)說(shuō),此次升級(jí)帶來(lái)了切實(shí)的改變。

代理工具的使用

代理工具使用性能是 Claude 3.7 Sonnet 超越其前代產(chǎn)品的另一個(gè)方面。在零售相關(guān)任務(wù)中,其準(zhǔn)確率達(dá)到 81.2%,高于 Claude 3.5 Sonnet 的 71.5%。在航空相關(guān)任務(wù)中,其準(zhǔn)確率達(dá)到 58.4%,比前一版本提高了近 10 個(gè)百分點(diǎn)。

來(lái)源:Anthropic

總體基準(zhǔn)

在所有基準(zhǔn)測(cè)試中,最大的進(jìn)步來(lái)自于擴(kuò)展思維模式,這使得 Claude 3.7 在復(fù)雜的推理任務(wù)中表現(xiàn)得更高。依賴人工智能進(jìn)行結(jié)構(gòu)化工作流程、編碼或解決問(wèn)題的用戶會(huì)發(fā)現(xiàn) Claude 3.5 和 Claude 3.7 之間存在明顯差異,尤其是在使用擴(kuò)展思維時(shí)。

來(lái)源:Anthropic

這一進(jìn)展大部分源自Claude 的延伸思考,讓我們進(jìn)一步了解一下。

Claude 的延伸思考

啟用擴(kuò)展思考模式后,Claude 在最終確定答案之前所采取的推理步驟數(shù)量會(huì)增加。開發(fā)人員可以通過(guò)設(shè)置思考預(yù)算來(lái)微調(diào)此過(guò)程,該預(yù)算定義了模型在解決問(wèn)題時(shí)可以使用多少個(gè)標(biāo)記。如下面的 AIME 2024 性能圖所示,隨著分配更多標(biāo)記,準(zhǔn)確率會(huì)提高,并呈現(xiàn)對(duì)數(shù)趨勢(shì)。

來(lái)源:Anthropic

這種方法反映了人類的認(rèn)知努力:對(duì)于簡(jiǎn)單的任務(wù),快速回答就足夠了,但對(duì)于復(fù)雜的任務(wù),更深入的分析會(huì)帶來(lái)更好的結(jié)果。Claude 現(xiàn)在可以決定何時(shí)暫停、重新評(píng)估和改進(jìn)其推理,而不是默認(rèn)立即做出反應(yīng)。

擴(kuò)展思維模式最有趣的方面之一是 Claude 的推理過(guò)程對(duì)用戶可見。然而,這一特性也帶來(lái)了一些挑戰(zhàn)。雖然它提供了對(duì)人工智能推理的洞察,但所顯示的思維過(guò)程可能并不總是與模型實(shí)際做出決策的方式完全一致。“忠實(shí)度問(wèn)題”——人工智能自我報(bào)告的想法是否準(zhǔn)確地代表了其內(nèi)部機(jī)制——仍然是一個(gè)懸而未決的研究問(wèn)題。

Claude 3.7 Sonnet 進(jìn)行長(zhǎng)期迭代推理的能力在 OSWorld 和 Pokémon Red 游戲等評(píng)估中得到了檢驗(yàn)。例如,在 Pokémon Red 中,Claude 3.7 Sonnet 的游戲進(jìn)度遠(yuǎn)高于之前的版本,能夠完成多個(gè)里程碑,而之前的模型在游戲早期就停滯不前了。

來(lái)源:Anthropic

Claude 3.7 Sonnet 基準(zhǔn)測(cè)試

我們已經(jīng)看到了 Claude 3.7 Sonnet 與其早期版本相比的表現(xiàn)如何,但它與 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何?

從更新的基準(zhǔn)來(lái)看,Claude 3.7 Sonnet 已成為性能最好的模型之一,尤其是在推理密集型任務(wù)、編碼和代理工具使用方面。

推理和數(shù)學(xué)

在研究生水平推理 (GPQA Diamond) 中,Claude 3.7 Sonnet 在標(biāo)準(zhǔn)模式下得分為 68.0%,在擴(kuò)展思維模式下得分為 84.8%,是此類別中最強(qiáng)大的模型之一。它的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%),而 Grok 3 Beta (84.6%) 僅略勝一籌。

基準(zhǔn)Claude 3.7 Sonnet (Standard)Claude 3.7 Sonnet (Extended Thinking)OpenAI o1OpenAI o3-mini (high)DeepSeek R1Grok 3 Beta
GPQA Diamond (Graduate-level reasoning)68.0%84.8%78.0%79.7%71.5%84.6%
AIME 2024 (High school math competition)23.3%80.0%83.3%87.3%79.8%93.3%
Math Problem-Solving (MATH 500)82.2%96.2%96.4%97.9%97.3%

測(cè)試高中數(shù)學(xué)競(jìng)賽問(wèn)題的AIME 2024基準(zhǔn)測(cè)試也顯示出類似的趨勢(shì)。Claude 3.7 Sonnet 比以前的版本有了很大的飛躍,在啟用擴(kuò)展思維的情況下得分為 80.0%。雖然它以微弱優(yōu)勢(shì)擊敗了 DeepSeek-R1(79.8%),但仍落后于 OpenAI 的 o3-mini(87.3%)和 Grok 3 Beta(93.3%)。

在數(shù)學(xué)問(wèn)題解決(MATH 500)方面,Claude 3.7 Sonnet 達(dá)到了 96.2%,與 OpenAI 的 o3-mini(97.9%)和 DeepSeek R1(97.3%)非常接近。

編碼和代理工具的使用

Claude 3.7 Sonnet 在編碼基準(zhǔn)測(cè)試中取得了最大的進(jìn)步。在 SWE-bench Verified(評(píng)估軟件工程任務(wù)中的 AI 模型)中,Claude 3.7 Sonnet 得分為 62.3%,使用自定義支架后上升到 70.3%。這使其遠(yuǎn)遠(yuǎn)領(lǐng)先于 OpenAI 的 o1(48.9%)和 o3-mini(49.3%),以及在設(shè)計(jì)時(shí)考慮到編碼的 DeepSeek R1(49.2%)。這證實(shí)了 Claude 3.7 現(xiàn)在是編程相關(guān)任務(wù)的最佳 AI 模型之一。

基準(zhǔn)Claude 3.7 Sonnet (Standard)Claude 3.7 Sonnet (Custom Scaffold)OpenAI o1OpenAI o3-mini (high)DeepSeek R1
SWE-bench Verified (Coding)62.3%70.3%48.9%49.3%49.2%
TAU-bench Retail (Tool Use)81.2%73.5%
TAU-bench Airline (Tool Use)58.4%54.2%

除了編碼之外,Claude 3.7 Sonnet 在代理工具使用方面也處于領(lǐng)先地位,使其成為自動(dòng)化和工作流程執(zhí)行的不二之選。在 TAU-bench(測(cè)試 AI 在結(jié)構(gòu)化環(huán)境中與外部工具交互的能力)上,Claude 3.7 在零售相關(guān)任務(wù)中的得分為 81.2%,超過(guò)了 OpenAI o1(73.5%)。在航空相關(guān)任務(wù)中,Claude 3.7 達(dá)到 58.4%,再次超越 OpenAI o1(54.2%)。

這表明 Claude 3.7 非常適合商業(yè)應(yīng)用程序和結(jié)構(gòu)化工作流程,使其成為希望將 AI 融入決策和運(yùn)營(yíng)流程的企業(yè)用戶的有力選擇。

如何訪問(wèn) Claude 3.7 Sonnet

Claude 3.7 Sonnet 可通過(guò)多種渠道獲得,包括 Anthropic 的 Web 界面、Claude 在各種應(yīng)用中的集成以及開發(fā)人員的 API 訪問(wèn)。雖然該模型是一項(xiàng)重大升級(jí),但它的可用性也有一些限制——尤其是如果你想使用思維模式,目前它被鎖定在付費(fèi)層級(jí)后面。

Web 和應(yīng)用程序訪問(wèn)

對(duì)于普通用戶,可以通過(guò) Anthropic 的官方網(wǎng)站 ( claude.ai ) 和 Claude 應(yīng)用程序訪問(wèn) Claude 3.7 Sonnet。它提供免費(fèi)套餐,但有限制:

要啟用思考模式,您需要從模型下拉菜單中單擊“擴(kuò)展” :

Claude 3.7 Sonnet API 訪問(wèn)

開發(fā)人員可以使用 Anthropic 的 API 將 Claude 3.7 Sonnet 集成到他們的應(yīng)用程序中,該 API 可通過(guò)Anthropic 的開發(fā)人員門戶訪問(wèn)。該 API 支持基于代幣使用情況的按需付費(fèi)定價(jià)模型。

以下是 Anthropic API 產(chǎn)品概述:

特征Claude 3.7 SonnetClaude 3.7 SonnetClaude 3.5 HaikuClaude 3 OpusClaude 3 Haiku
描述我們最智能的模型我們之前最智能的模型我們最快的型號(hào)適用于復(fù)雜任務(wù)的強(qiáng)大模型最快、最緊湊的型號(hào),可實(shí)現(xiàn)近乎即時(shí)的響應(yīng)
優(yōu)勢(shì)最高級(jí)別的智能和能力,具有可切換的擴(kuò)展思維高水平的智力和能力飛速發(fā)展的情報(bào)頂級(jí)智力、流利程度和理解力快速、準(zhǔn)確的目標(biāo)表現(xiàn)
多種語(yǔ)言是的是的是的是的是的
想象是的是的是的是的是的
延伸思考是的
API 型號(hào)名稱Claude-3-7-十四行詩(shī)-20250219升級(jí)版本:claude-3-5-sonnet-20241022先前版本:claude-3-5-sonnet-20240620Claude-3-5-俳句-20241022Claude-3-作品-20240229Claude-3-俳句-20240307
比較延遲快速地快速地最快的中等速度最快的
上下文窗口20萬(wàn)20萬(wàn)20萬(wàn)20萬(wàn)20萬(wàn)
最大輸出Normal: 8192 tokens
Extended thinking:64000 tokens
8192 tokens8192 tokens4096 tokens4096 tokens
成本(輸入/輸出/百萬(wàn)tokens)$3.00 / $15.00$3.00 / $15.000.80 美元 / 4.00 美元$15.00 / $75.000.25 美元 / 1.25 美元
訓(xùn)練數(shù)據(jù)截?cái)?/strong>2024 年 10 月2024 年 4 月2024 年 7 月2023 年 8 月2023 年 8 月

來(lái)源:Anthropic

確保始終檢查最新的 API 定價(jià)。

結(jié)論

Anthropic 剛剛推出了 Claude 3.7 Sonnet,這是該公司近期最大的舉措,該模型最終將其帶入了推理 AI 領(lǐng)域。根據(jù)基準(zhǔn)測(cè)試,我們可以看到,它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力競(jìng)爭(zhēng)對(duì)手,在編碼、結(jié)構(gòu)化問(wèn)題解決和代理工具使用方面具有強(qiáng)大的性能。

能夠在通用模式和推理模式之間切換使其更加通用,但將思維模式鎖定在付費(fèi)墻后面感覺像是一個(gè)失誤,尤其是在有免費(fèi)替代品可用的情況下。不過(guò),Claude 3.7 是一個(gè)重大進(jìn)步。

上一篇:

全球首個(gè)混合推理模型 Claude 3.7 Sonnet 問(wèn)世,編碼實(shí)力碾壓眾對(duì)手

下一篇:

DeepSeek 新開源項(xiàng)目 DeepGEMM
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)