人妻无码中文字幕,日本大片免a费观看视频,人妻无码中文久久久久专区

來(lái)源：Anthropic

不同模型版本之間的準(zhǔn)確率提升了近 13%，這并非小幅改進(jìn)。這表明 Claude 3.7 Sonnet 已針對(duì)更好地理解和執(zhí)行編程相關(guān)任務(wù)進(jìn)行了優(yōu)化。對(duì)于依賴 Claude 進(jìn)行軟件工程、調(diào)試或自動(dòng)化的用戶來(lái)說(shuō)，此次升級(jí)帶來(lái)了切實(shí)的改變。

代理工具的使用

代理工具使用性能是 Claude 3.7 Sonnet 超越其前代產(chǎn)品的另一個(gè)方面。在零售相關(guān)任務(wù)中，其準(zhǔn)確率達(dá)到 81.2%，高于 Claude 3.5 Sonnet 的 71.5%。在航空相關(guān)任務(wù)中，其準(zhǔn)確率達(dá)到 58.4%，比前一版本提高了近 10 個(gè)百分點(diǎn)。

來(lái)源：Anthropic

總體基準(zhǔn)

在所有基準(zhǔn)測(cè)試中，最大的進(jìn)步來(lái)自于擴(kuò)展思維模式，這使得 Claude 3.7 在復(fù)雜的推理任務(wù)中表現(xiàn)得更高。依賴人工智能進(jìn)行結(jié)構(gòu)化工作流程、編碼或解決問(wèn)題的用戶會(huì)發(fā)現(xiàn) Claude 3.5 和 Claude 3.7 之間存在明顯差異，尤其是在使用擴(kuò)展思維時(shí)。

來(lái)源：Anthropic

這一進(jìn)展大部分源自Claude 的延伸思考，讓我們進(jìn)一步了解一下。

Claude 的延伸思考

啟用擴(kuò)展思考模式后，Claude 在最終確定答案之前所采取的推理步驟數(shù)量會(huì)增加。開發(fā)人員可以通過(guò)設(shè)置思考預(yù)算來(lái)微調(diào)此過(guò)程，該預(yù)算定義了模型在解決問(wèn)題時(shí)可以使用多少個(gè)標(biāo)記。如下面的 AIME 2024 性能圖所示，隨著分配更多標(biāo)記，準(zhǔn)確率會(huì)提高，并呈現(xiàn)對(duì)數(shù)趨勢(shì)。

來(lái)源：Anthropic

這種方法反映了人類的認(rèn)知努力：對(duì)于簡(jiǎn)單的任務(wù)，快速回答就足夠了，但對(duì)于復(fù)雜的任務(wù)，更深入的分析會(huì)帶來(lái)更好的結(jié)果。Claude 現(xiàn)在可以決定何時(shí)暫停、重新評(píng)估和改進(jìn)其推理，而不是默認(rèn)立即做出反應(yīng)。

擴(kuò)展思維模式最有趣的方面之一是 Claude 的推理過(guò)程對(duì)用戶可見。然而，這一特性也帶來(lái)了一些挑戰(zhàn)。雖然它提供了對(duì)人工智能推理的洞察，但所顯示的思維過(guò)程可能并不總是與模型實(shí)際做出決策的方式完全一致。“忠實(shí)度問(wèn)題”——人工智能自我報(bào)告的想法是否準(zhǔn)確地代表了其內(nèi)部機(jī)制——仍然是一個(gè)懸而未決的研究問(wèn)題。

Claude 3.7 Sonnet 進(jìn)行長(zhǎng)期迭代推理的能力在 OSWorld 和 Pokémon Red 游戲等評(píng)估中得到了檢驗(yàn)。例如，在 Pokémon Red 中，Claude 3.7 Sonnet 的游戲進(jìn)度遠(yuǎn)高于之前的版本，能夠完成多個(gè)里程碑，而之前的模型在游戲早期就停滯不前了。

來(lái)源：Anthropic

Claude 3.7 Sonnet 基準(zhǔn)測(cè)試

我們已經(jīng)看到了 Claude 3.7 Sonnet 與其早期版本相比的表現(xiàn)如何，但它與 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何？

從更新的基準(zhǔn)來(lái)看，Claude 3.7 Sonnet 已成為性能最好的模型之一，尤其是在推理密集型任務(wù)、編碼和代理工具使用方面。

推理和數(shù)學(xué)

在研究生水平推理 (GPQA Diamond) 中，Claude 3.7 Sonnet 在標(biāo)準(zhǔn)模式下得分為 68.0%，在擴(kuò)展思維模式下得分為 84.8%，是此類別中最強(qiáng)大的模型之一。它的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%)，而 Grok 3 Beta (84.6%) 僅略勝一籌。

基準(zhǔn)	Claude 3.7 Sonnet (Standard)	Claude 3.7 Sonnet (Extended Thinking)	OpenAI o1	OpenAI o3-mini (high)	DeepSeek R1	Grok 3 Beta
GPQA Diamond (Graduate-level reasoning)	68.0％	84.8％	78.0％	79.7％	71.5％	84.6％
AIME 2024 (High school math competition)	23.3%	80.0％	83.3％	87.3％	79.8％	93.3％
Math Problem-Solving (MATH 500)	82.2％	96.2％	96.4％	97.9％	97.3％	–

測(cè)試高中數(shù)學(xué)競(jìng)賽問(wèn)題的AIME 2024基準(zhǔn)測(cè)試也顯示出類似的趨勢(shì)。Claude 3.7 Sonnet 比以前的版本有了很大的飛躍，在啟用擴(kuò)展思維的情況下得分為 80.0%。雖然它以微弱優(yōu)勢(shì)擊敗了 DeepSeek-R1（79.8%），但仍落后于 OpenAI 的 o3-mini（87.3%）和 Grok 3 Beta（93.3%）。

在數(shù)學(xué)問(wèn)題解決（MATH 500）方面，Claude 3.7 Sonnet 達(dá)到了 96.2%，與 OpenAI 的 o3-mini（97.9%）和 DeepSeek R1（97.3%）非常接近。

編碼和代理工具的使用

Claude 3.7 Sonnet 在編碼基準(zhǔn)測(cè)試中取得了最大的進(jìn)步。在 SWE-bench Verified（評(píng)估軟件工程任務(wù)中的 AI 模型）中，Claude 3.7 Sonnet 得分為 62.3%，使用自定義支架后上升到 70.3%。這使其遠(yuǎn)遠(yuǎn)領(lǐng)先于 OpenAI 的 o1（48.9%）和 o3-mini（49.3%），以及在設(shè)計(jì)時(shí)考慮到編碼的 DeepSeek R1（49.2%）。這證實(shí)了 Claude 3.7 現(xiàn)在是編程相關(guān)任務(wù)的最佳 AI 模型之一。

基準(zhǔn)	Claude 3.7 Sonnet (Standard)	Claude 3.7 Sonnet (Custom Scaffold)	OpenAI o1	OpenAI o3-mini (high)	DeepSeek R1
SWE-bench Verified (Coding)	62.3%	70.3％	48.9％	49.3％	49.2％
TAU-bench Retail (Tool Use)	81.2％	–	73.5％	–	–
TAU-bench Airline (Tool Use)	58.4％	–	54.2％	–	–

除了編碼之外，Claude 3.7 Sonnet 在代理工具使用方面也處于領(lǐng)先地位，使其成為自動(dòng)化和工作流程執(zhí)行的不二之選。在 TAU-bench（測(cè)試 AI 在結(jié)構(gòu)化環(huán)境中與外部工具交互的能力）上，Claude 3.7 在零售相關(guān)任務(wù)中的得分為 81.2%，超過(guò)了 OpenAI o1（73.5%）。在航空相關(guān)任務(wù)中，Claude 3.7 達(dá)到 58.4%，再次超越 OpenAI o1（54.2%）。

這表明 Claude 3.7 非常適合商業(yè)應(yīng)用程序和結(jié)構(gòu)化工作流程，使其成為希望將 AI 融入決策和運(yùn)營(yíng)流程的企業(yè)用戶的有力選擇。

如何訪問(wèn) Claude 3.7 Sonnet

Claude 3.7 Sonnet 可通過(guò)多種渠道獲得，包括 Anthropic 的 Web 界面、Claude 在各種應(yīng)用中的集成以及開發(fā)人員的 API 訪問(wèn)。雖然該模型是一項(xiàng)重大升級(jí)，但它的可用性也有一些限制——尤其是如果你想使用思維模式，目前它被鎖定在付費(fèi)層級(jí)后面。

Web 和應(yīng)用程序訪問(wèn)

對(duì)于普通用戶，可以通過(guò) Anthropic 的官方網(wǎng)站 ( claude.ai ) 和 Claude 應(yīng)用程序訪問(wèn) Claude 3.7 Sonnet。它提供免費(fèi)套餐，但有限制：

免費(fèi)用戶可以訪問(wèn) Claude 3.7 Sonnet 進(jìn)行寫作、總結(jié)和一般問(wèn)答等基本任務(wù)，但思考模式被禁用。
Claude Pro 用戶（每月 20 美元的付費(fèi)計(jì)劃）可以完全訪問(wèn)思考模式，以及更高的消息限制和高峰使用時(shí)段的優(yōu)先訪問(wèn)權(quán)。

要啟用思考模式，您需要從模型下拉菜單中單擊“擴(kuò)展” ：

Claude 3.7 Sonnet API 訪問(wèn)

開發(fā)人員可以使用 Anthropic 的 API 將 Claude 3.7 Sonnet 集成到他們的應(yīng)用程序中，該 API 可通過(guò)Anthropic 的開發(fā)人員門戶訪問(wèn)。該 API 支持基于代幣使用情況的按需付費(fèi)定價(jià)模型。

以下是 Anthropic API 產(chǎn)品概述：

特征	Claude 3.7 Sonnet	Claude 3.7 Sonnet	Claude 3.5 Haiku	Claude 3 Opus	Claude 3 Haiku
描述	我們最智能的模型	我們之前最智能的模型	我們最快的型號(hào)	適用于復(fù)雜任務(wù)的強(qiáng)大模型	最快、最緊湊的型號(hào)，可實(shí)現(xiàn)近乎即時(shí)的響應(yīng)
優(yōu)勢(shì)	最高級(jí)別的智能和能力，具有可切換的擴(kuò)展思維	高水平的智力和能力	飛速發(fā)展的情報(bào)	頂級(jí)智力、流利程度和理解力	快速、準(zhǔn)確的目標(biāo)表現(xiàn)
多種語(yǔ)言	是的	是的	是的	是的	是的
想象	是的	是的	是的	是的	是的
延伸思考	是的	不	不	不	不
API 型號(hào)名稱	Claude-3-7-十四行詩(shī)-20250219	升級(jí)版本：claude-3-5-sonnet-20241022先前版本：claude-3-5-sonnet-20240620	Claude-3-5-俳句-20241022	Claude-3-作品-20240229	Claude-3-俳句-20240307
比較延遲	快速地	快速地	最快的	中等速度	最快的
上下文窗口	20萬(wàn)	20萬(wàn)	20萬(wàn)	20萬(wàn)	20萬(wàn)
最大輸出	Normal: 8192 tokens Extended thinking:64000 tokens	8192 tokens	8192 tokens	4096 tokens	4096 tokens
成本（輸入/輸出/百萬(wàn)tokens）	$3.00 / $15.00	$3.00 / $15.00	0.80 美元 / 4.00 美元	$15.00 / $75.00	0.25 美元 / 1.25 美元
訓(xùn)練數(shù)據(jù)截?cái)?/strong>	2024 年 10 月	2024 年 4 月	2024 年 7 月	2023 年 8 月	2023 年 8 月

來(lái)源：Anthropic

確保始終檢查最新的 API 定價(jià)。

結(jié)論

Anthropic 剛剛推出了 Claude 3.7 Sonnet，這是該公司近期最大的舉措，該模型最終將其帶入了推理 AI 領(lǐng)域。根據(jù)基準(zhǔn)測(cè)試，我們可以看到，它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力競(jìng)爭(zhēng)對(duì)手，在編碼、結(jié)構(gòu)化問(wèn)題解決和代理工具使用方面具有強(qiáng)大的性能。

能夠在通用模式和推理模式之間切換使其更加通用，但將思維模式鎖定在付費(fèi)墻后面感覺像是一個(gè)失誤，尤其是在有免費(fèi)替代品可用的情況下。不過(guò)，Claude 3.7 是一個(gè)重大進(jìn)步。