早期 AI Agent Infra 情況

在當前,我們?nèi)蕴幱谑止ぶ谱?Agents 的時代。對開發(fā)人員來說,短期內(nèi)最有效的方式是構(gòu)建一個基礎(chǔ)設(shè)施,滿足開發(fā)人員手工制作 Agents 網(wǎng)絡(luò)的需求。隨著時間推移,前沿模型將引導(dǎo)更多的工作流程,開發(fā)人員可以專注于產(chǎn)品和數(shù)據(jù)。

有人說,在模型成熟之前,構(gòu)建應(yīng)用仿佛在流沙上搭建城堡,而這些基礎(chǔ)設(shè)施可能為應(yīng)用或代理創(chuàng)建者提供了一層緩沖帶,用于靈活適配并保持底層基礎(chǔ)設(shè)施的相對穩(wěn)定和持續(xù)迭代。

AI Agent Infra 現(xiàn)狀

整體來說,目前 AI Agent 技術(shù)棧分為平臺、記憶、規(guī)劃與編排、執(zhí)行和應(yīng)用 5 個板塊,我們將通過后文逐一介紹。

AI Agent 分層概念圖

01.平臺層Agent 開源框架

開發(fā)框架是用于構(gòu)建、部署和管理 agent 綜合平臺。提供模塊化的組件、集成接口和工作流設(shè)計,簡化了開發(fā)者創(chuàng)建復(fù)雜AI應(yīng)用的過程。支持數(shù)據(jù)處理、任務(wù)調(diào)度、上下文管理等功能,幫助實現(xiàn)高效、安全和可擴展的 AI 解決方案。

Agent開發(fā)框架

LangChain

LangChain 是一個圍繞 LLM 構(gòu)建的框架,適用于構(gòu)建聊天機器人、生成式問答( GQA ) 、摘要等應(yīng)用。

優(yōu)勢:多語言支持、模塊化設(shè)計、豐富的組件和集成結(jié)構(gòu)、完善的生態(tài)系統(tǒng);

劣勢:學(xué)習(xí)曲線陡峭、依賴外部 AI 服務(wù)和 API,可能增加集成和維護成本;

適合:多語言支持和模塊化設(shè)計的應(yīng)用開發(fā);

LlamaIndex

LlamaIndex 前身為 GPT-Index,是一個創(chuàng)新的數(shù)據(jù)框架,旨在簡化外部知識庫和大型語言模型的集成,包括各種文件格式,例如 PDF 和 PowerPoint,以及 Notion 和 Slack 等應(yīng)用程序,甚至 Postgres 和 MongoDB 等數(shù)據(jù)庫。

LlamaIndex

優(yōu)勢:數(shù)據(jù)檢索方面深度優(yōu)化、支持多種數(shù)據(jù)結(jié)構(gòu);

劣勢:功能單一、社區(qū)和資源支持相對較少;

適合:數(shù)據(jù)索引和檢索優(yōu)化場景;

Semantic Kernel

Semantic Kernel 是一個集成了 OpenAI、Azure OpenAI、Huggingface的SDK,特別之處在于它能夠自動與 AI 協(xié)調(diào)插件,借助 Semantic Kernel 規(guī)劃器,實現(xiàn)用戶獨特目標的計劃。

Semantic Kernel

優(yōu)勢:企業(yè)級支持、強大的自動化和擴展性,通過插件和計劃生成器執(zhí)行計劃;

劣勢:初始設(shè)置復(fù)雜、依賴微軟生態(tài);

適合:企業(yè)級應(yīng)用,需高度可擴展性和穩(wěn)定性的場景;

Griptape

Griptape 是一個模塊化 Python 框架,用于構(gòu)建 AI 驅(qū)動的應(yīng)用程序,包含結(jié)構(gòu)、記憶、任務(wù)、工具等多個模塊。

優(yōu)勢:結(jié)構(gòu)化工作流確保操作的可預(yù)測性和可靠性、模塊化設(shè)計、安全和性能優(yōu)化好;

劣勢:初始學(xué)習(xí)曲線較陡、社區(qū)和資源支持較少;

適合:構(gòu)建復(fù)雜 AI 工作流和代理,注重可預(yù)測性、安全性和性能的場景;

Agent 托管

Agent Hosting 是指在服務(wù)器或云基礎(chǔ)設(shè)施上部署和運行 AI Agent。托管這些代理需要提供所需的計算資源、安全性和拓展性,以及能夠高效可靠的運行。

Ollama,是這個方向最受關(guān)注的項目之一。提供了一整套用于下載、運行和管理 LLMs 的工具和服務(wù),用戶可以在本地設(shè)備上高效部署和操作 agent。適合需要快速部署和管理 AI 服務(wù)的中小型企業(yè)和獨立開發(fā)者。

LangServe,將 AI 鏈(模型和工作流)作為 REST API 進行部署,簡化了將復(fù)雜 AI 模型集成到生成環(huán)境中的過程,提供穩(wěn)定可拓展的 API 接口。適用于需要將 AI 功能通過 API 提供服務(wù)的企業(yè)和應(yīng)用。

E2B,開源的安全云環(huán)境,專門為 AI 應(yīng)用和 AI Agent 提供運行時環(huán)境。它通過提供隔離的沙箱環(huán)境,使 AI 代理和應(yīng)用能夠在云中安全地執(zhí)行代碼。適合用于構(gòu)建和部署需要安全運行環(huán)境的 AI 代理和應(yīng)用,特別是在代碼執(zhí)行和數(shù)據(jù)處理方面。

Agent 評估

用于評估 AI Agent 性能和質(zhì)量的工具。通常通過 Agent 響應(yīng)的準確性、檢索數(shù)據(jù)與問題的相關(guān)性、響應(yīng)的性能、安全性和用戶反饋等方式來進行評估。

AgentOps 和 BrainTrust強調(diào)全生命周期的代理管理和評估,注重自動化和安全性。

Context專注于對話系統(tǒng)的評估,提升用戶體驗和對話質(zhì)量。

LangSmith 和 LangFuse ,提供了全面的評估和調(diào)試工具,適用于需要詳細追蹤和分析 LLM 應(yīng)用的團隊。

WhyLabs強調(diào)實時監(jiān)控和異常檢測,適用于需要確保模型在生產(chǎn)環(huán)境中穩(wěn)定運行的場景。

LangSmith

Developer Tools

Developer Tools 提供了多樣化的解決方案,幫助開發(fā)者高效地創(chuàng)建、管理和優(yōu)化 AI Agent。無論是全面自動化的開發(fā)助手(Morph)、分步編程和調(diào)試工具(FlowPlay AI),還是支持自然語言編程的創(chuàng)新 IDE(Wordware),這些工具都為不同需求和場景提供了有力支持。

02.記憶層 開源框架

個性化(記憶)

指根據(jù)用戶的歷史行為、偏好和特定需求,動態(tài)調(diào)整和定制 AI 代理的響應(yīng)和功能。這有助于提升用戶體驗,使得 AI 代理更具相關(guān)性和響應(yīng)性。

WhyHowAI提供個性化推薦和響應(yīng)優(yōu)化。借助 WhyHow,開發(fā)人員可以自動創(chuàng)建知識圖譜并將其與現(xiàn)有工作流程集成,構(gòu)建有效的 RAG 解決方案。

Cognee通過分析用戶交互數(shù)據(jù),提供個性化服務(wù)。

Graphlit利用用戶數(shù)據(jù)進行個性化推薦。

LangMem專注于個性化記憶功能,使 AI 代理能夠記住用戶的偏好和歷史交互。

MemGPT:結(jié)合 GPT 模型進行個性化響應(yīng)生成。MemGPT 代表 Memory-GPT,是一種旨在通過引入更先進的內(nèi)存管理方案來提高大型語言模型 (LLM) 性能的系統(tǒng),有助于克服固定上下文窗口帶來的挑戰(zhàn)。

WhyHowAI

存儲

存儲是指為 Agent 提供高效、可靠的數(shù)據(jù)存儲解決方案。這些存儲系統(tǒng)需要能夠處理大量的數(shù)據(jù),并支持快速的讀寫操作,以確保 AI 模型的高效運行。

Pinecone專注于高性能的向量數(shù)據(jù)庫,支持快速的數(shù)據(jù)檢索。

Chroma提供高效的數(shù)據(jù)存儲解決方案,開源的向量數(shù)據(jù)庫,專為AI和嵌入式應(yīng)用設(shè)計。

Weaviate開源的向量數(shù)據(jù)庫,支持基于內(nèi)容的檢索和存儲。

MongoDB流行的 NoSQL 數(shù)據(jù)庫,提供靈活的存儲和檢索功能。

上下文(Context)

指 AI Agent 能夠理解和利用對話或任務(wù)中的上下文信息,以提供更加準確和相關(guān)的響應(yīng)。這一層次的技術(shù)確保了 Agent 能夠保持連貫性,并理解更復(fù)雜的用戶需求。

Unstructure:開源項目,致力于提供強大的上下文管理功能,使 AI 代理能夠理解和利用對話或任務(wù)中的上下文信息,從而提供更加連貫和智能的響應(yīng)。

03.規(guī)劃和編排層 開源框架

持久化

數(shù)據(jù)在系統(tǒng)長期保存和可用性,這包括將重要數(shù)據(jù)(如用戶交互、任務(wù)狀態(tài)和執(zhí)行日志)安全地保存到數(shù)據(jù)庫或其他存儲介質(zhì),以便在需要時能夠可靠地檢索和使用。

1)、Inngest:事件驅(qū)動的持久化工作流引擎,支持在任何平臺上運行。提供 SDK 在現(xiàn)有代碼庫中編寫持久函數(shù)和工作流,可通過 HTTP 端點進行調(diào)用,無需額外的基礎(chǔ)設(shè)施管理。該項目獲得了 a16z 領(lǐng)投的 610 萬美金。

2)、Hatchet:一個端到端的任務(wù)編排平臺,支持分布式、容錯任務(wù)隊列,旨在解決并發(fā)、公平性和速率限制等擴展問題,支持復(fù)雜任務(wù)編排和可視化 DAG(有向無環(huán)圖)工作流設(shè)計,以確保工作流的組織和可預(yù)測性。YC W24 布局了該項目,其愿景是在后臺使用異步任務(wù)運行緩慢的 OpenAI 請求,將復(fù)雜的任務(wù)串聯(lián)到工作流中,并設(shè)置重試和超時以從故障中恢復(fù)。

3)、Temporal:一個開源的工作流和編排系統(tǒng),支持任務(wù)的持久化存儲,確保任務(wù)的可靠執(zhí)行和恢復(fù)能力。

4)、Trigger.dev:通過事件驅(qū)動的方式,提供任務(wù)和工作流的持久化管理,幫助開發(fā)者更好地管理復(fù)雜任務(wù)。

編排

編排是指協(xié)調(diào)和管理不同 AI 組件和服務(wù),以確保它們在預(yù)定的流程中高效地協(xié)同工作。

1)、DSPy:通過模塊化和聲明式的方法,DSPy 的核心是引入一種結(jié)構(gòu)化的、以編程為中心的方法,取代傳統(tǒng)的提示工程,允許用戶以更清晰和高效的方式構(gòu)建和優(yōu)化復(fù)雜的 AI 系統(tǒng)。該架構(gòu)由斯坦福的研究人員開發(fā),目前在 Github 獲得 1.4 萬顆星。

2)、AutoGen:微軟開發(fā)的開源框架,自動生成和管理 AI 模型及其相關(guān)的工作流,簡化了模型開發(fā)和部署的過程。AutoGen 提供多代理對話框架作為高級抽象。

3)、Sema4.ai:提供智能編排解決方案,用于優(yōu)化和自動化機器學(xué)習(xí)和 AI 項目中的各個步驟。

4)、LangGraph:LangChain 框架的擴展,旨在通過圖形化的方法創(chuàng)建多代理工作流。能夠處理有狀態(tài)、循環(huán)和多角色的應(yīng)用,適合構(gòu)建需要多個代理協(xié)同工作的復(fù)雜 AI 系統(tǒng)。

5)、Griptape:提供靈活的編排框架,使開發(fā)者能夠輕松定義、管理和執(zhí)行復(fù)雜的 AI 工作流。

6)、CrewAI:一個多代理系統(tǒng)平臺,旨在通過簡單有效的方式實現(xiàn)復(fù)雜工作流的自動化。

7)、Fixpoint:提供可靠的編排工具,確保 AI 和數(shù)據(jù)工作流的高效運行和管理,適用于多種 AI 和數(shù)據(jù)密集型應(yīng)用。

AutoGen

04.執(zhí)行層 開源框架

Action 即執(zhí)行層,主要涵蓋了各種用于執(zhí)行特定任務(wù)和操作的工具和服務(wù)。這一層專注于提供執(zhí)行動作、工具使用、授權(quán)管理以及 UI 自動化等方面的支持,使 AI agent 能夠高效、準確地完成指定任務(wù)。

Presentation 展示

AgentLabs 是一個開源的、用于搭建 Chat-based 應(yīng)用的前端服務(wù)平臺??梢栽诜昼娭畠?nèi)快速創(chuàng)建豐富的聊天助手應(yīng)用,提供 Node 和 Python SDK。

AgentLabs

Tool Usage 工具使用

LLM 具備與外部工具或 API 交互的能力,使得 LLM 不僅能夠生成文本,還能夠根據(jù)需要調(diào)用外部工具來執(zhí)行特定任務(wù)。

對于模型公司來說,Tool Usage 已經(jīng)成為一個必備的能力。這里列舉了頭部的模型公司如 OpenAI、Anthropic、Cohere 等以及模型工具框架 LangChain。

最近對于直接使用模型公司提供的 Tool Usage 還是使用便捷但封裝較多的 LangChain 框架,最近應(yīng)用開發(fā)者傾向于給出了一個結(jié)論,放棄 LangChain 選擇直接編寫 API 和調(diào)用數(shù)據(jù)庫。“由于 LangChain 故意將許多細節(jié)做得很抽象,我們無法輕松編寫所需的底層代碼,在抽象上構(gòu)建抽象,實際使你的代碼變得不必要的復(fù)雜”,這是一位算法工程師對 LangChain 的直觀吐槽。

Anthropic

Auth 授權(quán)

當數(shù)字員工或 Agent 成為未來工作的主要載體時,如何確保人工智能安全地訪問和控制在線用戶賬戶成為一個 AI Native 的賽道機會。
ANON提供身份驗證和授權(quán)服務(wù),確保系統(tǒng)的安全性和用戶數(shù)據(jù)的隱私。 開發(fā)人員可以利用用戶許可的集成,代表最終用戶采取“行動”,并完全使用 Anon 的基礎(chǔ)設(shè)施進行管理。該公司日前獲得了包括 Producthunt 創(chuàng)始人,Replit 創(chuàng)始人在內(nèi)的 650 萬美金的投資。

ANON自動授權(quán)

Statics.ai:專注于授權(quán)管理和數(shù)據(jù)保護,幫助開發(fā)者安全地管理用戶權(quán)限。Mindware:提供身份驗證和授權(quán)管理工具,支持復(fù)雜的訪問控制。

Clerk:致力于創(chuàng)建一套可嵌入的 UI、API和管理儀表盤,提供身份驗證和用戶管理服務(wù),簡化用戶注冊和登錄流程。Clerk 在 2024 年 1 月獲得了包括 a16z,Stripe,Madrona 在內(nèi)的 3,000 萬美金 B 輪投資。“授權(quán)一直是我們產(chǎn)品愿景的一部分,但我們需要一個成功的身份驗證產(chǎn)品來構(gòu)建它”,Clerk 正在和 Stripe 進行深度合作,創(chuàng)建授權(quán)解決方案。

Agent 即服務(wù)—UI 自動化和工具選擇

Agent as a Service 是一種服務(wù)模式,允許用戶通過 API 訪問和使用云端的 AI Agent。這些 Agents 可以執(zhí)行各種任務(wù)和操作,如數(shù)據(jù)處理、自動化任務(wù)、自然語言處理等,而無需用戶在本地部署或管理。

其中 Tiny Fish、Reworkd、basepilot、induced、Superagent、Browse AI,提供 UI 自動化服務(wù),能夠自動執(zhí)行用戶界面相關(guān)的任務(wù),如數(shù)據(jù)抓取、自動填表、用戶操作模擬等,模擬人工操作,提高效率和準確性。

在這篇文章中《深度揭秘|AI時代最火的孵化器在做什么》,我們盤點了美國最火的早期投資機構(gòu) AI Grant 在 Batch3 中布局的項目,其中有好幾個公司就是這類以 Agent as a Service 方式運行的,比如 Reworkd 幫助用戶實現(xiàn)規(guī)?;木W(wǎng)頁信息提取,將數(shù)據(jù)提取速度提高100倍,實現(xiàn)從數(shù)百個站點檢索數(shù)據(jù),無需開發(fā)人員,其自動化的任務(wù)包括制造業(yè)收集產(chǎn)品信息,電商行業(yè)獲得競品價格,招聘行業(yè)獲得職位列表,銷售職業(yè)批量獲取Leads,房地產(chǎn)行業(yè)獲取房屋列表等。

Reworkd

而 Induced AI 則是被 Open AI 的 Sam Altman、AI Grant 投資的一個專注瀏覽器原生的工作流程自動化公司。該項目由兩名青少年創(chuàng)立,分別是 18 歲的Sharma 和 19 歲的 Ayush Pathak。他們希望能為瀏覽器的原生工作流程構(gòu)建一個集成經(jīng)濟。

目前,Induced AI 在 Chromium 上專門構(gòu)建了一個瀏覽器環(huán)境,專為自主工作流程運行而設(shè)計。它有自己的內(nèi)存、文件系統(tǒng)和身份驗證憑據(jù)(電子郵件、電話號碼),可以執(zhí)行復(fù)雜的流程。據(jù)我所知,我們是第一個采用這種方法重新設(shè)計瀏覽器以供原生 AI 代理使用的公司。因此,復(fù)雜的登錄、2FA(我們自動填寫授權(quán)碼/短信)、文件下載、存儲和重復(fù)使用數(shù)據(jù)是其他自主代理無法做到的。

NPi AI、Imprompt,提供智能工具選擇和推薦服務(wù),幫助開發(fā)者在不同場景下選擇最合適的工具。

瀏覽器基礎(chǔ)設(shè)施

Browserbase、browserless、APIFY、Cloudflare、bright data、platform.sh,提供瀏覽器基礎(chǔ)設(shè)施和服務(wù),支持大規(guī)模數(shù)據(jù)采集、自動化測試和內(nèi)容抓去等,側(cè)重于對與底層瀏覽器的支持和管理。

以 Browserbase 為例,該項目于近期獲得了來自 Vercel CEO、 Kleiner Perkins、AI Grant 等投資的 650 萬美金的種子輪。

Browserbase

該項目創(chuàng)建了一個無頭瀏覽器(Headless Browser),是一種沒有圖形用戶界面(GUI)的瀏覽器,能夠加載和解析網(wǎng)頁,執(zhí)行JavaScript代碼,以及進行網(wǎng)絡(luò)請求和響應(yīng)等操作。相比普通的瀏覽器,其主要優(yōu)點在于節(jié)省資源,用編程形式控制,效率更高。Browserbase 認為這是瀏覽器執(zhí)行 Agent 任務(wù)比較好的方式,旨在簡化 Web 自動化流程,讓開發(fā)人員能夠更輕松地創(chuàng)建和管理復(fù)雜的工作流程。

Browserbase連續(xù)四周獲得100%的增長

目前 Browserbase 的新增瀏覽器會話數(shù)達到 100 萬次,是他們連續(xù)第四周實現(xiàn) 100% 的增長。Browserbase 正在通過 2B2C 的方式走進 Agent 應(yīng)用,為各類 Agent、助理類 AI 應(yīng)用提供網(wǎng)頁自動化的任務(wù)處理能力。

05.應(yīng)用層 開源框架

今年開始,國內(nèi)的大量AI應(yīng)用也開始初見產(chǎn)品價值,從 ToB 延伸到 ToC,從生產(chǎn)力和效率延伸到綜合的社交娛樂和其他的多模態(tài)等各個領(lǐng)域。Agentic applicaitons 發(fā)展呈現(xiàn)出多元化、深入化的趨勢。

在海外創(chuàng)投生態(tài),通過 Agent 思路解決應(yīng)用場景問題成為一條廣泛認可的 AI 創(chuàng)業(yè)路徑。

AI 搜索引擎 Perplexity 今年連續(xù)完成兩輪融資估值超 25 億美元,5月的訪問量達 6742 萬次,付費用戶超過 10 萬人。

AI 企業(yè)級搜索引擎 Hebbia 剛剛宣布獲得了由 a16z、Index Ventures、Google Ventures 等主流機構(gòu)投資的 1.3 億美金,估值達到 7 億美金。Hebbia 專為知識工作者設(shè)計,幫助客戶用 AI Agent 完成日常知識工作。目前,Hebbia 已在全球領(lǐng)先的資產(chǎn)管理公司、律師事務(wù)所、銀行和財富 100 強公司大規(guī)模部署,其宣稱產(chǎn)品占據(jù) OpenAI 日調(diào)用量的 2%,在過去 18 個月收入增長了 15 倍。

Cognition AI 開發(fā)的 Devin AI 首款自主 AI 軟件工程師,與 copilot 不同, Devin 能夠從頭到尾處理整個軟件開發(fā)項目。公司目前估值達 20 億。

MultiOn?一款私人 AI Agent,希望能將人類從單調(diào)重復(fù)的瑣事中解放出來,能夠幫助用戶管理日常事務(wù),幫助企業(yè)自動執(zhí)行重復(fù)性任務(wù)。當前估值超 5000 千萬美金,詳情可見《AI+生活|MultiOn:幫用戶定機票酒店,斯坦福的兩位創(chuàng)業(yè)者讓 RPA 真正賦能用戶生活》。

還有更多 Agent 生態(tài)鏈上的公司正在獲得資本市場和用戶市場的認可。

結(jié)語

當前 AI Agent 和其基礎(chǔ)設(shè)施的發(fā)展還處于非常早期的階段,我們能看到的是一系列尚未商業(yè)化或整合到更廣泛服務(wù)中的運營服務(wù)和開源工具。

冪簡集成在未來會為各主流AI Agent 研發(fā)工具提高快速集成開放API的插件,把4000種在線API一站集成,讓AI Agent像插入網(wǎng)線快速接入互聯(lián)網(wǎng)API體系,實現(xiàn)真正的全球化計算。

在這個領(lǐng)域,誰會成為最后的贏家還遠未明確——這些最終的贏家可能今天還非常年輕,甚至還未出現(xiàn)。

原文轉(zhuǎn)自 微信公眾號@SenseAI

上一篇:

人工智能(AI) VS 商業(yè)智能(BI) 區(qū)別與聯(lián)系是什么?

下一篇:

為什么落地AI Agent更經(jīng)濟、更場景化?
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費