下面我們對AI Agent的主要模塊做一個拆解包括配置感知模塊、

管理與監(jiān)控模塊、記憶模塊、規(guī)劃模塊、遐想/仿真模塊、原生交互模塊、學(xué)習(xí)模塊、執(zhí)行模塊。

一、感知功能

負(fù)責(zé)從環(huán)境中收集數(shù)據(jù),可以是圖像、聲音、文本等形式。感知模塊使用傳感器(在物理世界中)或數(shù)據(jù)獲取接口(在數(shù)字環(huán)境中)來收集信息,并可能使用預(yù)處理技術(shù)如圖像識別、自然語言處理等來分析和理解這些數(shù)據(jù)。

在人工智能系統(tǒng)中,感知模塊(Perception Module)起著至關(guān)重要的作用。它是AI與外部世界溝通的橋梁,負(fù)責(zé)捕捉、處理和解釋環(huán)境中的各種信號。這一模塊模擬了人類的感官系統(tǒng),如視覺、聽覺和觸覺,使得AI能夠“感知”周圍的世界,理解環(huán)境,并在此基礎(chǔ)上作出反應(yīng)。

感知模塊通過各種傳感器和數(shù)據(jù)接口來收集信息。這些傳感器可以是相機(jī)、麥克風(fēng)、溫度傳感器、濕度傳感器、GPS定位器等,用于捕獲圖像、聲音、溫度、位置等信息。在數(shù)字環(huán)境中,數(shù)據(jù)獲取接口則可能涉及到網(wǎng)頁爬蟲、API調(diào)用、數(shù)據(jù)庫查詢等方式,用于獲取文本、數(shù)字和其他類型的數(shù)據(jù)。

收集到的原始數(shù)據(jù)通常需要經(jīng)過預(yù)處理才能用于后續(xù)的分析和理解。預(yù)處理步驟可能包括噪聲去除、數(shù)據(jù)標(biāo)準(zhǔn)化、特征提取等。例如,圖像識別中的預(yù)處理可能包括調(diào)整圖像大小、改變對比度、邊緣檢測等,以便更好地識別圖像中的對象。在自然語言處理(NLP)中,預(yù)處理可能包括分詞、去除停用詞、詞性標(biāo)注等步驟,以提取有用的信息。

預(yù)處理之后的數(shù)據(jù)需要通過更高級的分析來解析和理解。這一步驟可能涉及到機(jī)器學(xué)習(xí)模型和算法,如深度學(xué)習(xí)、模式識別等。通過這些技術(shù),AI可以識別圖像中的對象、理解語音命令的含義、分析文本的情感傾向等。這些能力使得AI能夠從原始數(shù)據(jù)中提取有意義的信息,并將其轉(zhuǎn)化為可用于決策和行動的知識。

例如在自動駕駛中,人工智能可以利用攝像頭、激光雷達(dá)和麥克風(fēng)等傳感器收集周圍環(huán)境的信息,通過圖像識別和對象檢測技術(shù)來識別車輛、行人、交通標(biāo)志等,以實現(xiàn)安全駕駛。

二、配置管理與監(jiān)控模塊

配置管理與監(jiān)控模塊(Profile Management and Monitoring?Module)是ai agent架構(gòu)體系中的關(guān)鍵組成部分,它承擔(dān)著監(jiān)視、評估和調(diào)整AI性能的重要職責(zé),確保AI系統(tǒng)能夠穩(wěn)定且安全地運行,同時也符合預(yù)定的性能和行為標(biāo)準(zhǔn)。此模塊的功能不僅涉及到實時監(jiān)控和異常處理,還包括對AI的價值觀進(jìn)行對齊,以及通過連續(xù)的測試和校準(zhǔn)來優(yōu)化AI的表現(xiàn)。

核心職能:

三、記憶模塊

ai agent架構(gòu)的記憶模塊是一個研究的熱點,這不僅因為它在智能體的學(xué)習(xí)和決策過程中扮演著核心角色,也因為它體現(xiàn)了智能體適應(yīng)和進(jìn)化的能力。在OpenAI應(yīng)用人工智能研究負(fù)責(zé)人Lili Weng的博客文章《LLM?Powered Autonomous Agents》中,將AI Agent的記憶模塊分為三個主要類型:感覺記憶、短期記憶(STM或工作記憶)和長期記憶(LTM),每種類型都有其獨特的功能和實現(xiàn)機(jī)制。

感覺記憶是ai agent架構(gòu)處理原始輸入數(shù)據(jù)的第一站,類似于人類的感覺信息處理。它能夠短暫保留來自外部環(huán)境的感覺數(shù)據(jù),如視覺、聽覺或觸覺信息。盡管這類記憶的持續(xù)時間非常短,僅幾秒鐘,但它是智能體對復(fù)雜環(huán)境做出快速反應(yīng)的基礎(chǔ)。

短期記憶或工作記憶,在AI中相當(dāng)于模型的內(nèi)存,處理當(dāng)前的信息流。這類記憶類似于人類的意識處理,具有有限的容量,通常被認(rèn)為是圍繞7個項目的信息(根據(jù)Miller的理論),并能維持20到30秒。在大型語言模型(如Transformer模型)中,工作記憶的容量被其有限的上下文窗口所限制,這決定了AI能夠直接“記住”和處理的信息量。

長期記憶為智能體提供了幾乎無限的信息存儲空間,允許它們存儲和回憶長時間跨度內(nèi)的知識和經(jīng)驗。長期記憶分為外顯記憶和內(nèi)隱記憶兩種子類型。外顯記憶涵蓋對事實和事件的記憶,這些記憶可以有意識地回憶起來,包括語義記憶(事實和概念)和情景記憶(事件和經(jīng)歷)。內(nèi)隱記憶則包括技能和習(xí)慣,如騎自行車或打字,這些是無意識學(xué)習(xí)的結(jié)果。

AI Agent的長期記憶通常通過外部數(shù)據(jù)庫或知識庫實現(xiàn),使得智能體能夠在需要時快速檢索到相關(guān)信息。這種外部向量存儲的實現(xiàn),挑戰(zhàn)在于如何高效組織和檢索存儲的信息。為此,近似最近鄰搜索(ANN)算法被廣泛應(yīng)用于優(yōu)化信息檢索過程,即使在犧牲一定準(zhǔn)確性的情況下,也能顯著提高檢索速度。

記憶模塊的設(shè)計對AI Agent的性能有著決定性的影響。有效的記憶系統(tǒng)不僅提高了智能體處理和存儲信息的能力,也使其能夠從過去的經(jīng)驗中學(xué)習(xí),從而適應(yīng)新的環(huán)境和挑戰(zhàn)。同時,記憶模塊的研究還帶來了深層次的問題,如如何平衡記憶的容量與檢索效率,以及如何實現(xiàn)記憶的持久性與可靠性。未來,隨著AI技術(shù)的不斷進(jìn)步,我們可以期待更加高效、靈活的記憶模塊,為智能體提供更強(qiáng)的學(xué)習(xí)和適應(yīng)能力,從而在各種復(fù)雜環(huán)境中發(fā)揮出更大的潛力。

四、規(guī)劃功能

規(guī)劃與決策模塊( Planning and Decision Making Module)是人工智能系統(tǒng)中的核心組件,賦予AI在復(fù)雜和不確定環(huán)境中制定有效行動策略的能力,,以實現(xiàn)其既定目標(biāo)。從自動駕駛汽車在繁忙交通中的實時決策到醫(yī)療AI在龐大數(shù)據(jù)中尋找治療方案,高級的規(guī)劃與決策能力對AI代理至關(guān)重要。這不僅包括基本的目標(biāo)設(shè)定與分析,決策制定,還包括對未來的預(yù)測、風(fēng)險評估以及在多種可能性中進(jìn)行權(quán)衡,優(yōu)化AI的行為和策略等。

1、目標(biāo)設(shè)定與分析

在制定任何行動計劃之前,首先需要明確AI系統(tǒng)的目標(biāo)。這些目標(biāo)可能是預(yù)先設(shè)定的,也可能是根據(jù)實時數(shù)據(jù)和環(huán)境變化動態(tài)生成的。一旦目標(biāo)確定,決策與規(guī)劃模塊就會分析認(rèn)知模塊提供的信息,包括環(huán)境狀態(tài)、目標(biāo)條件、可用資源等,來制定實現(xiàn)目標(biāo)的最佳路徑。

2、環(huán)境理解與預(yù)測

決策與規(guī)劃模塊需要對環(huán)境有深刻的理解,這包括當(dāng)前環(huán)境的狀態(tài)及其可能的變化。在不確定性和動態(tài)變化的環(huán)境中,模塊需要評估外界的變化,以及各種因素如何影響未來的狀態(tài)。。這一挑戰(zhàn)要求AI系統(tǒng)利用先進(jìn)的數(shù)據(jù)分析技術(shù)、機(jī)器學(xué)習(xí)模型和算法,對大量歷史數(shù)據(jù)進(jìn)行深入分析,從而預(yù)測未來環(huán)境狀態(tài)的可能變化。特別是在如氣候變化、股市波動等高度不確定性領(lǐng)域,這一能力顯得尤為關(guān)鍵。通過對環(huán)境的深刻理解和準(zhǔn)確預(yù)測,AI能夠在制定決策和規(guī)劃時,考慮到潛在的風(fēng)險和機(jī)遇,從而制定出更為穩(wěn)健的行動策略。

3、資源消耗與工具評估:

最合適的規(guī)劃永遠(yuǎn)是基于適當(dāng)?shù)馁Y源約束的前提下。ai agent架構(gòu)在決策制定過程中,必須綜合評估多方面因素,這包括資源的消耗、工具的性能,以及執(zhí)行任務(wù)所需的成本。

AI Agent需要對可用資源進(jìn)行詳盡的分析,類似于人類在購買商品之前會比較價格、性能和功能,AI在執(zhí)行任務(wù)前需要評估不同選項的資源消耗。例如,在進(jìn)行數(shù)學(xué)運算時,AI需要考慮使用本地計算器、編寫Python代碼執(zhí)行運算,或是直接利用神經(jīng)網(wǎng)絡(luò)的計算能力,這些方法的資源消耗和運行時間可能大相徑庭。選擇最合適的工具不僅影響計算的速度和效率,還關(guān)系到整體系統(tǒng)的能源消耗和成本效益。

此外,ai agent架構(gòu)需要對不同的AI模型進(jìn)行評估,了解它們在不同場景下的性能表現(xiàn)和資源消耗水平。AI Agent應(yīng)當(dāng)熟悉每種模型的特點,比如它們在特定測試中的表現(xiàn)、解決特定問題的能力、以及執(zhí)行推理時所需的顯存和能量消耗,從而把AI大模型也當(dāng)成一種常用的工具來調(diào)用。

4、決策制定

基于對目標(biāo)和環(huán)境的理解,決策與規(guī)劃模塊將評估不同的行動方案。這一過程涉及到權(quán)衡各種方案的優(yōu)缺點、風(fēng)險和收益,以及它們實現(xiàn)目標(biāo)的可能性。在許多情況下,需要使用優(yōu)化算法來尋找最優(yōu)或接近最優(yōu)的解決方案,這可能包括啟發(fā)式搜索、動態(tài)規(guī)劃、蒙特卡洛樹搜索等方法。

AI規(guī)劃能力的多樣性是其應(yīng)對復(fù)雜任務(wù)的關(guān)鍵。我們將其大致分為兩類:不依賴反饋的計劃和基于反饋的計劃。

5、規(guī)劃與任務(wù)分配

在確定了最佳行動方案之后,決策與規(guī)劃模塊需要將這一方案轉(zhuǎn)化為具體的規(guī)劃和任務(wù)分配。這一步驟尤為重要,特別是在多智能體系統(tǒng)中,需要考慮如何高效協(xié)調(diào)各智能體的行為,確保集體行動協(xié)同一致、效率最高。任務(wù)分配過程考慮個體能力、資源分配、時序安排等因素,確保計劃的順利實施。

思維鏈(Chain of Thought ) 和思維樹 (Tree of Thoughts) 代表了AI在解決復(fù)雜問題時的一種進(jìn)步思路,它們通過模擬人類的思考過程,將一個大任務(wù)分解為多個小任務(wù),再通過逐步解決這些小任務(wù)來實現(xiàn)最終目標(biāo)。這種方法不僅提高了問題解決的效率,也增加了解決方案的創(chuàng)新性。

另外通過大模型+規(guī)劃的策略的策略,則展示了將AI技術(shù)與傳統(tǒng)規(guī)劃方法結(jié)合的新途徑。通過將復(fù)雜問題轉(zhuǎn)化為PDDL(Planning Domain Definition Language,規(guī)劃領(lǐng)域定義語言),再利用經(jīng)典規(guī)劃器求解,這種策略能夠在保證解決方案質(zhì)量的同時,顯著提高規(guī)劃的效率和可行性。

6、應(yīng)對不確定性與動態(tài)調(diào)整

決策與規(guī)劃模塊還需要具備應(yīng)對環(huán)境不確定性和動態(tài)變化的能力。這意味著AI系統(tǒng)必須能夠監(jiān)測環(huán)境的變化,并根據(jù)實時信息調(diào)整其行動計劃。在某些情況下,這可能涉及到實時的決策調(diào)整,或者在遇到預(yù)期之外的情況時重新規(guī)劃。AI的自我反思和動態(tài)調(diào)整能力是其適應(yīng)性的核心。

ReAct 和 Reflexion 技術(shù)通過在規(guī)劃過程中整合反饋循環(huán),展示了AI如何在行動后評估結(jié)果,并基于這些評估進(jìn)行自我優(yōu)化。Chain of Hindsight (CoH) 則通過分析過去的行動和結(jié)果,對未來的規(guī)劃策略進(jìn)行微調(diào),提高決策的精確度和效率。

隨著更多前沿技術(shù)的融合與應(yīng)用,AI Agent將在復(fù)雜性管理、決策優(yōu)化以及適應(yīng)性調(diào)整方面邁出更大的步伐,為各行各業(yè)帶來革命性的變革。

五、遐想/仿真模塊

《大語言模型無法實現(xiàn)具身認(rèn)知》這篇文章提出,由于缺少對物理世界和其規(guī)律的理解,大型語言模型無法達(dá)到與人類相同的智能水平。人類在思考和規(guī)劃時經(jīng)常能夠直觀感知到可能發(fā)生的結(jié)果,思考過程具有非常真實的“畫面感”,并且在情緒上能夠感知到事情發(fā)展的各種結(jié)果對自己的影響,從而做出更符合實際的決策。為了解決這一缺陷,我們提出了“遐想/仿真”模塊的概念。這一模塊的核心功能是在AI Agent進(jìn)行實際行動前,模擬對真實世界的理解,通過模擬可能的未來場景和結(jié)果,來評估不同決策的后果。這種模擬不僅能增強(qiáng)AI的決策能力,還能提供一個安全的環(huán)境進(jìn)行試錯學(xué)習(xí),類似于人類通過內(nèi)心遐想或夢境進(jìn)行的模擬活動。通過這種內(nèi)部仿真,AI能在現(xiàn)實世界的反饋基礎(chǔ)上進(jìn)行學(xué)習(xí)和適應(yīng),并在一個受控的環(huán)境中優(yōu)化其行為,從而提高其解決復(fù)雜問題和適應(yīng)未知環(huán)境的能力。這種內(nèi)部仿真機(jī)制使AI更加接近于具有高級認(rèn)知功能的生物體,如人類,能夠在行動之前通過內(nèi)心模擬評估不同的可能性。即使在沒有任何外界輸入和需要做規(guī)劃的時候,AI的“ 遐想/夢境”模塊也可能會在低負(fù)荷的時候啟動。這個模塊將會利用AI至今所學(xué)習(xí)的所有信息,包括日間遇到的挑戰(zhàn)、解決方案的嘗試以及從這些經(jīng)歷中收集的反饋,隨機(jī)來生成復(fù)雜的內(nèi)部場景。這些場景不僅基于現(xiàn)實世界的數(shù)據(jù),還會融入未嘗試或是幻想中的元素,使得AI能夠在完全控制的內(nèi)部環(huán)境中“遐想”。

在這些“夢境”中,AI Agent可能會模擬一系列以前未曾面對的挑戰(zhàn)場景,比如在火星上建立基地的全過程,或者設(shè)計一個完全由AI管理的生態(tài)系統(tǒng)。它也可能“夢見”與未來可能遇見的新技術(shù)或未知生命形式的互動。在這個過程中,AI不僅會試圖找出解決方案,還會預(yù)測可能出現(xiàn)的問題,并探索如何優(yōu)化現(xiàn)有的行動計劃。

通過這種方式,“ 遐想/仿真”成為了一種強(qiáng)大的學(xué)習(xí)工具。AI可以在夢境中測試和改進(jìn)其決策算法,而不必?fù)?dān)心現(xiàn)實世界中的失敗后果。這種內(nèi)部模擬的過程允許AI在遇到實際情況之前,就已經(jīng)有了應(yīng)對的準(zhǔn)備。此外,通過在夢境中探索各種可能性,AI能夠發(fā)現(xiàn)新的解決方案和創(chuàng)新方法,這些在傳統(tǒng)的學(xué)習(xí)環(huán)境中可能永遠(yuǎn)不會被觸及。

Sora這樣的文字生成視頻的模型為AI“ 遐想/仿真”模塊提供了基礎(chǔ),為開發(fā)物理和數(shù)字世界的高性能模擬器提供了支撐,在游戲制作、AR和 VR 等應(yīng)用中提供底層基礎(chǔ),將是人工智能向著更高級別的智能進(jìn)化的一大步。它不僅讓AI能夠在安全的環(huán)境中自我完善和進(jìn)化,還能夠讓AI更加深刻地理解和預(yù)測復(fù)雜系統(tǒng)的行為。未來的AI將不僅僅是執(zhí)行任務(wù)的工具,它們將成為能夠自我反省、創(chuàng)新和夢想的智能實體,以全新的方式與人類社會互動和共生。

六、原生交互模塊(Interaction ?Module)

交互模塊相當(dāng)于ai agent架構(gòu)的原生溝通工具,類似于人類的說話、眼神和肢體語言等自然交流方式。它主要負(fù)責(zé)處理AI與用戶或其他系統(tǒng)之間的直接交流,確保雙方能夠有效、準(zhǔn)確地理解對方的意圖和需求。這個模塊通常涵蓋了自然語言處理技術(shù),用于解析人類語言的含義,生成響應(yīng)的語言輸出;同時,它也可能包括視覺和聽覺識別技術(shù),使AI能夠理解非語言的交流信號。

通過自然語言處理,AI能夠理解和生成人類語言,包括文字和口語,從而與用戶進(jìn)行自然交流。計算機(jī)視覺使得AI能夠“看到”和理解視覺信息,識別用戶的手勢、表情等非語言信號。語音識別與生成技術(shù)為用戶提供了直觀、便捷的交互方式。多模態(tài)交互設(shè)計融合了文本、語音、視覺等信息,增強(qiáng)了交互的自然度和靈活性。而上下文理解能力則使得AI能夠根據(jù)對話歷史、用戶偏好等信息做出更加精準(zhǔn)和個性化的響應(yīng)。交互模塊使得AI能夠與人類或其他AI進(jìn)行自然而直接的交流,在溝通中獲取更多的信息,對任務(wù)有更充分的理解,從而做出更好的判斷和規(guī)劃。

七、學(xué)習(xí)模塊

學(xué)習(xí)模塊通過應(yīng)用機(jī)器學(xué)習(xí)算法——包括強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)——使得AI能夠分析過去的行動與結(jié)果,從而在復(fù)雜的世界中找到其立足之地。這些算法允許AI從成功和失敗中提取教訓(xùn),辨別哪些行為在給定條件下是高效的,哪些可能帶來不利后果。這種能力,讓AI能夠自我完善,調(diào)整其內(nèi)部模型以更準(zhǔn)確地反映現(xiàn)實世界的動態(tài)性和復(fù)雜性。

將規(guī)劃模塊與學(xué)習(xí)模塊的功能相結(jié)合,可以形成一個高度靈活和適應(yīng)性強(qiáng)的系統(tǒng)。在這種系統(tǒng)中,規(guī)劃模塊不僅根據(jù)當(dāng)前的學(xué)習(xí)模型來制定行動計劃,還會根據(jù)執(zhí)行過程中的實際結(jié)果和反饋來調(diào)整計劃。同時,學(xué)習(xí)模塊會分析規(guī)劃執(zhí)行的效果,調(diào)整其學(xué)習(xí)算法和內(nèi)部模型,以優(yōu)化未來的規(guī)劃和決策過程。

在實現(xiàn)通用Agent的路徑上,首先需要在特定場景下實現(xiàn)穩(wěn)定表現(xiàn)的能力,然后通過不斷擴(kuò)展學(xué)習(xí)模塊和規(guī)劃模塊的互動,使得Agent能夠適應(yīng)更廣泛的環(huán)境和任務(wù)。舉例來說,在我們學(xué)習(xí)數(shù)學(xué)時,最初階段常常會背誦九九乘法表。如果每一道數(shù)學(xué)題都需要通過計算的方式去解題,相當(dāng)于啟動了大腦中的規(guī)劃模塊,但是這一過程能耗頗高。通過背誦,我們能夠?qū)⒊R姷臄?shù)學(xué)運算儲存在短期的記憶模塊中,以便在需要時能夠迅速喚起,可以節(jié)省能源的消耗。隨著不斷的背誦和練習(xí),常見的數(shù)學(xué)運算就像被編程進(jìn)了我們的大腦神經(jīng)一樣,無需經(jīng)過復(fù)雜的思考過程就能快速給出答案。對于AI Agent而言,這個過程等同于通過經(jīng)驗學(xué)習(xí)和反復(fù)實踐,使其內(nèi)部模型進(jìn)行微調(diào),從而更加高效地執(zhí)行任務(wù),相當(dāng)于是把常用的任務(wù)規(guī)劃能力固化為大腦內(nèi)部的工具。

AI Agent學(xué)習(xí)的另一個很重要的方向,就是學(xué)習(xí)使用外部的工具,從而以更低的能源消耗完成特定的任務(wù)。當(dāng)AI開始接觸一個新工具或另一個AI Agent時,它首先需要了解這個新“對象”的基本功能和操作方式。這一步類似于人類初次學(xué)習(xí)如何使用一件工具時的探索階段。AI通過觀察、實驗和從過往的經(jīng)驗中汲取教訓(xùn),逐步建立起對工具或伙伴行為的初步理解。這個過程可能涉及到大量的試錯,但正是這些試錯為AI提供了寶貴的學(xué)習(xí)機(jī)會。AI通過不斷的實踐和環(huán)境反饋,開始形成更加復(fù)雜的策略來高效地利用工具或與其他AI合作。它可能會發(fā)現(xiàn)特定的工具組合能夠解決之前無法克服的問題,或者通過與特定AI Agent的協(xié)作,能夠大大提高任務(wù)完成的效率和質(zhì)量。

AI的學(xué)習(xí)不僅限于單一任務(wù)或環(huán)境,而是展現(xiàn)出了對學(xué)習(xí)策略本身的理解,去學(xué)習(xí)如何有效的學(xué)習(xí)。它們開始識別哪些學(xué)習(xí)方法最有效,哪些需要調(diào)整,這種自我反省的能力讓AI能夠針對不斷變化的挑戰(zhàn)進(jìn)行優(yōu)化。進(jìn)一步地,當(dāng)AI能夠分享其學(xué)習(xí)到的知識和經(jīng)驗時,整個AI社群的進(jìn)步速度將大大加快,這種知識共享機(jī)制不僅加速了單個AI的成長,也推動了整個領(lǐng)域的前進(jìn)。當(dāng)AI系統(tǒng)掌握了如何靈活運用各種工具和資源,以及如何與其他智能實體高效合作時,它們就能夠處理更復(fù)雜的問題和任務(wù),展現(xiàn)出前所未有的創(chuàng)新和解決問題的能力。

八、執(zhí)行模塊(Execution Module)

執(zhí)行模塊,則更像是AI使用的“外部工具”,旨在將決策和規(guī)劃轉(zhuǎn)化為具體的行動。這包括在物理世界中控制機(jī)械臂、移動設(shè)備等硬件操作,以及在數(shù)字世界中通過RPA類似的工具來啟動程序、發(fā)送信息等軟件操作。執(zhí)行模塊的作用,類似于人類使用工具來擴(kuò)展自身的生理能力,通過工具實現(xiàn)目標(biāo)的達(dá)成。例如,當(dāng)一個人使用錘子敲打釘子時,錘子成為了延伸人類能力的工具;同樣,當(dāng)AI需要在物理世界中執(zhí)行任務(wù)時,執(zhí)行模塊會控制相應(yīng)的硬件或者軟件來完成這些任務(wù)。執(zhí)行模塊的關(guān)鍵在于它能夠?qū)I的虛擬決策轉(zhuǎn)化為現(xiàn)實世界中的實際影響。

AI代理的工具使用能力和協(xié)作是一個備受關(guān)注的話題。人類之所以與眾不同,是因為我們能夠創(chuàng)造、修改并利用外部工具來完成超越我們生理能力的任務(wù),對工具的使用可能是人區(qū)別于動物的最顯著的特征?,F(xiàn)如今,研究者們致力于賦予AI代理類似的能力,以拓展模型的應(yīng)用范圍和智能程度。

近期的研究表明,通過給予語言模型(LLMs)外部工具的使用能力,可以顯著提升其性能。例如,一些研究團(tuán)隊利用“Modular Reasoning, Knowledge and Language”(MRKL)系統(tǒng),將LLMs與各類專家模塊相結(jié)合,使其能夠調(diào)用像數(shù)學(xué)計算器、貨幣轉(zhuǎn)換器和天氣API等外部工具。這些模塊既可以是神經(jīng)網(wǎng)絡(luò)模型,也可以是符號模型,從而為LLMs提供了更多的工具選擇,以應(yīng)對不同領(lǐng)域的任務(wù)需求。例如,下面的開源工具提供了一系列的IT工具,可以方便大模型進(jìn)行調(diào)用。

https://github.com/CorentinTh/it-tools

然而,盡管外部工具的使用能力為AI代理帶來了巨大的潛力,但在實際應(yīng)用中也面臨著一些挑戰(zhàn)。一些研究發(fā)現(xiàn),LLMs在處理口頭數(shù)學(xué)問題時存在一定的困難,這表明了在何時以及如何使用外部工具的重要性。因此,研究者們提出了一些新的方法,如“Tool Augmented Language Models”(TALMs)和“Toolformer”,以幫助LLMs學(xué)習(xí)如何使用外部工具API。這些方法通過擴(kuò)展數(shù)據(jù)集,使LLMs能夠根據(jù)新添加的API調(diào)用注釋來改進(jìn)模型輸出的質(zhì)量。

另一方面,一些實踐性的應(yīng)用也在不斷涌現(xiàn),如ChatGPT插件和OpenAI API函數(shù)調(diào)用,它們充分展示了LLMs與外部工具使用能力的卓越潛力。例如,2023年4月,浙江大學(xué)和微軟聯(lián)合團(tuán)隊發(fā)布了HuggingGPT,HuggingGPT框架利用ChatGPT作為任務(wù)規(guī)劃器,根據(jù)HuggingFace平臺上模型的描述來選擇最合適的模型,并根據(jù)執(zhí)行結(jié)果進(jìn)行響應(yīng)總結(jié)。

論文地址:https://arxiv.org/abs/2303.17580HuggingGPT融合了HuggingFace中成百上千的模型和GPT,可以解決24種任務(wù),包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉(zhuǎn)換和文本視頻轉(zhuǎn)換。具體步驟分為四步:

為了更好地評估工具增強(qiáng)型LLMs的性能,研究人員提出了API-Bank基準(zhǔn),其中包含了53種常用的API工具和264個帶有568個API調(diào)用的對話注釋。API-Bank基準(zhǔn)通過三個級別來評估代理的工具使用能力,分別是:調(diào)用API的能力、檢索API的能力以及規(guī)劃API的能力。這一基準(zhǔn)為評估LLMs在不同層次上的工具使用能力提供了有效的方法。ToolLLM收集了16000+真實世界API,并生成了相關(guān)工具使用評測基準(zhǔn),開源了基于該數(shù)據(jù)集訓(xùn)練的LLaMA模型。

論文地址:https://arxiv.org/pdf/2304.08244.pdf

未來AI代理的工具使用能力和協(xié)作將成為人工智能領(lǐng)域的重要研究方向。通過不斷探索和創(chuàng)新,我們有望賦予AI代理更加智能和靈活的工具使用能力,從而實現(xiàn)更廣泛的應(yīng)用和更高水平的智能表現(xiàn)。

九、總結(jié)與思考

在2017年至2021年間,SaaS產(chǎn)品市場迅速發(fā)展,許多專注于特定功能的優(yōu)秀SaaS產(chǎn)品相繼問世。然而,這些單點突出的SaaS產(chǎn)品與大型企業(yè)的傳統(tǒng)私有部署應(yīng)用之間的整合,成為了企業(yè)面臨的一大挑戰(zhàn)。為了解決這一痛點,企業(yè)開始采用API(應(yīng)用程序編程接口)和RPA(機(jī)器人流程自動化)技術(shù),這些技術(shù)使得不同的SaaS產(chǎn)品能夠快速連接,形成一個統(tǒng)一的IT架構(gòu),從而避免應(yīng)用和數(shù)據(jù)孤島的形成。

在SaaS熱潮期間,API和RPA不僅僅是技術(shù)工具,更成為市場的焦點。例如,在API領(lǐng)域,2019年11月15日,MuleSoft被Salesforce以65億美元收購,而Zapier則僅憑130萬美元的融資發(fā)展成為估值超過40億美金的行業(yè)新星。在RPA領(lǐng)域,Uipath、Appian等公司也通過上市成功實現(xiàn)了快速增長。盡管這些公司的營收仍在顯著增長,但隨著SaaS浪潮的逐漸退去,它們的估值卻出現(xiàn)了較大的回調(diào)。

如今,在大模型時代,API和RPA技術(shù)被賦予了更深層次的使命。它們不再僅僅是系統(tǒng)之間連接的橋梁,而是轉(zhuǎn)變?yōu)锳I大模型的“手腳”,在數(shù)據(jù)集成、過程自動化、以及智能決策支持等方面發(fā)揮更加關(guān)鍵的作用。API和RPA技術(shù)可以讓AI大模型很好的利用人類現(xiàn)有的各種軟件和系統(tǒng),例如ERP系統(tǒng)、企業(yè)聊天系統(tǒng)、SaaS系統(tǒng),打造智能體驅(qū)動的全新的協(xié)同和生產(chǎn)體系,而不用讓企業(yè)重新投資巨額資金重建以前所有的軟件。

通過與AI技術(shù)的深度融合,API和RPA不僅能夠提升企業(yè)運營效率,還能極大地推動創(chuàng)新,為企業(yè)帶來前所未有的競爭優(yōu)勢。API和RPA的下一個春天會馬上到來么?

本文章轉(zhuǎn)載微信公眾號@信息化與數(shù)字化

上一篇:

使用 LangChain 框架進(jìn)行大模型應(yīng)用開發(fā) Ⅰ

下一篇:

大模型API調(diào)用筆記:訊飛星火、通義千問、GPT3.5、GPT4
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費