![]() |
虛擬數(shù)字人-阿里云視覺智能開發(fā)平臺
專用API
【更新時間: 2024.07.15】
虛擬數(shù)字人技術以AI實時渲染為核心,快速構建輕量級數(shù)字人物。依托達摩院在語音、圖像、3D美術、NLP等領域的技術,提供實時交互的數(shù)字人流媒體產(chǎn)品、高效的視頻合成服務,以及定制化的數(shù)字人資產(chǎn)構建。
5749元/路/月
去服務商官網(wǎng)采購>
|
瀏覽次數(shù)
109
采購人數(shù)
0
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|



- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人?
虛擬數(shù)字人以AI驅(qū)動實時渲染為核心能力,提供快速輕量的數(shù)字人構建路徑?;谶_摩院在語音、圖像、3D美術、自然語言處理等領域的技術優(yōu)勢,提供以實時交互為目標的「數(shù)字人流媒體」產(chǎn)品、以效率化內(nèi)容生產(chǎn)為目標的「數(shù)字人視頻合成」產(chǎn)品,以及豐富表現(xiàn)力的數(shù)字人資產(chǎn)構建定制服務?,F(xiàn)在購買,暢享數(shù)字人帶來的無限可能!
什么是阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人接口?
阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人有哪些核心功能?
- 數(shù)字人流媒體:阿里數(shù)字人提供數(shù)字人標準化PaaS服務,可集成到各種終端上。通過阿里云虛擬數(shù)字人的PaaS接口傳遞數(shù)字人即將播報的文本,可以獲得數(shù)字人播報的視頻流或離線視頻文件。支持在線直播、數(shù)字人助理播報等效果,并且可以集成在Web、移動端、PC端、線下大屏等各種類型終端上。
- 數(shù)字人視頻合成:阿里數(shù)字人提供離線驅(qū)動3D/2D數(shù)字人進行文本播報生成對應視頻的產(chǎn)品能力。支持通過API以及SaaS頁面兩種方式向服務端發(fā)送文本,服務端接收到數(shù)據(jù)后處理成數(shù)字人的聲音、表情、口型、動作,然后將對應數(shù)據(jù)合成指定格式的視頻,并提供對應的視頻下載地址。
- 數(shù)字人資產(chǎn)庫:阿里數(shù)字人提供3D/2D數(shù)字人形象的預覽、捏臉、換裝、聲音切換等編輯管理能力。官方提供了豐富的3D數(shù)字人和2D數(shù)字人形象,并支持對官方形象進行預覽和編輯,如換裝以及聲音切換等(2D數(shù)字人形象暫不支持編輯)。
- 語音、視覺多模態(tài)表達:集成自然語言理解算法,根據(jù)播報的內(nèi)容智能驅(qū)動數(shù)字人表情和動作,實現(xiàn)語音、表情、手勢動作的多模態(tài)表達。
- 虛擬數(shù)字人視頻創(chuàng)作:基于數(shù)字人開放平臺的技術能力,提供預置的3D虛擬數(shù)字人形象,并支持文本輸入生成數(shù)字人視頻,支持更換背景、設置字幕、自定義數(shù)字人音色、形象,可快速生成視頻,進行下一步的自由創(chuàng)作或者直接投放。
- 自主靈活配置多種素材:支持驅(qū)動人物表情與動作,基于表情驅(qū)動及動作驅(qū)動的數(shù)字人技術,生成的數(shù)字人形象可以根據(jù)播報的內(nèi)容,零延遲匹配對應的唇形。同時,根據(jù)文本的語義分析,配以對應的手勢動作,使數(shù)字人播報更加流暢自然,富有感染力
阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人的核心優(yōu)勢是什么?
-
強大的AI技術能力:阿里數(shù)字人依托阿里達摩院在語音、圖像、3D美術、自然語言處理(NLP)等領域的技術優(yōu)勢,阿里虛擬數(shù)字人服務能夠提供高度智能化的實時渲染和驅(qū)動能力,使得數(shù)字人的表現(xiàn)更加自然、生動。
-
多模態(tài)交互能力:阿里數(shù)字人通過集成CV(計算機視覺)、3D、語音、NLP以及包含知識、情感、記憶、個性的對話大模型等多模態(tài)技術,阿里虛擬數(shù)字人能夠?qū)崿F(xiàn)情感化的雙工交互,即能夠理解和響應用戶的情緒,并據(jù)此進行更加自然和人性化的互動,提升用戶體驗。
-
高效的構建與定制服務:阿里數(shù)字人提供低門檻、輕量級、易集成的數(shù)字人構建路徑,無論是3D數(shù)字人還是2D數(shù)字人,都能快速構建并接入到客戶的業(yè)務中。同時,提供豐富的數(shù)字人資產(chǎn)形象庫和完善的視頻創(chuàng)作SAAS產(chǎn)品,滿足不同客戶的個性化需求。
-
廣泛的應用場景:阿里數(shù)字人支持視頻合成、流媒體實時交互、數(shù)字造星等多種應用場景。用戶可以根據(jù)需求選擇不同風格的數(shù)字人、音色、背景等,生成適用于教育、電商、新聞、視頻客服、助理、直播等多種場景的數(shù)字人播報視頻或?qū)崟r交互內(nèi)容。
-
靈活的技術底座與擴展性:阿里數(shù)字人提供基于AI驅(qū)動的數(shù)字人實時渲染推流的PaaS技術底座,支持客戶根據(jù)自身業(yè)務需求開發(fā)應用,并具備未來推出更多驅(qū)動模式的能力,確保了服務的靈活性和可擴展性。
在哪些場景會用到阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人?
1.內(nèi)容創(chuàng)作
阿里數(shù)字人可應用于新聞播報、政策解讀、課件講解將文本、語音等內(nèi)容轉化為以數(shù)字人形象為主的視頻內(nèi)容,使其能夠滿足在電視、網(wǎng)站、視頻平臺或社交平臺等視聽媒體的投放或傳播需求。阿里數(shù)字人為內(nèi)容創(chuàng)作者提供更低門檻、更強表現(xiàn)力的視頻內(nèi)容創(chuàng)作工具,提升創(chuàng)作效率,放大內(nèi)容價值。
2.數(shù)字員工
您的專屬數(shù)字員工支持數(shù)字人形象與智能助理場景結合,將傳統(tǒng)文本互動升級為數(shù)字人交互,打造同時具備親切感與專業(yè)度的數(shù)字員工形象。應用數(shù)字員工,可替代真人完成基本的業(yè)務咨詢答疑、信息播報、數(shù)據(jù)查詢、業(yè)務流程辦理等服務。阿里數(shù)字人可以與觀眾進行雙向互動和實時反饋,提高觀眾的參與度和興趣度,相較于單向傳播的真人直播,虛擬直播的互動性更強,提升了用戶體驗
3.視頻客服
我們的功能優(yōu)勢通過賦予客服機器人阿里數(shù)字人的形象,將傳統(tǒng)的在線/熱線客服升級成為支持WebRTC或VoLTE視頻客服。支持個性化配置客服形象和聲音,讓AI服務過程更親切、更有溫度;支持文本+語音+視頻雙向交互,并且可以根據(jù)用戶的表情、動作和環(huán)境信息定制服務響應策略。虛擬數(shù)字人克隆技術可以實現(xiàn)多元化的形象定制,只需拍攝幾分鐘的真人視頻,上傳至克隆平臺,通過AI深度建模,完美復刻真人形象,適用于多種場景
4.虛擬直播
阿里數(shù)字人能夠?qū)崿F(xiàn)全天候不間斷的直播,無需真人主播,節(jié)省了真人直播所需的休息時間和流量空檔期,使品牌能夠在全時段得到曝光,更好地獲取流量。相比于真人直播的高昂成本,包括聘請主播、場地租賃、設備配置等,虛擬數(shù)字人直播無需這些開銷,只需一部手機或電腦即可搭建直播間,且可快速復制,極大降低了成本


3D數(shù)字人流媒體
目前包含預付費、按量計費兩種模式:
預付費模式
規(guī)格名稱 |
價格 |
3D數(shù)字人流媒體 |
5749元/路/月 |
5749元/路/月,這里的路指的是并發(fā)路數(shù),也就是同一時刻支持幾個用戶與數(shù)字人進行交互,1路并發(fā)就是支持同一時刻只有1個用戶與數(shù)字人進行交互。3D數(shù)字人流媒體(停復機)的路數(shù)同理。
按量計費模式
規(guī)格名稱 |
價格 |
3D數(shù)字人流媒體(停復機) |
0.60元/路/分鐘 |
數(shù)字人視頻合成
目前包含按量計費和預付費流量包兩種模式:
按量計費模式
規(guī)格名稱 |
價格 |
數(shù)字人視頻合成 |
9.9元/分鐘(計費精確到秒,相當于0.165元/秒) |
預付費流量包(100分鐘以上)
如您對視頻合成用量較大(100分鐘以上),可根據(jù)實際需求購買視頻合成預付費流量包,在使用視頻合成創(chuàng)作時,會優(yōu)先抵扣資源包中的流量,超出資源包的流量再按量計費。點此購買
2D真人形象定制
目前包含按量計費一種模式:
按量計費模式
規(guī)格名稱 |
價格 |
2D真人形象定制(不支持退款) |
6999元/每個形象/年(第二年使用需續(xù)費,續(xù)費價格請聯(lián)系工作人員) |
-
上傳5-10分鐘拍攝視頻后,除去用戶確認時間,算法訓練最長10個工作日處理完成;
-
人工審核通過后,將會發(fā)送短信通知您,您需前往控制臺進行確認訓練,確認后將自動扣費,不支持退款;


1. 接入流程
-
申請阿里云賬號,完成實名認證(個人或企業(yè)均可)
-
申請購買權限,完成購買開通服務
-
配置應用
-
服務端接入
-
客戶端接入
2. 申請賬號
-
您需要提前申請好一個阿里云賬號,并完成實名認證,具體操作方式可參考準備工作。
3. 申請購買
-
擁有了阿里云賬號之后,您需要通過虛擬數(shù)字人開放平臺的申請審核,然后才能進行購買,具體操作方式可參考開通服務。
4. 配置應用
-
服務開通之后,可通過虛擬數(shù)字人開放平臺控制臺入口進行登錄訪問,創(chuàng)建并配置對應的應用,具體可參考創(chuàng)建并配置數(shù)字人應用。
5. 服務端接入
-
虛擬數(shù)字人開放平臺服務端接入依賴OpenAPI
-
在調(diào)用OpenAPI之前需要拿到API調(diào)用所需要的AK和SK, 獲取方式可參考獲取AccessKey文檔
-
詳細的服務端接入文檔可參考服務端 API 接入篇
6. 客戶端接入
-
客戶端接入,主要解決的是視頻流拉取的問題,采用阿里云音視頻RTC的技術方案,提供了豐富的客戶端接入能力
-
詳細的客戶端接入文檔可參考3D數(shù)字人實時流媒體
7. 客戶端硬件要求
-
1路并發(fā)的帶寬要求:
類別 |
要求 |
備注 |
下行速率 |
2Mb/s |
720P/路,僅考慮RTC拉流,不包含應用中數(shù)字人以外其他功能所占帶寬 |
上行速率 |
1Mb/s |
僅考慮音頻互動通道 |









3D數(shù)字人流媒體
目前包含預付費、按量計費兩種模式:
預付費模式
規(guī)格名稱 |
價格 |
3D數(shù)字人流媒體 |
5749元/路/月 |
5749元/路/月,這里的路指的是并發(fā)路數(shù),也就是同一時刻支持幾個用戶與數(shù)字人進行交互,1路并發(fā)就是支持同一時刻只有1個用戶與數(shù)字人進行交互。3D數(shù)字人流媒體(停復機)的路數(shù)同理。
按量計費模式
規(guī)格名稱 |
價格 |
3D數(shù)字人流媒體(停復機) |
0.60元/路/分鐘 |
數(shù)字人視頻合成
目前包含按量計費和預付費流量包兩種模式:
按量計費模式
規(guī)格名稱 |
價格 |
數(shù)字人視頻合成 |
9.9元/分鐘(計費精確到秒,相當于0.165元/秒) |
預付費流量包(100分鐘以上)
如您對視頻合成用量較大(100分鐘以上),可根據(jù)實際需求購買視頻合成預付費流量包,在使用視頻合成創(chuàng)作時,會優(yōu)先抵扣資源包中的流量,超出資源包的流量再按量計費。點此購買
2D真人形象定制
目前包含按量計費一種模式:
按量計費模式
規(guī)格名稱 |
價格 |
2D真人形象定制(不支持退款) |
6999元/每個形象/年(第二年使用需續(xù)費,續(xù)費價格請聯(lián)系工作人員) |
-
上傳5-10分鐘拍攝視頻后,除去用戶確認時間,算法訓練最長10個工作日處理完成;
-
人工審核通過后,將會發(fā)送短信通知您,您需前往控制臺進行確認訓練,確認后將自動扣費,不支持退款;


1. 接入流程
-
申請阿里云賬號,完成實名認證(個人或企業(yè)均可)
-
申請購買權限,完成購買開通服務
-
配置應用
-
服務端接入
-
客戶端接入
2. 申請賬號
-
您需要提前申請好一個阿里云賬號,并完成實名認證,具體操作方式可參考準備工作。
3. 申請購買
-
擁有了阿里云賬號之后,您需要通過虛擬數(shù)字人開放平臺的申請審核,然后才能進行購買,具體操作方式可參考開通服務。
4. 配置應用
-
服務開通之后,可通過虛擬數(shù)字人開放平臺控制臺入口進行登錄訪問,創(chuàng)建并配置對應的應用,具體可參考創(chuàng)建并配置數(shù)字人應用。
5. 服務端接入
-
虛擬數(shù)字人開放平臺服務端接入依賴OpenAPI
-
在調(diào)用OpenAPI之前需要拿到API調(diào)用所需要的AK和SK, 獲取方式可參考獲取AccessKey文檔
-
詳細的服務端接入文檔可參考服務端 API 接入篇
6. 客戶端接入
-
客戶端接入,主要解決的是視頻流拉取的問題,采用阿里云音視頻RTC的技術方案,提供了豐富的客戶端接入能力
-
詳細的客戶端接入文檔可參考3D數(shù)字人實時流媒體
7. 客戶端硬件要求
-
1路并發(fā)的帶寬要求:
類別 |
要求 |
備注 |
下行速率 |
2Mb/s |
720P/路,僅考慮RTC拉流,不包含應用中數(shù)字人以外其他功能所占帶寬 |
上行速率 |
1Mb/s |
僅考慮音頻互動通道 |








