![]() |
AI離線數(shù)字人生成服務(wù)-AIGC
專用API
【更新時間: 2024.07.15】
AI離線數(shù)字人是指存在于非物理世界中,基于計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù),創(chuàng)造出來的一個可供真人或計算機驅(qū)動的形象實體,具有對物理世界的感知、認(rèn)知與表達能力。
|
瀏覽次數(shù)
121
采購人數(shù)
4
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是AIGC的AI離線數(shù)字人生成服務(wù)?
AI離線數(shù)字人是指存在于非物理世界中,基于計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù),創(chuàng)造出來的一個可供真人或計算機驅(qū)動的形象實體,具有對物理世界的感知、認(rèn)知與表達能力,以電子屏、VR、AR等設(shè)備為載體,實現(xiàn)人機交互;通過其面向媒體、金融、會議、文旅、娛樂、教育、醫(yī)療等行業(yè),提供全新智能型服務(wù),降低人力成本,提升服務(wù)質(zhì)量和效率。在技術(shù)層面,虛擬數(shù)字人可被分為真人靈活驅(qū)動型和基于深度學(xué)習(xí)算法,智能驅(qū)動型兩類。 新華智云自主研發(fā)了真人驅(qū)動和智能驅(qū)動數(shù)字人技術(shù),結(jié)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和計算機圖形學(xué),深度鉆研聲音或視覺信息到面部及身體動作的建模和渲染,讓計算機能夠理解語音和圖像的內(nèi)容并以此精細(xì)驅(qū)動數(shù)字人形象的口唇、面部表情、頭部乃至全身的動作,生成極具逼真感的數(shù)字人視頻,進而實現(xiàn)AI驅(qū)動數(shù)字人的內(nèi)容生產(chǎn)鏈路。同時,新華智云數(shù)字人技術(shù)全方位覆蓋了包含2D仿真人數(shù)字人、2D卡通數(shù)字人、3D卡通數(shù)字人、3D寫實數(shù)字人等各個類型的數(shù)字人創(chuàng)造鏈路。 作為“懂內(nèi)容的技術(shù)公司”,新華智云將數(shù)字人技術(shù)與專業(yè)視頻編輯系統(tǒng)相結(jié)合,推出數(shù)字人大廳這款虛擬數(shù)字人的視頻編輯與生產(chǎn)平臺,為內(nèi)容生產(chǎn)者提供涉及數(shù)字人相關(guān)的內(nèi)容采集、編輯、存儲、分發(fā)等全生產(chǎn)鏈的專有技術(shù)。在國內(nèi)乃至全球的數(shù)字人技術(shù)領(lǐng)域新華智云數(shù)字人技術(shù)都處于領(lǐng)先地位。
什么是AIGC的AI離線數(shù)字人生成服務(wù)接口?
AIGC的AI離線數(shù)字人生成服務(wù)有哪些核心功能?
- 照片快速生成3D數(shù)字人:通過用戶提供的照片,自動進行人臉骨骼點預(yù)測,并自動化捏制3D人臉模型,生成高度逼真的數(shù)字分身。
- 視頻采集生成2D數(shù)字人:支持用戶上傳2-5分鐘的視頻,從中提取關(guān)鍵幀,快速生成高定2D真人數(shù)字人,同時支持定制形象、聲音和動作。
- 實時渲染與智能交互:提供實時渲染技術(shù),支持?jǐn)?shù)字人在多種場景下的智能交互,包括問答、表情變化、動作執(zhí)行等。
- 定制化服務(wù):提供豐富的數(shù)字人形象庫,并支持用戶根據(jù)需求進行定制化服務(wù),包括形象設(shè)計、聲音合成、動作捕捉等。
- API接口接入:提供API接口,方便用戶將生成的數(shù)字人集成到自己的應(yīng)用或系統(tǒng)中,實現(xiàn)無縫對接。
AIGC的AI離線數(shù)字人生成服務(wù)的核心優(yōu)勢是什么?
- 高效快速:通過自動化流程,大大縮短了數(shù)字人生成的時間,提高了效率。
- 高度逼真:利用先進的計算機圖形學(xué)和深度學(xué)習(xí)技術(shù),生成的數(shù)字人形象高度逼真,接近真人效果。
- 定制化強:提供豐富的定制化選項,滿足不同用戶的個性化需求。
- 易于集成:提供便捷的API接口,方便用戶將數(shù)字人集成到自己的業(yè)務(wù)系統(tǒng)中。
- 應(yīng)用場景廣泛:適用于媒體、金融、會議、文旅、娛樂、教育、醫(yī)療等多個領(lǐng)域,為用戶提供全新的智能型服務(wù)體驗。
在哪些場景會用到AIGC的AI離線數(shù)字人生成服務(wù)?
1. 媒體行業(yè):虛擬主播制作
在媒體行業(yè)中,AIGC技術(shù)被廣泛應(yīng)用于新聞播報、天氣預(yù)報、綜藝節(jié)目等節(jié)目的虛擬主播制作。虛擬數(shù)字主持人不僅承擔(dān)了日常新聞播報,還可進行多語種翻譯,在重要活動中進行了展示。河北廣電AIGC聯(lián)合實驗室打造的AI主持人融合了深度學(xué)習(xí)模式和高精度渲染技術(shù),實現(xiàn)了語音與表情的高度擬真效果。這些虛擬主播不僅提高了節(jié)目的制作效率,還為觀眾帶來了新穎的觀看體驗。
2. 金融行業(yè):虛擬客服與顧問
在金融行業(yè),AIGC技術(shù)的應(yīng)用體現(xiàn)在虛擬客服或虛擬顧問的角色上,它們能夠提供全天候的客戶服務(wù)或產(chǎn)品介紹。這些虛擬數(shù)字人通過自然語言處理等技術(shù),可以準(zhǔn)確理解用戶需求,并給出滿意的答復(fù)。通過AIGC實現(xiàn)金融資訊、產(chǎn)品介紹視頻內(nèi)容的自動化生產(chǎn),以及塑造虛擬數(shù)字人客服,這不僅提升了服務(wù)效率,還增強了用戶的互動體驗。
3. 教育行業(yè):虛擬教師與助教
在教育行業(yè),AIGC技術(shù)被用作虛擬教師或助教,輔助教學(xué)活動或提供學(xué)習(xí)資源。AIGC技術(shù)通過分析用戶數(shù)據(jù),為傳媒藝術(shù)領(lǐng)域提供了個性化內(nèi)容生成的可能,這在推薦系統(tǒng)和定制化服務(wù)中尤為重要。同時,AIGC技術(shù)也在教育和培訓(xùn)領(lǐng)域展現(xiàn)出巨大潛力,通過虛擬教師和模擬訓(xùn)練環(huán)境,為學(xué)生提供了更加互動和沉浸式的學(xué)習(xí)體驗,從而變革了傳統(tǒng)的教育模式。
2. 娛樂行業(yè):虛擬偶像與角色
在娛樂行業(yè),AIGC技術(shù)作為虛擬偶像或角色,參與游戲、動畫、電影等娛樂內(nèi)容的制作。AIGC技術(shù)使得虛擬偶像的創(chuàng)作變得更加簡單。虛擬數(shù)字人可以通過學(xué)習(xí)大量數(shù)據(jù)來模擬偶像的言行舉止,甚至可以根據(jù)用戶需求進行個性化表演,為用戶帶來全新的視聽體驗。一些AIGC項目開始運用在虛擬偶像二創(chuàng)領(lǐng)域,粉絲用AI作畫工具為心愛的虛擬偶像創(chuàng)作插畫甚至是cosplay,豐富衍生的圖片內(nèi)容。這些技術(shù)的進步讓虛擬偶像的二創(chuàng)跨出了一大步,不再局限于視覺,為娛樂產(chǎn)業(yè)帶來了新的可能性。


1. 概述
離線數(shù)字人API支持2D仿真和3D寫實數(shù)字人合成服務(wù)。本文檔將指導(dǎo)開發(fā)者如何使用該API,包括接口調(diào)用、參數(shù)說明和常見錯誤處理。
2. 域名及請求加簽
-
請求地址:
https://api.shuwen.com
-
請求方式: GET/POST
-
接口路徑示例:
/open/digitalMan/pageQuery?pageNo=1&pageSize=10
3. 數(shù)字人列表查詢接口
3.1 接口調(diào)用
-
請求方式: GET
-
請求路徑:
/open/digitalMan/pageQuery
-
請求參數(shù):
-
pageNo
(必填): Integer, 分頁頁碼 -
pageSize
(必填): Integer, 分頁大小
-
3.2 接口結(jié)果
-
返回數(shù)據(jù)結(jié)構(gòu):
-
total
: 數(shù)據(jù)總量 -
data
: 數(shù)字人信息數(shù)組-
id
: 數(shù)字人ID -
name
: 名稱 -
description
: 描述 -
preImg
: 預(yù)覽圖
-
-
4. 數(shù)字人詳情查詢接口
4.1 接口調(diào)用
-
請求方式: GET
-
請求路徑:
/open/digitalMan/detaiQuery/
-
請求參數(shù): 數(shù)字人ID(必填)
4.2 接口結(jié)果
-
返回數(shù)據(jù)結(jié)構(gòu)包括:
-
voices
: 數(shù)字人聲音信息 -
clothes
: 數(shù)字人服飾信息
-
5. 數(shù)字人合成相關(guān)接口
5.1 合成接口調(diào)用
-
請求方式: POST
-
請求路徑:
/open/digitalMan/batch/generate
-
請求參數(shù):
{
"generateParam": [
{
"algoParam": {
"video": {},
"background": "背景圖URL",
"tts": {
"text": "合成文本",
"per": "聲音ID"
},
"position": [0, 0, 1080, 1801],
"code": "數(shù)字人編碼",
"is_green": true,
"subtitle": true
}
}
],
"callBackUrl": "回調(diào)地址"
}
5.2 合成接口結(jié)果
-
返回任務(wù)的
groupId
5.3 合成任務(wù)查詢接口
-
請求方式: GET
-
請求路徑:
/open/digitalMan/batch/query/
-
請求參數(shù):
groupId
5.4 合成任務(wù)結(jié)果返回
-
返回數(shù)據(jù)包括:
-
status
: 當(dāng)前子任務(wù)合成狀態(tài) -
composeUrl
: 合成視頻的URL -
textSegs
: 播報內(nèi)容的相關(guān)信息
-
5.5 異步回調(diào)方式
-
客戶端需根據(jù)簽名驗證回調(diào)請求的合法性。
6. 字幕文件生成
6.1 接口調(diào)用
-
請求方式: POST
-
請求路徑:
/open/digitalMan/subtitle/generate
-
請求參數(shù):
-
taskId
: 任務(wù)ID -
type
: 字幕類型(可選,默認(rèn)srt
)
-
6.2 合成結(jié)果
-
返回字幕文件的URL
7. 常見錯誤碼
-
SW-DM-1000
: 合成任務(wù)創(chuàng)建失敗 -
SW-DM-1001
: 租戶ID缺失 -
SW-DM-1002
: 主參數(shù)缺失 -
SW-DM-1003
:generateParam
參數(shù)缺失 -
SW-DM-1004
:algoParam
參數(shù)缺失 -
SW-DM-1005
: 數(shù)字人形象code參數(shù)缺失 -
SW-DM-1006
:tts
參數(shù)缺失
8. 結(jié)語
指南詳情鏈接:https://aigc.shuwen.com/docs/zh-cn/human/real.html




虛擬數(shù)字人是指存在于非物理世界中,基于計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù),創(chuàng)造出來的一個可供真人或計算機驅(qū)動的形象實體,具有對物理世界的感知、認(rèn)知與表達能力,以電子屏、VR、AR等設(shè)備為載體,實現(xiàn)人機交互;通過其面向媒體、金融、會議、文旅、娛樂、教育、醫(yī)療等行業(yè),提供全新智能型服務(wù),降低人力成本,提升服務(wù)質(zhì)量和效率。在技術(shù)層面,虛擬數(shù)字人可被分為真人靈活驅(qū)動型和基于深度學(xué)習(xí)算法,智能驅(qū)動型兩類。 新華智云自主研發(fā)了真人驅(qū)動和智能驅(qū)動數(shù)字人技術(shù),結(jié)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和計算機圖形學(xué),深度鉆研聲音或視覺信息到面部及身體動作的建模和渲染,讓計算機能夠理解語音和圖像的內(nèi)容并以此精細(xì)驅(qū)動數(shù)字人形象的口唇、面部表情、頭部乃至全身的動作,生成極具逼真感的數(shù)字人視頻,進而實現(xiàn)AI驅(qū)動數(shù)字人的內(nèi)容生產(chǎn)鏈路。同時,新華智云數(shù)字人技術(shù)全方位覆蓋了包含2D仿真人數(shù)字人、2D卡通數(shù)字人、3D卡通數(shù)字人、3D寫實數(shù)字人等各個類型的數(shù)字人創(chuàng)造鏈路。 作為“懂內(nèi)容的技術(shù)公司”,新華智云將數(shù)字人技術(shù)與專業(yè)視頻編輯系統(tǒng)相結(jié)合,推出數(shù)字人大廳這款虛擬數(shù)字人的視頻編輯與生產(chǎn)平臺,為內(nèi)容生產(chǎn)者提供涉及數(shù)字人相關(guān)的內(nèi)容采集、編輯、存儲、分發(fā)等全生產(chǎn)鏈的專有技術(shù)。在國內(nèi)乃至全球的數(shù)字人技術(shù)領(lǐng)域新華智云數(shù)字人技術(shù)都處于領(lǐng)先地位。早在2019年6月我方產(chǎn)品已經(jīng)投入市場使用。目前已經(jīng)有超過280家國內(nèi)機構(gòu)、覆蓋了22個省、使用我方數(shù)字人產(chǎn)品,市場成熟度高、并已應(yīng)用在媒體、文旅、會展、金融等領(lǐng)域。


1. 概述
離線數(shù)字人API支持2D仿真和3D寫實數(shù)字人合成服務(wù)。本文檔將指導(dǎo)開發(fā)者如何使用該API,包括接口調(diào)用、參數(shù)說明和常見錯誤處理。
2. 域名及請求加簽
-
請求地址:
https://api.shuwen.com
-
請求方式: GET/POST
-
接口路徑示例:
/open/digitalMan/pageQuery?pageNo=1&pageSize=10
3. 數(shù)字人列表查詢接口
3.1 接口調(diào)用
-
請求方式: GET
-
請求路徑:
/open/digitalMan/pageQuery
-
請求參數(shù):
-
pageNo
(必填): Integer, 分頁頁碼 -
pageSize
(必填): Integer, 分頁大小
-
3.2 接口結(jié)果
-
返回數(shù)據(jù)結(jié)構(gòu):
-
total
: 數(shù)據(jù)總量 -
data
: 數(shù)字人信息數(shù)組-
id
: 數(shù)字人ID -
name
: 名稱 -
description
: 描述 -
preImg
: 預(yù)覽圖
-
-
4. 數(shù)字人詳情查詢接口
4.1 接口調(diào)用
-
請求方式: GET
-
請求路徑:
/open/digitalMan/detaiQuery/
-
請求參數(shù): 數(shù)字人ID(必填)
4.2 接口結(jié)果
-
返回數(shù)據(jù)結(jié)構(gòu)包括:
-
voices
: 數(shù)字人聲音信息 -
clothes
: 數(shù)字人服飾信息
-
5. 數(shù)字人合成相關(guān)接口
5.1 合成接口調(diào)用
-
請求方式: POST
-
請求路徑:
/open/digitalMan/batch/generate
-
請求參數(shù):
{
"generateParam": [
{
"algoParam": {
"video": {},
"background": "背景圖URL",
"tts": {
"text": "合成文本",
"per": "聲音ID"
},
"position": [0, 0, 1080, 1801],
"code": "數(shù)字人編碼",
"is_green": true,
"subtitle": true
}
}
],
"callBackUrl": "回調(diào)地址"
}
5.2 合成接口結(jié)果
-
返回任務(wù)的
groupId
5.3 合成任務(wù)查詢接口
-
請求方式: GET
-
請求路徑:
/open/digitalMan/batch/query/
-
請求參數(shù):
groupId
5.4 合成任務(wù)結(jié)果返回
-
返回數(shù)據(jù)包括:
-
status
: 當(dāng)前子任務(wù)合成狀態(tài) -
composeUrl
: 合成視頻的URL -
textSegs
: 播報內(nèi)容的相關(guān)信息
-
5.5 異步回調(diào)方式
-
客戶端需根據(jù)簽名驗證回調(diào)請求的合法性。
6. 字幕文件生成
6.1 接口調(diào)用
-
請求方式: POST
-
請求路徑:
/open/digitalMan/subtitle/generate
-
請求參數(shù):
-
taskId
: 任務(wù)ID -
type
: 字幕類型(可選,默認(rèn)srt
)
-
6.2 合成結(jié)果
-
返回字幕文件的URL
7. 常見錯誤碼
-
SW-DM-1000
: 合成任務(wù)創(chuàng)建失敗 -
SW-DM-1001
: 租戶ID缺失 -
SW-DM-1002
: 主參數(shù)缺失 -
SW-DM-1003
:generateParam
參數(shù)缺失 -
SW-DM-1004
:algoParam
參數(shù)缺失 -
SW-DM-1005
: 數(shù)字人形象code參數(shù)缺失 -
SW-DM-1006
:tts
參數(shù)缺失
8. 結(jié)語
指南詳情鏈接:https://aigc.shuwen.com/docs/zh-cn/human/real.html






虛擬數(shù)字人是指存在于非物理世界中,基于計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù),創(chuàng)造出來的一個可供真人或計算機驅(qū)動的形象實體,具有對物理世界的感知、認(rèn)知與表達能力,以電子屏、VR、AR等設(shè)備為載體,實現(xiàn)人機交互;通過其面向媒體、金融、會議、文旅、娛樂、教育、醫(yī)療等行業(yè),提供全新智能型服務(wù),降低人力成本,提升服務(wù)質(zhì)量和效率。在技術(shù)層面,虛擬數(shù)字人可被分為真人靈活驅(qū)動型和基于深度學(xué)習(xí)算法,智能驅(qū)動型兩類。 新華智云自主研發(fā)了真人驅(qū)動和智能驅(qū)動數(shù)字人技術(shù),結(jié)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和計算機圖形學(xué),深度鉆研聲音或視覺信息到面部及身體動作的建模和渲染,讓計算機能夠理解語音和圖像的內(nèi)容并以此精細(xì)驅(qū)動數(shù)字人形象的口唇、面部表情、頭部乃至全身的動作,生成極具逼真感的數(shù)字人視頻,進而實現(xiàn)AI驅(qū)動數(shù)字人的內(nèi)容生產(chǎn)鏈路。同時,新華智云數(shù)字人技術(shù)全方位覆蓋了包含2D仿真人數(shù)字人、2D卡通數(shù)字人、3D卡通數(shù)字人、3D寫實數(shù)字人等各個類型的數(shù)字人創(chuàng)造鏈路。 作為“懂內(nèi)容的技術(shù)公司”,新華智云將數(shù)字人技術(shù)與專業(yè)視頻編輯系統(tǒng)相結(jié)合,推出數(shù)字人大廳這款虛擬數(shù)字人的視頻編輯與生產(chǎn)平臺,為內(nèi)容生產(chǎn)者提供涉及數(shù)字人相關(guān)的內(nèi)容采集、編輯、存儲、分發(fā)等全生產(chǎn)鏈的專有技術(shù)。在國內(nèi)乃至全球的數(shù)字人技術(shù)領(lǐng)域新華智云數(shù)字人技術(shù)都處于領(lǐng)先地位。早在2019年6月我方產(chǎn)品已經(jīng)投入市場使用。目前已經(jīng)有超過280家國內(nèi)機構(gòu)、覆蓋了22個省、使用我方數(shù)字人產(chǎn)品,市場成熟度高、并已應(yīng)用在媒體、文旅、會展、金融等領(lǐng)域。