阿里云語音分析服務(wù)

阿里云語音分析服務(wù)

專用API
【更新時(shí)間: 2024.08.14】 阿里云語音分析服務(wù)是一款專為滿足開發(fā)者對語音數(shù)據(jù)處理需求而設(shè)計(jì)的數(shù)據(jù)與API產(chǎn)品。該服務(wù)旨在幫助企業(yè)快速構(gòu)建語音識別、情感分析、關(guān)鍵詞提取等多種語音處理能力,無需從頭開始構(gòu)建復(fù)雜的語音處理系統(tǒng)。
30千次 / 50.00年起 去服務(wù)商官網(wǎng)采購>
瀏覽次數(shù)
26
采購人數(shù)
1
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個(gè)人&企業(yè)
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是阿里云語音分析服務(wù)?

語音分析技術(shù)是指通過檢測與分析音頻,識別特定語音分類的技術(shù),包括說話人識別、語種識別、性別識別、聲音事件檢測等技術(shù),可應(yīng)用于會議音頻識別、客服音頻分析或音視頻剪輯等場景。

什么是阿里云語音分析服務(wù)接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用阿里云語音分析服務(wù),從而實(shí)現(xiàn)程序的自動化交互,提高服務(wù)效率。

阿里云語音分析服務(wù)有哪些核心功能?

1. 語種識別
實(shí)現(xiàn)對上傳音頻(實(shí)時(shí)或離線)中所說的是哪種語言進(jìn)行句級別的判定,并返回是中、英、粵語或其他語言。

2. 性別識別
通過對上傳音頻(實(shí)時(shí)或離線)進(jìn)行高效解析,有效判定說話人的性別(男女)以及年齡段(兒童、成年、老人)。

3. 聲音事件檢測
通過一段聲音來對環(huán)境音(包括語音、短視頻等)里面的事件類型進(jìn)行檢測分類,其主要任務(wù)是檢測識別音頻中諸如背景音樂、哭聲、笑聲、爆炸聲之類的聲音,并標(biāo)注出聲音的起止時(shí)間。

4. 說話人識別
基于自研聲紋識別算法,通過解析一段語音,將提取到的音頻特征與之前注冊的音頻特征進(jìn)行比對,來對說話人身份進(jìn)行核驗(yàn)(類似人臉識別)。

阿里云語音分析服務(wù)的核心優(yōu)勢是什么?

1. 易接入
支持HTTP&SDK多種技術(shù)接入,各類平臺適用,支持本地化部署
2. 速度快
可批量對音頻進(jìn)行識別并快速返回結(jié)果
3. 領(lǐng)域廣
可應(yīng)用于多種場景如電話客服、手機(jī)應(yīng)用等

在哪些場景會用到阿里云語音分析服務(wù)?

1. 跨國會議場景
由于跨國會議往往涉及到多個(gè)國家人群的對話,基于用戶上傳的聲音進(jìn)行分析可以自動選擇不同識別模型提升會議識別率。
3. 音視頻剪輯
視頻后期工作者往往要面對海量的剪輯工作,通過此功能可輕松定位不同事件位置,極大提升了剪輯效率。
2. 外呼營銷場景
通過對一句話內(nèi)有效音頻識別出用戶性別,以便更好地提供人性化語音交互服務(wù),提升客戶體驗(yàn)。
4. 金融風(fēng)控場景
說話人識別從1:1身份確認(rèn)到1:N身份辨認(rèn),為金融定制精準(zhǔn)高效的客戶身份安全驗(yàn)證。
<
產(chǎn)品價(jià)格
>

<
使用指南
>

入門流程

快速入門文檔介紹使用智能語音服務(wù)需要的步驟,幫助您快速開通服務(wù)、創(chuàng)建測試項(xiàng)目和調(diào)用語音服務(wù)。

image

步驟1:準(zhǔn)備賬號

  1. 注冊阿里云賬號。

    阿里云賬號作為阿里云系統(tǒng)識別的資源消費(fèi)賬戶,有阿里云所有產(chǎn)品和管理權(quán)限。具體操作,請參見注冊阿里云賬號。

  2. 個(gè)人實(shí)名認(rèn)證。

    為了確保您可以正常使用阿里云產(chǎn)品和服務(wù),您需要完成個(gè)人實(shí)名認(rèn)證。具體操作,請參見個(gè)人實(shí)名認(rèn)證。

  3. (可選)創(chuàng)建并授權(quán)RAM用戶。

    當(dāng)您的企業(yè)存在多用戶協(xié)同訪問資源的場景時(shí),可以創(chuàng)建RAM用戶,使用RAM可以按需為用戶分配最小權(quán)限,避免多用戶共享阿里云賬號密碼或訪問密鑰,從而降低企業(yè)的安全風(fēng)險(xiǎn)。具體操作,請參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請參見什么是訪問控制。

    如果使用RAM用戶調(diào)用智能語音交互產(chǎn)品,請前往控制臺為RAM用戶授予AliyunNLSFullAccess權(quán)限。具體操作,請參見為RAM用戶授權(quán)

    RAM授權(quán)

    說明

    創(chuàng)建RAM用戶時(shí),請?jiān)O(shè)置登錄密碼,否則無法單獨(dú)登錄RAM賬號。

步驟2:創(chuàng)建AccessKey

在調(diào)用阿里云API時(shí)您需要使用AccessKey完成身份驗(yàn)證,AccessKey包括AccessKey ID和AccessKey Secret,具體說明如下:

  • AccessKey ID:用于標(biāo)識用戶。

  • AccessKey Secret:用于驗(yàn)證用戶的密鑰。AccessKey Secret必須保密。

創(chuàng)建阿里云賬號的AccessKey

登錄RAM訪問控制臺,使用阿里云賬號創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

image

創(chuàng)建RAM用戶的AccessKey

使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey。

重要

RAM用戶的AccessKey Secret只在創(chuàng)建時(shí)顯示,不支持查看,請妥善保管。

image

步驟3:開通服務(wù)

如果您是第一次使用智能語音交互,推薦您使用阿里云賬號開通智能語音交互服務(wù)。

進(jìn)入智能語音交互產(chǎn)品首頁,單擊開通并購買,然后在產(chǎn)品開通頁面,選擇服務(wù)類型并選中服務(wù)協(xié)議,單擊立即開通,即可開通智能語音交互服務(wù)。

類型

說明

免費(fèi)試用版

默認(rèn)全部試用。長文本語音合成、錄音文件識別(閑時(shí)版)和錄音文件識別(極速版)無試用版。

新開通服務(wù)的用戶可免費(fèi)試用3個(gè)月,支持2路并發(fā)(即同時(shí)最大2個(gè)任務(wù))或每日2小時(shí)的錄音文件識別額度。

重要

新用戶試用期3個(gè)月內(nèi),每隔24小時(shí)可免費(fèi)識別2小時(shí)時(shí)長的文件轉(zhuǎn)寫服務(wù)。免費(fèi)額度用完后,間隔24小時(shí)后可繼續(xù)試用。

商用版

選擇某個(gè)或多個(gè)語音服務(wù)為商用,開通后按量計(jì)費(fèi),根據(jù)實(shí)際使用量從您的阿里云賬戶余額中扣費(fèi)。更多信息,請參見計(jì)費(fèi)說明。

立即開通

步驟4:管理項(xiàng)目

登錄智能語音交互控制臺,創(chuàng)建項(xiàng)目生成對應(yīng)的Appkey。具體操作,請參見管理項(xiàng)目。

步驟5:獲取Token

訪問令牌( Token)是調(diào)用智能語音交互服務(wù)的服務(wù)鑒權(quán)憑證。

Token在不同項(xiàng)目間、不同進(jìn)程間、不同線程間都可以共用,Token有效期根據(jù)服務(wù)端返回為準(zhǔn),過期前必須提前重新獲取Token,建議每天重新獲取。為了安全起見,建議您在服務(wù)端集成Token SDK,客戶端從服務(wù)端獲取Token。

獲取Token方式

建議使用場景

通過控制臺獲取Token

僅供測試使用,在控制臺獲取Token。

獲取Token

正式環(huán)境使用,通過傳入AccessKey ID和AccessKey Secret,在SDK通過代碼定期自動獲取Token。

通過OpenAPI獲取Token

若對應(yīng)的編程語言缺少SDK,或者需要控制依賴組件,可以通過OpenAPI獲取Token。

步驟6:集成開發(fā)

根據(jù)以上幾步獲取到賬號對應(yīng)的AccessKey ID、AccessKey Secret、服務(wù)鑒權(quán)Token、以及項(xiàng)目Appkey,必須確保這幾項(xiàng)數(shù)值歸屬于同一阿里云賬號或同一RAM用戶。

您可以根據(jù)以上信息,通過命令行等方式快速體驗(yàn)智能語音交互產(chǎn)品能力,具體操作,請參見運(yùn)行示例。也可以通過SDK和API概覽詳細(xì)了解在各類平臺如何將語音識別語音合成功能集成到您的服務(wù)當(dāng)中。

集成運(yùn)行

說明

集成運(yùn)行

說明

運(yùn)行示例

基于使用阿里云主賬號且從控制臺獲取測試Token來體驗(yàn)產(chǎn)品。

主要通過控制臺、curl命令行、postman、以及Java SDK等方式快速體驗(yàn)智能語音交互能力。

SDK和API概覽

RESTful API、移動端、服務(wù)端、微信小程序以及WebSocket等多種接入方式。

<
產(chǎn)品問答
>
?
什么是并發(fā)?
智能語音交互產(chǎn)品中的并發(fā),是指系統(tǒng)同時(shí)處理的請求數(shù)。 以實(shí)時(shí)語音轉(zhuǎn)寫為例,每當(dāng)發(fā)起一個(gè)請求后(比如調(diào)用start接口),即為建立一個(gè)WebSocket鏈接, 在請求結(jié)束之前(比如調(diào)用stop或close接口),該請求一直占用一個(gè)并發(fā)。如果您的并發(fā)額度是200,即同時(shí)只能建立200個(gè)類似的實(shí)時(shí)轉(zhuǎn)寫請求,如果超出額度會返回錯誤碼40000005。
?
什么是QPS?
QPS是指每秒能夠處理的請求數(shù)。 以錄音文件識別(含閑時(shí)版)為例,QPS限制是指您每秒最多調(diào)用的請求數(shù), 如果超過QPS限制,可能會報(bào)出Throttling.User : Request was denied due to user flow control.類似的錯誤。 建議您適當(dāng)調(diào)整提交任務(wù)、查詢?nèi)蝿?wù)接口的調(diào)用頻率。
?
剛剛購買了資源包,為什么控制臺上顯示不出來?
如果當(dāng)日購買資源包,在次日(T+1) 才會在控制臺上顯示余量。
<
關(guān)于我們
>
豐富的企業(yè)應(yīng)用,滿足企業(yè)經(jīng)營和數(shù)字化所需 安全合規(guī) 亞太合規(guī)資質(zhì)最全的云服務(wù)商之一,從基礎(chǔ)設(shè)施安全、內(nèi)核平臺安全、系統(tǒng)服務(wù)安全、云安全產(chǎn)品四個(gè)層面,保障千行百業(yè)客戶的業(yè)務(wù)安全在線。擁有權(quán)威認(rèn)可的原生安全能力,根據(jù)2021年Gartner報(bào)告,安全能力全球第一。 技術(shù)領(lǐng)先 飛天是阿里云自主研發(fā)、國內(nèi)唯一自研的云計(jì)算操作系統(tǒng),編排調(diào)度百萬級服務(wù)器,單集群調(diào)度規(guī)模超十萬臺,具備EB級數(shù)據(jù)存儲能力,并通過CIPU率先實(shí)現(xiàn)虛擬化“0”損耗,提供業(yè)界領(lǐng)先的計(jì)算性能,既滿足客戶嚴(yán)苛的業(yè)務(wù)要求,又提供高性價(jià)比服務(wù)。
聯(lián)系信息
服務(wù)時(shí)間: 7*24
電話號碼: 86 571 8502 2600

<
最可能同場景使用的其他API
>
API接口列表
<
產(chǎn)品價(jià)格
>

<
使用指南
>

入門流程

快速入門文檔介紹使用智能語音服務(wù)需要的步驟,幫助您快速開通服務(wù)、創(chuàng)建測試項(xiàng)目和調(diào)用語音服務(wù)。

image

步驟1:準(zhǔn)備賬號

  1. 注冊阿里云賬號。

    阿里云賬號作為阿里云系統(tǒng)識別的資源消費(fèi)賬戶,有阿里云所有產(chǎn)品和管理權(quán)限。具體操作,請參見注冊阿里云賬號。

  2. 個(gè)人實(shí)名認(rèn)證。

    為了確保您可以正常使用阿里云產(chǎn)品和服務(wù),您需要完成個(gè)人實(shí)名認(rèn)證。具體操作,請參見個(gè)人實(shí)名認(rèn)證

  3. (可選)創(chuàng)建并授權(quán)RAM用戶。

    當(dāng)您的企業(yè)存在多用戶協(xié)同訪問資源的場景時(shí),可以創(chuàng)建RAM用戶,使用RAM可以按需為用戶分配最小權(quán)限,避免多用戶共享阿里云賬號密碼或訪問密鑰,從而降低企業(yè)的安全風(fēng)險(xiǎn)。具體操作,請參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請參見什么是訪問控制。

    如果使用RAM用戶調(diào)用智能語音交互產(chǎn)品,請前往控制臺為RAM用戶授予AliyunNLSFullAccess權(quán)限。具體操作,請參見為RAM用戶授權(quán)。

    RAM授權(quán)

    說明

    創(chuàng)建RAM用戶時(shí),請?jiān)O(shè)置登錄密碼,否則無法單獨(dú)登錄RAM賬號。

步驟2:創(chuàng)建AccessKey

在調(diào)用阿里云API時(shí)您需要使用AccessKey完成身份驗(yàn)證,AccessKey包括AccessKey ID和AccessKey Secret,具體說明如下:

  • AccessKey ID:用于標(biāo)識用戶。

  • AccessKey Secret:用于驗(yàn)證用戶的密鑰。AccessKey Secret必須保密。

創(chuàng)建阿里云賬號的AccessKey

登錄RAM訪問控制臺,使用阿里云賬號創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

image

創(chuàng)建RAM用戶的AccessKey

使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創(chuàng)建AccessKey。具體操作,請參見創(chuàng)建AccessKey

重要

RAM用戶的AccessKey Secret只在創(chuàng)建時(shí)顯示,不支持查看,請妥善保管。

image

步驟3:開通服務(wù)

如果您是第一次使用智能語音交互,推薦您使用阿里云賬號開通智能語音交互服務(wù)。

進(jìn)入智能語音交互產(chǎn)品首頁,單擊開通并購買,然后在產(chǎn)品開通頁面,選擇服務(wù)類型并選中服務(wù)協(xié)議,單擊立即開通,即可開通智能語音交互服務(wù)。

類型

說明

免費(fèi)試用版

默認(rèn)全部試用。長文本語音合成、錄音文件識別(閑時(shí)版)和錄音文件識別(極速版)無試用版。

新開通服務(wù)的用戶可免費(fèi)試用3個(gè)月,支持2路并發(fā)(即同時(shí)最大2個(gè)任務(wù))或每日2小時(shí)的錄音文件識別額度。

重要

新用戶試用期3個(gè)月內(nèi),每隔24小時(shí)可免費(fèi)識別2小時(shí)時(shí)長的文件轉(zhuǎn)寫服務(wù)。免費(fèi)額度用完后,間隔24小時(shí)后可繼續(xù)試用。

商用版

選擇某個(gè)或多個(gè)語音服務(wù)為商用,開通后按量計(jì)費(fèi),根據(jù)實(shí)際使用量從您的阿里云賬戶余額中扣費(fèi)。更多信息,請參見計(jì)費(fèi)說明。

立即開通

步驟4:管理項(xiàng)目

登錄智能語音交互控制臺,創(chuàng)建項(xiàng)目生成對應(yīng)的Appkey。具體操作,請參見管理項(xiàng)目

步驟5:獲取Token

訪問令牌( Token)是調(diào)用智能語音交互服務(wù)的服務(wù)鑒權(quán)憑證。

Token在不同項(xiàng)目間、不同進(jìn)程間、不同線程間都可以共用,Token有效期根據(jù)服務(wù)端返回為準(zhǔn),過期前必須提前重新獲取Token,建議每天重新獲取。為了安全起見,建議您在服務(wù)端集成Token SDK,客戶端從服務(wù)端獲取Token。

獲取Token方式

建議使用場景

通過控制臺獲取Token

僅供測試使用,在控制臺獲取Token。

獲取Token

正式環(huán)境使用,通過傳入AccessKey ID和AccessKey Secret,在SDK通過代碼定期自動獲取Token。

通過OpenAPI獲取Token

若對應(yīng)的編程語言缺少SDK,或者需要控制依賴組件,可以通過OpenAPI獲取Token。

步驟6:集成開發(fā)

根據(jù)以上幾步獲取到賬號對應(yīng)的AccessKey ID、AccessKey Secret服務(wù)鑒權(quán)Token、以及項(xiàng)目Appkey,必須確保這幾項(xiàng)數(shù)值歸屬于同一阿里云賬號或同一RAM用戶。

您可以根據(jù)以上信息,通過命令行等方式快速體驗(yàn)智能語音交互產(chǎn)品能力,具體操作,請參見運(yùn)行示例。也可以通過SDK和API概覽詳細(xì)了解在各類平臺如何將語音識別語音合成功能集成到您的服務(wù)當(dāng)中。

集成運(yùn)行

說明

集成運(yùn)行

說明

運(yùn)行示例

基于使用阿里云主賬號且從控制臺獲取測試Token來體驗(yàn)產(chǎn)品。

主要通過控制臺、curl命令行、postman、以及Java SDK等方式快速體驗(yàn)智能語音交互能力。

SDK和API概覽

RESTful API、移動端、服務(wù)端、微信小程序以及WebSocket等多種接入方式。

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
什么是并發(fā)?
智能語音交互產(chǎn)品中的并發(fā),是指系統(tǒng)同時(shí)處理的請求數(shù)。 以實(shí)時(shí)語音轉(zhuǎn)寫為例,每當(dāng)發(fā)起一個(gè)請求后(比如調(diào)用start接口),即為建立一個(gè)WebSocket鏈接, 在請求結(jié)束之前(比如調(diào)用stop或close接口),該請求一直占用一個(gè)并發(fā)。如果您的并發(fā)額度是200,即同時(shí)只能建立200個(gè)類似的實(shí)時(shí)轉(zhuǎn)寫請求,如果超出額度會返回錯誤碼40000005。
?
什么是QPS?
QPS是指每秒能夠處理的請求數(shù)。 以錄音文件識別(含閑時(shí)版)為例,QPS限制是指您每秒最多調(diào)用的請求數(shù), 如果超過QPS限制,可能會報(bào)出Throttling.User : Request was denied due to user flow control.類似的錯誤。 建議您適當(dāng)調(diào)整提交任務(wù)、查詢?nèi)蝿?wù)接口的調(diào)用頻率。
?
剛剛購買了資源包,為什么控制臺上顯示不出來?
如果當(dāng)日購買資源包,在次日(T+1) 才會在控制臺上顯示余量。
<
關(guān)于我們
>
豐富的企業(yè)應(yīng)用,滿足企業(yè)經(jīng)營和數(shù)字化所需 安全合規(guī) 亞太合規(guī)資質(zhì)最全的云服務(wù)商之一,從基礎(chǔ)設(shè)施安全、內(nèi)核平臺安全、系統(tǒng)服務(wù)安全、云安全產(chǎn)品四個(gè)層面,保障千行百業(yè)客戶的業(yè)務(wù)安全在線。擁有權(quán)威認(rèn)可的原生安全能力,根據(jù)2021年Gartner報(bào)告,安全能力全球第一。 技術(shù)領(lǐng)先 飛天是阿里云自主研發(fā)、國內(nèi)唯一自研的云計(jì)算操作系統(tǒng),編排調(diào)度百萬級服務(wù)器,單集群調(diào)度規(guī)模超十萬臺,具備EB級數(shù)據(jù)存儲能力,并通過CIPU率先實(shí)現(xiàn)虛擬化“0”損耗,提供業(yè)界領(lǐng)先的計(jì)算性能,既滿足客戶嚴(yán)苛的業(yè)務(wù)要求,又提供高性價(jià)比服務(wù)。
聯(lián)系信息
服務(wù)時(shí)間: 7*24
電話號碼: 86 571 8502 2600

<
最可能同場景使用的其他API
>