語(yǔ)音轉(zhuǎn)文本-IBM Watson

語(yǔ)音轉(zhuǎn)文本-IBM Watson

專用API
服務(wù)商 服務(wù)商: IBM
【更新時(shí)間: 2024.06.18】 IBM Watson 語(yǔ)音轉(zhuǎn)文本,它主要采用了由人工智能所驅(qū)動(dòng)的先進(jìn)語(yǔ)音識(shí)別與轉(zhuǎn)錄技術(shù)。能夠高效且精準(zhǔn)地將各種語(yǔ)音內(nèi)容轉(zhuǎn)換為清晰準(zhǔn)確的文本形式,以便于后續(xù)的處理、分析和使用,極大地提升了語(yǔ)音轉(zhuǎn)換的效率和質(zhì)量。
免費(fèi) (精簡(jiǎn)版免費(fèi)) 去服務(wù)商官網(wǎng)采購(gòu)>
瀏覽次數(shù)
136
采購(gòu)人數(shù)
13
試用次數(shù)
1
! SLA: N/A
! 響應(yīng): N/A
! 適用于個(gè)人&企業(yè)
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是IBM Watson的語(yǔ)音轉(zhuǎn)文本?

IBM Watson語(yǔ)音轉(zhuǎn)文字技術(shù)能夠?yàn)槎喾N應(yīng)用場(chǎng)景提供快速且準(zhǔn)確的語(yǔ)音轉(zhuǎn)錄,支持多種語(yǔ)言,包括但不限于客戶自助服務(wù)、客服助手和語(yǔ)音分析。利用我們開箱即用的先進(jìn)機(jī)器學(xué)習(xí)模型快速上手,或者根據(jù)您的具體需求進(jìn)行定制。

 

什么是IBM Watson的語(yǔ)音轉(zhuǎn)文本接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過(guò)公網(wǎng)HTTP協(xié)議調(diào)用IBM Watson的語(yǔ)音轉(zhuǎn)文本,從而實(shí)現(xiàn)程序的自動(dòng)化交互,提高服務(wù)效率。

IBM Watson的語(yǔ)音轉(zhuǎn)文本有哪些核心功能?

1、自動(dòng)語(yǔ)音識(shí)別:使用由 IBM Watson 提供支持的神經(jīng)技術(shù)實(shí)現(xiàn)語(yǔ)音識(shí)別,從而實(shí)現(xiàn)語(yǔ)音應(yīng)用。

2、模型訓(xùn)練選項(xiàng):通過(guò)語(yǔ)言和聲學(xué)訓(xùn)練選項(xiàng)提高用例的語(yǔ)音識(shí)別準(zhǔn)確性。

3、針對(duì)客戶服務(wù)進(jìn)行了優(yōu)化:使用針對(duì)客戶服務(wù)域優(yōu)化的語(yǔ)音模型激活語(yǔ)音應(yīng)用程序。

4、預(yù)訓(xùn)練的語(yǔ)音模型:使用針對(duì)客戶服務(wù)域優(yōu)化的語(yǔ)音模型激活語(yǔ)音應(yīng)用程序。

5、微調(diào)功能:提高提取短語(yǔ)、單詞、字母、數(shù)字或列表的語(yǔ)音識(shí)別準(zhǔn)確性。

6、低延遲轉(zhuǎn)錄:使用我們針對(duì)實(shí)時(shí)語(yǔ)音應(yīng)用程序中的低延遲而優(yōu)化的模型。

7、轉(zhuǎn)錄前的音頻診斷:在轉(zhuǎn)錄開始之前分析并糾正微弱的音頻信號(hào)。

8、最終結(jié)果前的中期轉(zhuǎn)錄:通過(guò)在生成語(yǔ)音轉(zhuǎn)錄時(shí)和整個(gè)定稿過(guò)程中使用語(yǔ)音轉(zhuǎn)錄來(lái)縮短應(yīng)用程序響應(yīng)時(shí)間。

9、智能格式:通過(guò)將日期、時(shí)間、數(shù)字、貨幣價(jià)值、電子郵件和網(wǎng)站地址轉(zhuǎn)換為常規(guī)形式,在最終成績(jī)單中轉(zhuǎn)錄它們。

10、演講者日記:識(shí)別誰(shuí)在多參與者語(yǔ)音交換中說(shuō)了什么。目前針對(duì)雙向呼叫中心對(duì)話進(jìn)行了優(yōu)化,但最多可以檢測(cè) 6 個(gè)不同的揚(yáng)聲器。

11、單詞識(shí)別和過(guò)濾:使用我們的關(guān)鍵字發(fā)現(xiàn)和褻瀆過(guò)濾功能過(guò)濾特定字詞或不當(dāng)內(nèi)容。(僅限美國(guó)英語(yǔ))

IBM Watson的語(yǔ)音轉(zhuǎn)文本的核心優(yōu)勢(shì)是什么?

 

更準(zhǔn)確的 AI

我們一流的 AI 嵌入在 Watson Speech to Text 中,能夠真正了解您的客戶

 

可針對(duì)您的業(yè)務(wù)進(jìn)行定制

根據(jù)您獨(dú)特的域語(yǔ)言和特定的音頻特征訓(xùn)練 Watson Speech to Text

 

保護(hù)您的數(shù)據(jù)

享受 IBM 世界一流的數(shù)據(jù)治理實(shí)踐的安全性

 

 

真正在任何地方運(yùn)行

專為支持全球語(yǔ)言而構(gòu)建,可部署在任何云上,包括公有云、私有云、混合云、多云或本地云

 

在哪些場(chǎng)景會(huì)用到IBM Watson的語(yǔ)音轉(zhuǎn)文本?

客戶自助服務(wù)

在電話上使用 Watson 支持的虛擬助手回答常見(jiàn)的呼叫中心查詢。

呼叫分析

通過(guò)挖掘?qū)υ捜罩緛?lái)快速準(zhǔn)確地識(shí)別新出現(xiàn)的呼叫模式、客戶投訴、情緒、不合規(guī)行為等,從而提高呼叫中心性能。

代理協(xié)助

使用 AI 驅(qū)動(dòng)的文檔和 Intranet 搜索,在通話期間提供實(shí)時(shí)幫助,提高座席的工作效率和成功率。當(dāng)座席與客戶交談時(shí),Watson 會(huì)監(jiān)聽(tīng)對(duì)話,轉(zhuǎn)錄音頻,在文檔中搜索相關(guān)內(nèi)容,并在幾秒鐘內(nèi)將答案反饋給座席。

<
產(chǎn)品價(jià)格
>

 

精簡(jiǎn)版

 

免費(fèi) 每月 500 分鐘的自由語(yǔ)音識(shí)別和 38 個(gè)預(yù)訓(xùn)練的語(yǔ)音模型。

 

升級(jí)版

 

低至每分鐘0.01美元 調(diào)整語(yǔ)音模型以提高識(shí)別和轉(zhuǎn)錄的準(zhǔn)確性。升級(jí)版本包括每月無(wú)限分鐘和 100 次并發(fā)轉(zhuǎn)錄。

 

尊享版

 

需咨詢定價(jià) 為大型安全敏感型公司提供更多容量和數(shù)據(jù)保護(hù)。高級(jí)版包括每月無(wú)限分鐘數(shù)和無(wú)限并發(fā)轉(zhuǎn)錄。

 

隨處部署版

 

需咨詢定價(jià) 借助 IBM Cloud Pak for Data 的靈活性,部署在防火墻后面或任何云上。隨處部署版版本包括每月無(wú)限分鐘數(shù)和無(wú)限并發(fā)聽(tīng)錄,以及噪聲檢測(cè)、語(yǔ)音自定義和數(shù)據(jù)隔離。

 

<
使用指南
>

Speech to Text 服務(wù)具有以下已知限制。 這些問(wèn)題適用于跨所有平臺(tái)的發(fā)行版的服務(wù)功能。

1、先前生成模型的臨時(shí)結(jié)果

2、發(fā)言人標(biāo)簽支持的功能始終為true

3、定制模型的 progress 字段不連續(xù)

<
產(chǎn)品問(wèn)答
>
?
如何訪問(wèn)服務(wù)憑證?
如何訪問(wèn)服務(wù)憑證取決于您是將 Speech to Text 與 IBM Cloud? 還是 IBM Cloud Pak? for Data配合使用
?
服務(wù)支持哪些語(yǔ)言?
Speech to Text 服務(wù)同時(shí)支持前代和下一代語(yǔ)言和模型。 大多數(shù)語(yǔ)言都支持寬帶/多媒體和窄帶/電話模型,它們的最小采樣率分別為 16 千赫茲和 8 千赫茲
?
輸入音頻格式是什么?
該服務(wù)支持多種音頻格式 (MIME 類型)。 不同格式支持不同的采樣率和其他特征。 通過(guò)使用支持壓縮的格式,可以最大限度提高可在一個(gè)請(qǐng)求中發(fā)送的音頻數(shù)據(jù)量。
?
可以向服務(wù)提交多少音頻數(shù)據(jù)?
可通過(guò)單個(gè)語(yǔ)音識(shí)別請(qǐng)求提交的音頻量取決于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音頻數(shù)據(jù)。 異步 HTTP 接口接受最多 1 GB 音頻數(shù)據(jù)。
?
我能否轉(zhuǎn)錄視頻文件中的語(yǔ)音?
您無(wú)法轉(zhuǎn)錄同時(shí)包含音頻和視頻的多媒體文件中的語(yǔ)音。 要從視頻文件轉(zhuǎn)錄語(yǔ)音,必須將音頻數(shù)據(jù)與視頻數(shù)據(jù)分開。
?
可以向定制語(yǔ)言模型添加多少詞?
最多可以從所有源向定制語(yǔ)言模型添加 9 萬(wàn)個(gè)未登錄 (OOV) 詞。 最多可以從所有源向定制語(yǔ)言模型添加共 1000 萬(wàn)個(gè)詞。 但是,許多因素會(huì)影響有效定制語(yǔ)言模型所需的數(shù)據(jù)量。 雖然無(wú)法提供需要為任何定制模型或應(yīng)用添加的確切詞數(shù),但即使向定制模型添加幾個(gè)詞,也可能會(huì)改進(jìn)語(yǔ)音識(shí)別。
?
定制模型升級(jí)是如何運(yùn)作的?
發(fā)布上一代基本模型的新版本以提高語(yǔ)音識(shí)別的質(zhì)量時(shí),必須升級(jí)基于該模型的任何定制語(yǔ)言和定制聲學(xué)模型以利用更新。 升級(jí)定制模型時(shí),不需要單獨(dú)升級(jí)其資源。 服務(wù)會(huì)自動(dòng)升級(jí)資源。 定制模型升級(jí)僅適用于先前生成的模型。
?
Speech to Text 服務(wù)可以將數(shù)字轉(zhuǎn)錄為數(shù)字而不是字符串嗎?
對(duì)于美國(guó)英語(yǔ)、日語(yǔ)和西班牙語(yǔ)音頻,可以使用智能格式設(shè)置將特定字符串(例如,數(shù)字和號(hào)碼)轉(zhuǎn)換為更常規(guī)的表示法。 智能格式設(shè)置是 Beta 功能。
<
關(guān)于我們
>
IBM
企業(yè)
IBM 是全球領(lǐng)先的科技公司之一,提供多種企業(yè)級(jí)技術(shù)解決方案,包括云計(jì)算、人工智能、數(shù)據(jù)分析、硬件、軟件和咨詢服務(wù)。IBM 提供廣泛的產(chǎn)品和服務(wù),旨在幫助企業(yè)和組織實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,提升運(yùn)營(yíng)效率,促進(jìn)創(chuàng)新。
聯(lián)系信息
服務(wù)時(shí)間: 7*24
電話號(hào)碼: 1-800-426-4968

IBM 歷史上的標(biāo)志性時(shí)刻

1928年:穿孔卡片與美國(guó)人口普查

IBM的穿孔卡片成為了接下來(lái)50年里的行業(yè)標(biāo)準(zhǔn),幾乎承載了世界上所有的已知信息,使得大規(guī)模項(xiàng)目如美國(guó)人口普查得以實(shí)現(xiàn)。

1952年:數(shù)字存儲(chǔ)的誕生

IBM通過(guò)磁帶數(shù)據(jù)向世界介紹了數(shù)字存儲(chǔ),標(biāo)志著從穿孔卡片計(jì)算器向電子計(jì)算機(jī)的轉(zhuǎn)變。

1956年:人工智能的先聲

亞瑟·L·塞繆爾編寫程序,使IBM 704計(jì)算機(jī)能夠下跳棋并從經(jīng)驗(yàn)中學(xué)習(xí)。這被認(rèn)為是人工智能的首次演示。

1969年:人類首次登月

在一項(xiàng)史詩(shī)般的工程壯舉中,IBM為阿波羅任務(wù)構(gòu)建了計(jì)算機(jī)和軟件,成功幫助尼爾·阿姆斯特朗和巴茲·奧爾德林登上月球,并引導(dǎo)他們安全返回地球。

1997年:人工智能戰(zhàn)勝國(guó)際象棋世界冠軍

IBM的“深藍(lán)”超級(jí)計(jì)算機(jī)擊敗了當(dāng)時(shí)的世界國(guó)際象棋冠軍。具備思考能力的計(jì)算機(jī)向前邁出了一大步,朝著我們今天所熟知和使用的那種人工智能邁進(jìn)。

2021 年:全球首款 2 納米芯片

在指甲蓋大小的芯片上擁有 500 億個(gè)晶體管(迄今為止密度最大的芯片),這項(xiàng)創(chuàng)新具有實(shí)現(xiàn)更環(huán)保的數(shù)據(jù)中心和更安全的自動(dòng)駕駛汽車的潛力。

<
最可能同場(chǎng)景使用的其他API
>
API接口列表
<
產(chǎn)品價(jià)格
>

 

精簡(jiǎn)版

 

免費(fèi) 每月 500 分鐘的自由語(yǔ)音識(shí)別和 38 個(gè)預(yù)訓(xùn)練的語(yǔ)音模型。

 

升級(jí)版

 

低至每分鐘0.01美元 調(diào)整語(yǔ)音模型以提高識(shí)別和轉(zhuǎn)錄的準(zhǔn)確性。升級(jí)版本包括每月無(wú)限分鐘和 100 次并發(fā)轉(zhuǎn)錄。

 

尊享版

 

需咨詢定價(jià) 為大型安全敏感型公司提供更多容量和數(shù)據(jù)保護(hù)。高級(jí)版包括每月無(wú)限分鐘數(shù)和無(wú)限并發(fā)轉(zhuǎn)錄。

 

隨處部署版

 

需咨詢定價(jià) 借助 IBM Cloud Pak for Data 的靈活性,部署在防火墻后面或任何云上。隨處部署版版本包括每月無(wú)限分鐘數(shù)和無(wú)限并發(fā)聽(tīng)錄,以及噪聲檢測(cè)、語(yǔ)音自定義和數(shù)據(jù)隔離。

 

<
使用指南
>

Speech to Text 服務(wù)具有以下已知限制。 這些問(wèn)題適用于跨所有平臺(tái)的發(fā)行版的服務(wù)功能。

1、先前生成模型的臨時(shí)結(jié)果

2、發(fā)言人標(biāo)簽支持的功能始終為true

3、定制模型的 progress 字段不連續(xù)

<
依賴服務(wù)
>
<
產(chǎn)品問(wèn)答
>
?
如何訪問(wèn)服務(wù)憑證?
如何訪問(wèn)服務(wù)憑證取決于您是將 Speech to Text 與 IBM Cloud? 還是 IBM Cloud Pak? for Data配合使用
?
服務(wù)支持哪些語(yǔ)言?
Speech to Text 服務(wù)同時(shí)支持前代和下一代語(yǔ)言和模型。 大多數(shù)語(yǔ)言都支持寬帶/多媒體和窄帶/電話模型,它們的最小采樣率分別為 16 千赫茲和 8 千赫茲
?
輸入音頻格式是什么?
該服務(wù)支持多種音頻格式 (MIME 類型)。 不同格式支持不同的采樣率和其他特征。 通過(guò)使用支持壓縮的格式,可以最大限度提高可在一個(gè)請(qǐng)求中發(fā)送的音頻數(shù)據(jù)量。
?
可以向服務(wù)提交多少音頻數(shù)據(jù)?
可通過(guò)單個(gè)語(yǔ)音識(shí)別請(qǐng)求提交的音頻量取決于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音頻數(shù)據(jù)。 異步 HTTP 接口接受最多 1 GB 音頻數(shù)據(jù)。
?
我能否轉(zhuǎn)錄視頻文件中的語(yǔ)音?
您無(wú)法轉(zhuǎn)錄同時(shí)包含音頻和視頻的多媒體文件中的語(yǔ)音。 要從視頻文件轉(zhuǎn)錄語(yǔ)音,必須將音頻數(shù)據(jù)與視頻數(shù)據(jù)分開。
?
可以向定制語(yǔ)言模型添加多少詞?
最多可以從所有源向定制語(yǔ)言模型添加 9 萬(wàn)個(gè)未登錄 (OOV) 詞。 最多可以從所有源向定制語(yǔ)言模型添加共 1000 萬(wàn)個(gè)詞。 但是,許多因素會(huì)影響有效定制語(yǔ)言模型所需的數(shù)據(jù)量。 雖然無(wú)法提供需要為任何定制模型或應(yīng)用添加的確切詞數(shù),但即使向定制模型添加幾個(gè)詞,也可能會(huì)改進(jìn)語(yǔ)音識(shí)別。
?
定制模型升級(jí)是如何運(yùn)作的?
發(fā)布上一代基本模型的新版本以提高語(yǔ)音識(shí)別的質(zhì)量時(shí),必須升級(jí)基于該模型的任何定制語(yǔ)言和定制聲學(xué)模型以利用更新。 升級(jí)定制模型時(shí),不需要單獨(dú)升級(jí)其資源。 服務(wù)會(huì)自動(dòng)升級(jí)資源。 定制模型升級(jí)僅適用于先前生成的模型。
?
Speech to Text 服務(wù)可以將數(shù)字轉(zhuǎn)錄為數(shù)字而不是字符串嗎?
對(duì)于美國(guó)英語(yǔ)、日語(yǔ)和西班牙語(yǔ)音頻,可以使用智能格式設(shè)置將特定字符串(例如,數(shù)字和號(hào)碼)轉(zhuǎn)換為更常規(guī)的表示法。 智能格式設(shè)置是 Beta 功能。
<
關(guān)于我們
>
IBM
企業(yè)
IBM 是全球領(lǐng)先的科技公司之一,提供多種企業(yè)級(jí)技術(shù)解決方案,包括云計(jì)算、人工智能、數(shù)據(jù)分析、硬件、軟件和咨詢服務(wù)。IBM 提供廣泛的產(chǎn)品和服務(wù),旨在幫助企業(yè)和組織實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,提升運(yùn)營(yíng)效率,促進(jìn)創(chuàng)新。
聯(lián)系信息
服務(wù)時(shí)間: 7*24
電話號(hào)碼: 1-800-426-4968

IBM 歷史上的標(biāo)志性時(shí)刻

1928年:穿孔卡片與美國(guó)人口普查

IBM的穿孔卡片成為了接下來(lái)50年里的行業(yè)標(biāo)準(zhǔn),幾乎承載了世界上所有的已知信息,使得大規(guī)模項(xiàng)目如美國(guó)人口普查得以實(shí)現(xiàn)。

1952年:數(shù)字存儲(chǔ)的誕生

IBM通過(guò)磁帶數(shù)據(jù)向世界介紹了數(shù)字存儲(chǔ),標(biāo)志著從穿孔卡片計(jì)算器向電子計(jì)算機(jī)的轉(zhuǎn)變。

1956年:人工智能的先聲

亞瑟·L·塞繆爾編寫程序,使IBM 704計(jì)算機(jī)能夠下跳棋并從經(jīng)驗(yàn)中學(xué)習(xí)。這被認(rèn)為是人工智能的首次演示。

1969年:人類首次登月

在一項(xiàng)史詩(shī)般的工程壯舉中,IBM為阿波羅任務(wù)構(gòu)建了計(jì)算機(jī)和軟件,成功幫助尼爾·阿姆斯特朗和巴茲·奧爾德林登上月球,并引導(dǎo)他們安全返回地球。

1997年:人工智能戰(zhàn)勝國(guó)際象棋世界冠軍

IBM的“深藍(lán)”超級(jí)計(jì)算機(jī)擊敗了當(dāng)時(shí)的世界國(guó)際象棋冠軍。具備思考能力的計(jì)算機(jī)向前邁出了一大步,朝著我們今天所熟知和使用的那種人工智能邁進(jìn)。

2021 年:全球首款 2 納米芯片

在指甲蓋大小的芯片上擁有 500 億個(gè)晶體管(迄今為止密度最大的芯片),這項(xiàng)創(chuàng)新具有實(shí)現(xiàn)更環(huán)保的數(shù)據(jù)中心和更安全的自動(dòng)駕駛汽車的潛力。

<
合作案例
>
<
最可能同場(chǎng)景使用的其他API
>