語音轉文本-IBM Watson

語音轉文本-IBM Watson

專用API
服務商 服務商: IBM
【更新時間: 2024.06.18】 IBM Watson 語音轉文本,它主要采用了由人工智能所驅動的先進語音識別與轉錄技術。能夠高效且精準地將各種語音內容轉換為清晰準確的文本形式,以便于后續(xù)的處理、分析和使用,極大地提升了語音轉換的效率和質量。
免費 (精簡版免費) 去服務商官網采購>
瀏覽次數
136
采購人數
13
試用次數
1
! SLA: N/A
! 響應: N/A
! 適用于個人&企業(yè)
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是IBM Watson的語音轉文本?

IBM Watson語音轉文字技術能夠為多種應用場景提供快速且準確的語音轉錄,支持多種語言,包括但不限于客戶自助服務、客服助手和語音分析。利用我們開箱即用的先進機器學習模型快速上手,或者根據您的具體需求進行定制。

 

什么是IBM Watson的語音轉文本接口?

由服務使用方的應用程序發(fā)起,以Restful風格為主、通過公網HTTP協(xié)議調用IBM Watson的語音轉文本,從而實現程序的自動化交互,提高服務效率。

IBM Watson的語音轉文本有哪些核心功能?

1、自動語音識別:使用由 IBM Watson 提供支持的神經技術實現語音識別,從而實現語音應用。

2、模型訓練選項:通過語言和聲學訓練選項提高用例的語音識別準確性。

3、針對客戶服務進行了優(yōu)化:使用針對客戶服務域優(yōu)化的語音模型激活語音應用程序。

4、預訓練的語音模型:使用針對客戶服務域優(yōu)化的語音模型激活語音應用程序。

5、微調功能:提高提取短語、單詞、字母、數字或列表的語音識別準確性。

6、低延遲轉錄:使用我們針對實時語音應用程序中的低延遲而優(yōu)化的模型。

7、轉錄前的音頻診斷:在轉錄開始之前分析并糾正微弱的音頻信號。

8、最終結果前的中期轉錄:通過在生成語音轉錄時和整個定稿過程中使用語音轉錄來縮短應用程序響應時間。

9、智能格式:通過將日期、時間、數字、貨幣價值、電子郵件和網站地址轉換為常規(guī)形式,在最終成績單中轉錄它們。

10、演講者日記:識別誰在多參與者語音交換中說了什么。目前針對雙向呼叫中心對話進行了優(yōu)化,但最多可以檢測 6 個不同的揚聲器。

11、單詞識別和過濾:使用我們的關鍵字發(fā)現和褻瀆過濾功能過濾特定字詞或不當內容。(僅限美國英語)

IBM Watson的語音轉文本的核心優(yōu)勢是什么?

 

更準確的 AI

我們一流的 AI 嵌入在 Watson Speech to Text 中,能夠真正了解您的客戶

 

可針對您的業(yè)務進行定制

根據您獨特的域語言和特定的音頻特征訓練 Watson Speech to Text

 

保護您的數據

享受 IBM 世界一流的數據治理實踐的安全性

 

 

真正在任何地方運行

專為支持全球語言而構建,可部署在任何云上,包括公有云、私有云、混合云、多云或本地云

 

在哪些場景會用到IBM Watson的語音轉文本?

客戶自助服務

在電話上使用 Watson 支持的虛擬助手回答常見的呼叫中心查詢。

呼叫分析

通過挖掘對話日志來快速準確地識別新出現的呼叫模式、客戶投訴、情緒、不合規(guī)行為等,從而提高呼叫中心性能。

代理協(xié)助

使用 AI 驅動的文檔和 Intranet 搜索,在通話期間提供實時幫助,提高座席的工作效率和成功率。當座席與客戶交談時,Watson 會監(jiān)聽對話,轉錄音頻,在文檔中搜索相關內容,并在幾秒鐘內將答案反饋給座席。

<
產品價格
>

 

精簡版

 

免費 每月 500 分鐘的自由語音識別和 38 個預訓練的語音模型。

 

升級版

 

低至每分鐘0.01美元 調整語音模型以提高識別和轉錄的準確性。升級版本包括每月無限分鐘和 100 次并發(fā)轉錄。

 

尊享版

 

需咨詢定價 為大型安全敏感型公司提供更多容量和數據保護。高級版包括每月無限分鐘數和無限并發(fā)轉錄。

 

隨處部署版

 

需咨詢定價 借助 IBM Cloud Pak for Data 的靈活性,部署在防火墻后面或任何云上。隨處部署版版本包括每月無限分鐘數和無限并發(fā)聽錄,以及噪聲檢測、語音自定義和數據隔離。

 

<
使用指南
>

Speech to Text 服務具有以下已知限制。 這些問題適用于跨所有平臺的發(fā)行版的服務功能。

1、先前生成模型的臨時結果

2、發(fā)言人標簽支持的功能始終為true

3、定制模型的 progress 字段不連續(xù)

<
產品問答
>
?
如何訪問服務憑證?
如何訪問服務憑證取決于您是將 Speech to Text 與 IBM Cloud? 還是 IBM Cloud Pak? for Data配合使用
?
服務支持哪些語言?
Speech to Text 服務同時支持前代和下一代語言和模型。 大多數語言都支持寬帶/多媒體和窄帶/電話模型,它們的最小采樣率分別為 16 千赫茲和 8 千赫茲
?
輸入音頻格式是什么?
該服務支持多種音頻格式 (MIME 類型)。 不同格式支持不同的采樣率和其他特征。 通過使用支持壓縮的格式,可以最大限度提高可在一個請求中發(fā)送的音頻數據量。
?
可以向服務提交多少音頻數據?
可通過單個語音識別請求提交的音頻量取決于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音頻數據。 異步 HTTP 接口接受最多 1 GB 音頻數據。
?
我能否轉錄視頻文件中的語音?
您無法轉錄同時包含音頻和視頻的多媒體文件中的語音。 要從視頻文件轉錄語音,必須將音頻數據與視頻數據分開。
?
可以向定制語言模型添加多少詞?
最多可以從所有源向定制語言模型添加 9 萬個未登錄 (OOV) 詞。 最多可以從所有源向定制語言模型添加共 1000 萬個詞。 但是,許多因素會影響有效定制語言模型所需的數據量。 雖然無法提供需要為任何定制模型或應用添加的確切詞數,但即使向定制模型添加幾個詞,也可能會改進語音識別。
?
定制模型升級是如何運作的?
發(fā)布上一代基本模型的新版本以提高語音識別的質量時,必須升級基于該模型的任何定制語言和定制聲學模型以利用更新。 升級定制模型時,不需要單獨升級其資源。 服務會自動升級資源。 定制模型升級僅適用于先前生成的模型。
?
Speech to Text 服務可以將數字轉錄為數字而不是字符串嗎?
對于美國英語、日語和西班牙語音頻,可以使用智能格式設置將特定字符串(例如,數字和號碼)轉換為更常規(guī)的表示法。 智能格式設置是 Beta 功能。
<
關于我們
>
IBM
企業(yè)
IBM 是全球領先的科技公司之一,提供多種企業(yè)級技術解決方案,包括云計算、人工智能、數據分析、硬件、軟件和咨詢服務。IBM 提供廣泛的產品和服務,旨在幫助企業(yè)和組織實現數字化轉型,提升運營效率,促進創(chuàng)新。
聯系信息
服務時間: 7*24
電話號碼: 1-800-426-4968

IBM 歷史上的標志性時刻

1928年:穿孔卡片與美國人口普查

IBM的穿孔卡片成為了接下來50年里的行業(yè)標準,幾乎承載了世界上所有的已知信息,使得大規(guī)模項目如美國人口普查得以實現。

1952年:數字存儲的誕生

IBM通過磁帶數據向世界介紹了數字存儲,標志著從穿孔卡片計算器向電子計算機的轉變。

1956年:人工智能的先聲

亞瑟·L·塞繆爾編寫程序,使IBM 704計算機能夠下跳棋并從經驗中學習。這被認為是人工智能的首次演示。

1969年:人類首次登月

在一項史詩般的工程壯舉中,IBM為阿波羅任務構建了計算機和軟件,成功幫助尼爾·阿姆斯特朗和巴茲·奧爾德林登上月球,并引導他們安全返回地球。

1997年:人工智能戰(zhàn)勝國際象棋世界冠軍

IBM的“深藍”超級計算機擊敗了當時的世界國際象棋冠軍。具備思考能力的計算機向前邁出了一大步,朝著我們今天所熟知和使用的那種人工智能邁進。

2021 年:全球首款 2 納米芯片

在指甲蓋大小的芯片上擁有 500 億個晶體管(迄今為止密度最大的芯片),這項創(chuàng)新具有實現更環(huán)保的數據中心和更安全的自動駕駛汽車的潛力。

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

 

精簡版

 

免費 每月 500 分鐘的自由語音識別和 38 個預訓練的語音模型。

 

升級版

 

低至每分鐘0.01美元 調整語音模型以提高識別和轉錄的準確性。升級版本包括每月無限分鐘和 100 次并發(fā)轉錄。

 

尊享版

 

需咨詢定價 為大型安全敏感型公司提供更多容量和數據保護。高級版包括每月無限分鐘數和無限并發(fā)轉錄。

 

隨處部署版

 

需咨詢定價 借助 IBM Cloud Pak for Data 的靈活性,部署在防火墻后面或任何云上。隨處部署版版本包括每月無限分鐘數和無限并發(fā)聽錄,以及噪聲檢測、語音自定義和數據隔離。

 

<
使用指南
>

Speech to Text 服務具有以下已知限制。 這些問題適用于跨所有平臺的發(fā)行版的服務功能。

1、先前生成模型的臨時結果

2、發(fā)言人標簽支持的功能始終為true

3、定制模型的 progress 字段不連續(xù)

<
依賴服務
>
<
產品問答
>
?
如何訪問服務憑證?
如何訪問服務憑證取決于您是將 Speech to Text 與 IBM Cloud? 還是 IBM Cloud Pak? for Data配合使用
?
服務支持哪些語言?
Speech to Text 服務同時支持前代和下一代語言和模型。 大多數語言都支持寬帶/多媒體和窄帶/電話模型,它們的最小采樣率分別為 16 千赫茲和 8 千赫茲
?
輸入音頻格式是什么?
該服務支持多種音頻格式 (MIME 類型)。 不同格式支持不同的采樣率和其他特征。 通過使用支持壓縮的格式,可以最大限度提高可在一個請求中發(fā)送的音頻數據量。
?
可以向服務提交多少音頻數據?
可通過單個語音識別請求提交的音頻量取決于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音頻數據。 異步 HTTP 接口接受最多 1 GB 音頻數據。
?
我能否轉錄視頻文件中的語音?
您無法轉錄同時包含音頻和視頻的多媒體文件中的語音。 要從視頻文件轉錄語音,必須將音頻數據與視頻數據分開。
?
可以向定制語言模型添加多少詞?
最多可以從所有源向定制語言模型添加 9 萬個未登錄 (OOV) 詞。 最多可以從所有源向定制語言模型添加共 1000 萬個詞。 但是,許多因素會影響有效定制語言模型所需的數據量。 雖然無法提供需要為任何定制模型或應用添加的確切詞數,但即使向定制模型添加幾個詞,也可能會改進語音識別。
?
定制模型升級是如何運作的?
發(fā)布上一代基本模型的新版本以提高語音識別的質量時,必須升級基于該模型的任何定制語言和定制聲學模型以利用更新。 升級定制模型時,不需要單獨升級其資源。 服務會自動升級資源。 定制模型升級僅適用于先前生成的模型。
?
Speech to Text 服務可以將數字轉錄為數字而不是字符串嗎?
對于美國英語、日語和西班牙語音頻,可以使用智能格式設置將特定字符串(例如,數字和號碼)轉換為更常規(guī)的表示法。 智能格式設置是 Beta 功能。
<
關于我們
>
IBM
企業(yè)
IBM 是全球領先的科技公司之一,提供多種企業(yè)級技術解決方案,包括云計算、人工智能、數據分析、硬件、軟件和咨詢服務。IBM 提供廣泛的產品和服務,旨在幫助企業(yè)和組織實現數字化轉型,提升運營效率,促進創(chuàng)新。
聯系信息
服務時間: 7*24
電話號碼: 1-800-426-4968

IBM 歷史上的標志性時刻

1928年:穿孔卡片與美國人口普查

IBM的穿孔卡片成為了接下來50年里的行業(yè)標準,幾乎承載了世界上所有的已知信息,使得大規(guī)模項目如美國人口普查得以實現。

1952年:數字存儲的誕生

IBM通過磁帶數據向世界介紹了數字存儲,標志著從穿孔卡片計算器向電子計算機的轉變。

1956年:人工智能的先聲

亞瑟·L·塞繆爾編寫程序,使IBM 704計算機能夠下跳棋并從經驗中學習。這被認為是人工智能的首次演示。

1969年:人類首次登月

在一項史詩般的工程壯舉中,IBM為阿波羅任務構建了計算機和軟件,成功幫助尼爾·阿姆斯特朗和巴茲·奧爾德林登上月球,并引導他們安全返回地球。

1997年:人工智能戰(zhàn)勝國際象棋世界冠軍

IBM的“深藍”超級計算機擊敗了當時的世界國際象棋冠軍。具備思考能力的計算機向前邁出了一大步,朝著我們今天所熟知和使用的那種人工智能邁進。

2021 年:全球首款 2 納米芯片

在指甲蓋大小的芯片上擁有 500 億個晶體管(迄今為止密度最大的芯片),這項創(chuàng)新具有實現更環(huán)保的數據中心和更安全的自動駕駛汽車的潛力。

<
合作案例
>
<
最可能同場景使用的其他API
>