文本轉(zhuǎn)語音-Microsoft

文本轉(zhuǎn)語音-Microsoft

專用API
服務(wù)商 服務(wù)商: Microsoft
【更新時間: 2024.07.18】 構(gòu)建自然說話的應(yīng)用程序和服務(wù)。文本到語音通過定制的、逼真的語音生成器使您的品牌脫穎而出,文字轉(zhuǎn)語音并使用不同的說話風(fēng)格和情緒語氣來適應(yīng)您的使用場景。文字到語音支持多種語言。
瀏覽次數(shù)
24
采購人數(shù)
1
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個人&企業(yè)
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是Microsoft的文本轉(zhuǎn)語音?

微軟Azure的文本轉(zhuǎn)語音服務(wù)提供了一種逼真、可定制的語音生成解決方案,支持細(xì)粒度控制和靈活部署。用戶可以根據(jù)自己的需求定制語音輸出。此外,Azure還提供了豐富的資源和工具來幫助用戶快速開始使用和構(gòu)建語音服務(wù)。

什么是Microsoft的文本轉(zhuǎn)語音接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用Microsoft的文本轉(zhuǎn)語音,從而實(shí)現(xiàn)程序的自動化交互,提高服務(wù)效率。

Microsoft的文本轉(zhuǎn)語音有哪些核心功能?

逼真的合成語音

實(shí)現(xiàn)流暢、自然的文本轉(zhuǎn)語音,與人聲的語調(diào)和情感相匹配。

可定制的文本說話者聲音

創(chuàng)建一個獨(dú)特的人工智能語音生成器來反映您的品牌形象。

細(xì)粒度的文本對話音頻控制

通過輕松調(diào)整速率、音高、發(fā)音、停頓等,根據(jù)您的場景調(diào)整語音輸出。

靈活部署

在云端、本地或容器邊緣的任何地方運(yùn)行文本轉(zhuǎn)語音。

定制您的語音輸出

微調(diào)合成語音以適合您的場景。 使用語音合成標(biāo)記語言 (SSML) 或 音頻內(nèi)容創(chuàng)建工具定義詞典 并控制語音參數(shù),例如發(fā)音、音高、速率、停頓和語調(diào) 。

從云端到邊緣的任何地方部署文本轉(zhuǎn)語音

無論您的數(shù)據(jù)位于何處,都可以運(yùn)行文本轉(zhuǎn)語音。使用容器將逼真的語音合成構(gòu)建到針對強(qiáng)大的云功能和邊緣位置進(jìn)行優(yōu)化的應(yīng)用程序中 。

Microsoft的文本轉(zhuǎn)語音的核心優(yōu)勢是什么?

1. 為您的品牌打造定制聲音

  • 通過獨(dú)特的 定制聲音讓您的品牌脫穎而出。使用自定義神經(jīng)語音功能開發(fā)高度逼真的語音,以實(shí)現(xiàn)更自然的對話界面,從 30 分鐘的音頻開始。

2.通過云人工智能服務(wù)推動應(yīng)用創(chuàng)新

  • 了解您的組織可以開始使用人工智能以快速實(shí)現(xiàn)價值的五種關(guān)鍵方法。

3.全面的隱私和安全

  • AI 語音是 Azure AI 服務(wù)的一部分,已  通過 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO認(rèn)證。隨時查看和刪除您的自定義語音數(shù)據(jù)和合成語音模型。您的數(shù)據(jù)在存儲時會被加密。訓(xùn)練您的數(shù)據(jù)仍然屬于您。在數(shù)據(jù)處理或音頻語音生成過程中不會存儲您的文本數(shù)據(jù)。

4.內(nèi)置全面的安全性和合規(guī)性

  • Microsoft 每年在網(wǎng)絡(luò)安全研發(fā)方面的投資超過10 億美元。
  • 我們雇用了 3,500 多名致力于數(shù)據(jù)安全和隱私的安全專家。

在哪些場景會用到Microsoft的文本轉(zhuǎn)語音?

客戶服務(wù)

在呼叫中心或自動客服系統(tǒng)中,提供自然流暢的語音交互,提升客戶體驗(yàn)。

語言學(xué)習(xí)

提供語言學(xué)習(xí)應(yīng)用中的發(fā)音指導(dǎo)和聽力練習(xí)材料。

會議錄聽

可以幫助提升會議錄聽的效率和質(zhì)量,無論是在企業(yè)內(nèi)部會議、遠(yuǎn)程教育、在線研討會還是其他需要語音輸出的場合。

多設(shè)備對話

Azure 文字轉(zhuǎn)語音服務(wù)可以幫助開發(fā)者構(gòu)建跨設(shè)備、無縫且一致的對話體驗(yàn)。

語音助手

Azure 文字轉(zhuǎn)語音服務(wù)提供了強(qiáng)大的功能和靈活性,非常適合用于構(gòu)建和增強(qiáng)語音助手的語音交互能力

 

<
產(chǎn)品價格
>

免費(fèi)版

類別 特征 價格
語音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時免費(fèi)音頻3
風(fēng)俗 每月免費(fèi) 5 小時音頻3
端點(diǎn)托管:每月免費(fèi) 1 個模型1
對話轉(zhuǎn)錄多通道音頻預(yù)覽 每月 5 小時免費(fèi)音頻
文本轉(zhuǎn)語音
(按字符計(jì)費(fèi))
神經(jīng) 每月免費(fèi) 50 萬個字符
語音翻譯
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時免費(fèi)音頻
說話人識別
(按交易計(jì)費(fèi))
說話者驗(yàn)證2 每月 10,000 筆交易免費(fèi)
說話人識別2 每月 10,000 筆交易免費(fèi)
語音配置文件存儲 每月 10,000 筆交易免費(fèi)

即用即付:僅按使用量付費(fèi)

類別 價格
語音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 實(shí)時轉(zhuǎn)錄:每小時1 美元
快速轉(zhuǎn)錄預(yù)覽每小時不適用9
批量轉(zhuǎn)錄:每小時0.18 美元1
風(fēng)俗 實(shí)時轉(zhuǎn)錄:每小時1.20 美元
批量轉(zhuǎn)錄:每小時0.225 美元1
端點(diǎn)托管:每個模型每小時0.0538 美元
自定義語音訓(xùn)練5每計(jì)算小時 10 美元
增強(qiáng)的附加功能:
  • 連續(xù)語言識別
  • 分類
  • 發(fā)音評估(韻律、語法、詞匯、主題)
實(shí)時:每個功能每小時0.30 美元
批量(連續(xù)語言識別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無額外費(fèi)用)
對話轉(zhuǎn)錄多通道音頻預(yù)覽 每小時2.10 美元2
語音翻譯
(按秒計(jì)費(fèi))
實(shí)時語音翻譯 每音頻小時2.50 美元3
視頻翻譯預(yù)覽 批量:每輸出視頻分鐘不適用
內(nèi)容編輯:每輸出視頻分鐘不適用
個人語音:每輸出視頻分鐘 不適用
文字轉(zhuǎn)語音8 標(biāo)準(zhǔn)語音 神經(jīng)網(wǎng)絡(luò):每 100 萬個字符15 美元
神經(jīng)網(wǎng)絡(luò) HD 4每 100 萬個字符 不適用
自定義語音 專業(yè)聲音:
合成:每 100 萬個字符24 美元
語音模型訓(xùn)練:每個計(jì)算小時52 美元,每次訓(xùn)練最高4,992 美元
端點(diǎn)托管:每個模型每小時4.04 美元
個人聲音6
合成:每 100 萬個字符不適用
語音創(chuàng)建:免費(fèi)
語音配置文件存儲:每月每 1,000 個語音配置文件 不適用
增強(qiáng)的附加功能:頭像預(yù)覽 標(biāo)準(zhǔn):N/A每分鐘
風(fēng)俗:
實(shí)時綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點(diǎn)托管:每小時每個模型 N/A
說話人識別
(按交易計(jì)費(fèi))
說話者驗(yàn)證7 每 1,000 筆交易5 美元
說話者識別7 每 1,000 筆交易10 美元
語音配置文件存儲 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費(fèi)語音配置文件)

 

其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

 

設(shè)置環(huán)境

語音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關(guān)任何要求,請參閱安裝語音 SDK。

 

設(shè)置環(huán)境變量。

必須對應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問 Azure AI 服務(wù)資源。 對于生產(chǎn),請使用安全的方式存儲和訪問憑據(jù)。 例如,獲取語音資源的密鑰后,請將其寫入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。

 提示

請不要直接在代碼中包含密鑰,并且絕不公開發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請參閱 Azure AI 服務(wù)安全性

若要為語音資源密鑰設(shè)置環(huán)境變量,請打開控制臺窗口,并按照操作系統(tǒng)和開發(fā)環(huán)境的說明進(jìn)行操作。

  • 要設(shè)置 SPEECH_KEY 環(huán)境變量,請將“your-key”替換為你的資源的某一個密鑰。
  • 要設(shè)置 SPEECH_REGION 環(huán)境變量,請將 “your-region”替換為你的資源的某一個地區(qū)。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請?jiān)谶\(yùn)行示例之前重啟 Visual Studio。

 

合成到揚(yáng)聲器輸出

按照以下步驟創(chuàng)建控制臺應(yīng)用程序并安裝語音 SDK。

  1. 在需要新項(xiàng)目的文件夾中打開命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺應(yīng)用程序。

    dotnet new console

    該命令會在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。

  2. 使用 .NET CLI 在新項(xiàng)目中安裝語音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內(nèi)容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語音合成語言,請將 en-US-AvaMultilingualNeural 替換為另一種受支持的語音。

    所有神經(jīng)網(wǎng)絡(luò)聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務(wù)不會輸出合成的音頻。

  5. 運(yùn)行新的控制臺應(yīng)用程序,開始將語音合成到默認(rèn)揚(yáng)聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉(zhuǎn)語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細(xì)指南請查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
產(chǎn)品問答
>
?
計(jì)費(fèi)如何運(yùn)作?
對于語音轉(zhuǎn)文本和語音翻譯,使用量按一秒增量計(jì)費(fèi)。 對于文本轉(zhuǎn)語音:使用量按字符計(jì)費(fèi)。檢查定價說明中字符的定義。 對于自定義神經(jīng)語音托管:使用量按端點(diǎn)每秒計(jì)費(fèi)。查看定價說明中的詳細(xì)信息。 對于個人語音配置文件存儲:使用量按每天的語音配置文件計(jì)費(fèi)。查看定價說明中的詳細(xì)信息。 對于文本轉(zhuǎn)語音頭像,使用量按秒計(jì)費(fèi)。 對于語音轉(zhuǎn)文本和文本轉(zhuǎn)語音(包括 Avatar),自定義模型的端點(diǎn)托管按每個模型每秒計(jì)費(fèi)。
?
什么是“自定義語音模型”?
語音服務(wù)使用戶能夠根據(jù)自己的聲學(xué)和語言數(shù)據(jù)調(diào)整基線模型,從而生成可用于語音轉(zhuǎn)文本和語音翻譯的自定義語音模型。
?
什么是語言模型以及為什么要定制它? 。
語言模型是單詞序列上的概率分布。語言模型幫助系統(tǒng)根據(jù)單詞序列本身的可能性來決定聽起來相似的單詞序列。例如,“識別語音”和“破壞美麗的海灘”聽起來很相似,但第一個假設(shè)發(fā)生的可能性要大得多,因此語言模型會分配更高的分?jǐn)?shù)。如果您希望應(yīng)用程序的語音查詢包含特定詞匯項(xiàng),例如典型語音中很少出現(xiàn)的產(chǎn)品名稱或行話,那么您可能可以通過自定義語言模型來獲得改進(jìn)的性能。例如,如果您正在構(gòu)建一個通過語音搜索 MSDN 的應(yīng)用程序,“面向?qū)ο蟆?、“命名空間”或“點(diǎn)網(wǎng)”等術(shù)語可能會比典型的語音應(yīng)用程序更頻繁地出現(xiàn)。定制語言模型將使系統(tǒng)能夠?qū)W習(xí)這一點(diǎn)
?
什么是聲學(xué)模型以及為什么要定制它?
聲學(xué)模型是一種分類器,它將音頻的短片段標(biāo)記為每種語言的幾個音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個音素“sp iy ch”組成。這些分類按每秒 100 次的數(shù)量級進(jìn)行。定制聲學(xué)模型可以使系統(tǒng)學(xué)會在非典型環(huán)境中更好地識別語音。例如,如果您有一款專供倉庫或工廠工人使用的應(yīng)用程序,則定制的聲學(xué)模型可以在這些環(huán)境中存在噪音的情況下更準(zhǔn)確地識別語音。
?
什么是“自定義神經(jīng)語音”?
語音服務(wù)提供各種文本轉(zhuǎn)語音 (TTS) 語音字體,但自定義神經(jīng)語音允許您構(gòu)建適合您的需求和品牌的自定義語音。閱讀博客了解更多信息。
?
什么是語言識別?
語言識別允許您識別口語的切換并相應(yīng)地轉(zhuǎn)錄語音。這可以應(yīng)用于音頻語言未知或說話者可能說多種語言的場景。單語言識別無需額外付費(fèi)。連續(xù)語言識別是一項(xiàng)增強(qiáng)的附加功能。訪問文檔以了解更多信息。
?
什么是發(fā)音評估?
發(fā)音評估評估語音發(fā)音并向說話者提供有關(guān)口語音頻的準(zhǔn)確性和流暢性的反饋。通過發(fā)音評估,語言學(xué)習(xí)者可以練習(xí)、獲得即時反饋并提高發(fā)音,以便他們能夠自信地說話和表達(dá)。教育工作者可以利用該功能實(shí)時評估多個說話者的發(fā)音。訪問文檔以了解更多信息。
<
關(guān)于我們
>
Microsoft
企業(yè)
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計(jì)算機(jī)軟件、消費(fèi)電子產(chǎn)品以及相關(guān)服務(wù)聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創(chuàng)立,總部位于美國華盛頓州雷德蒙德。Microsoft開發(fā)和銷售多種電腦軟件、電子游戲機(jī)、個人電腦以及移動設(shè)備等產(chǎn)品。其中,Windows操作系統(tǒng)、Microsoft Office辦公軟件套件以及Bing搜索引擎等產(chǎn)品在全球范圍內(nèi)廣受用戶青睞。此外,Microsoft還通過Azure提供云計(jì)算服務(wù),支持企業(yè)數(shù)字化轉(zhuǎn)型和創(chuàng)新。
聯(lián)系信息
服務(wù)時間: 00:00:00至24:00:00
電話號碼: (425) 882-8080
電話號碼: (425) 706-7329

 

公司簡介

隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。

 

 

關(guān)于我們

認(rèn)識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。

 

 

我們的價值觀

了解我們?nèi)绾卫眉夹g(shù)來創(chuàng)建平臺和資源,造就長遠(yuǎn)的積極影響。

 

特色計(jì)劃和項(xiàng)目

透過數(shù)字了解可持續(xù)發(fā)展

到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過互動方式了解我們公司改善對環(huán)境的影響的其他方式。

透過數(shù)字深入了解 

公司的社會責(zé)任

我們相信技術(shù)是造福人類的強(qiáng)大力量,并且正在努力創(chuàng)造一個可持續(xù)未來,使每個人都可以享受到技術(shù)帶來的好處和機(jī)會。

了解我們的方法 

故事

在 Microsoft,我們受到來自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。

了解 Microsoft AI 
<
最可能同場景使用的其他API
>
API接口列表
<
產(chǎn)品價格
>

免費(fèi)版

類別 特征 價格
語音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時免費(fèi)音頻3
風(fēng)俗 每月免費(fèi) 5 小時音頻3
端點(diǎn)托管:每月免費(fèi) 1 個模型1
對話轉(zhuǎn)錄多通道音頻預(yù)覽 每月 5 小時免費(fèi)音頻
文本轉(zhuǎn)語音
(按字符計(jì)費(fèi))
神經(jīng) 每月免費(fèi) 50 萬個字符
語音翻譯
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時免費(fèi)音頻
說話人識別
(按交易計(jì)費(fèi))
說話者驗(yàn)證2 每月 10,000 筆交易免費(fèi)
說話人識別2 每月 10,000 筆交易免費(fèi)
語音配置文件存儲 每月 10,000 筆交易免費(fèi)

即用即付:僅按使用量付費(fèi)

類別 價格
語音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 實(shí)時轉(zhuǎn)錄:每小時1 美元
快速轉(zhuǎn)錄預(yù)覽每小時不適用9
批量轉(zhuǎn)錄:每小時0.18 美元1
風(fēng)俗 實(shí)時轉(zhuǎn)錄:每小時1.20 美元
批量轉(zhuǎn)錄:每小時0.225 美元1
端點(diǎn)托管:每個模型每小時0.0538 美元
自定義語音訓(xùn)練5每計(jì)算小時 10 美元
增強(qiáng)的附加功能:
  • 連續(xù)語言識別
  • 分類
  • 發(fā)音評估(韻律、語法、詞匯、主題)
實(shí)時:每個功能每小時0.30 美元
批量(連續(xù)語言識別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無額外費(fèi)用)
對話轉(zhuǎn)錄多通道音頻預(yù)覽 每小時2.10 美元2
語音翻譯
(按秒計(jì)費(fèi))
實(shí)時語音翻譯 每音頻小時2.50 美元3
視頻翻譯預(yù)覽 批量:每輸出視頻分鐘不適用
內(nèi)容編輯:每輸出視頻分鐘不適用
個人語音:每輸出視頻分鐘 不適用
文字轉(zhuǎn)語音8 標(biāo)準(zhǔn)語音 神經(jīng)網(wǎng)絡(luò):每 100 萬個字符15 美元
神經(jīng)網(wǎng)絡(luò) HD 4每 100 萬個字符 不適用
自定義語音 專業(yè)聲音:
合成:每 100 萬個字符24 美元
語音模型訓(xùn)練:每個計(jì)算小時52 美元,每次訓(xùn)練最高4,992 美元
端點(diǎn)托管:每個模型每小時4.04 美元
個人聲音6
合成:每 100 萬個字符不適用
語音創(chuàng)建:免費(fèi)
語音配置文件存儲:每月每 1,000 個語音配置文件 不適用
增強(qiáng)的附加功能:頭像預(yù)覽 標(biāo)準(zhǔn):N/A每分鐘
風(fēng)俗:
實(shí)時綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點(diǎn)托管:每小時每個模型 N/A
說話人識別
(按交易計(jì)費(fèi))
說話者驗(yàn)證7 每 1,000 筆交易5 美元
說話者識別7 每 1,000 筆交易10 美元
語音配置文件存儲 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費(fèi)語音配置文件)

 

其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

 

設(shè)置環(huán)境

語音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關(guān)任何要求,請參閱安裝語音 SDK

 

設(shè)置環(huán)境變量。

必須對應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問 Azure AI 服務(wù)資源。 對于生產(chǎn),請使用安全的方式存儲和訪問憑據(jù)。 例如,獲取語音資源的密鑰后,請將其寫入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。

 提示

請不要直接在代碼中包含密鑰,并且絕不公開發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請參閱 Azure AI 服務(wù)安全性。

若要為語音資源密鑰設(shè)置環(huán)境變量,請打開控制臺窗口,并按照操作系統(tǒng)和開發(fā)環(huán)境的說明進(jìn)行操作。

  • 要設(shè)置 SPEECH_KEY 環(huán)境變量,請將“your-key”替換為你的資源的某一個密鑰。
  • 要設(shè)置 SPEECH_REGION 環(huán)境變量,請將 “your-region”替換為你的資源的某一個地區(qū)。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請?jiān)谶\(yùn)行示例之前重啟 Visual Studio。

 

合成到揚(yáng)聲器輸出

按照以下步驟創(chuàng)建控制臺應(yīng)用程序并安裝語音 SDK。

  1. 在需要新項(xiàng)目的文件夾中打開命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺應(yīng)用程序。

    dotnet new console

    該命令會在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。

  2. 使用 .NET CLI 在新項(xiàng)目中安裝語音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內(nèi)容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語音合成語言,請將 en-US-AvaMultilingualNeural 替換為另一種受支持的語音。

    所有神經(jīng)網(wǎng)絡(luò)聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務(wù)不會輸出合成的音頻。

  5. 運(yùn)行新的控制臺應(yīng)用程序,開始將語音合成到默認(rèn)揚(yáng)聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉(zhuǎn)語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細(xì)指南請查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
計(jì)費(fèi)如何運(yùn)作?
對于語音轉(zhuǎn)文本和語音翻譯,使用量按一秒增量計(jì)費(fèi)。 對于文本轉(zhuǎn)語音:使用量按字符計(jì)費(fèi)。檢查定價說明中字符的定義。 對于自定義神經(jīng)語音托管:使用量按端點(diǎn)每秒計(jì)費(fèi)。查看定價說明中的詳細(xì)信息。 對于個人語音配置文件存儲:使用量按每天的語音配置文件計(jì)費(fèi)。查看定價說明中的詳細(xì)信息。 對于文本轉(zhuǎn)語音頭像,使用量按秒計(jì)費(fèi)。 對于語音轉(zhuǎn)文本和文本轉(zhuǎn)語音(包括 Avatar),自定義模型的端點(diǎn)托管按每個模型每秒計(jì)費(fèi)。
?
什么是“自定義語音模型”?
語音服務(wù)使用戶能夠根據(jù)自己的聲學(xué)和語言數(shù)據(jù)調(diào)整基線模型,從而生成可用于語音轉(zhuǎn)文本和語音翻譯的自定義語音模型。
?
什么是語言模型以及為什么要定制它? 。
語言模型是單詞序列上的概率分布。語言模型幫助系統(tǒng)根據(jù)單詞序列本身的可能性來決定聽起來相似的單詞序列。例如,“識別語音”和“破壞美麗的海灘”聽起來很相似,但第一個假設(shè)發(fā)生的可能性要大得多,因此語言模型會分配更高的分?jǐn)?shù)。如果您希望應(yīng)用程序的語音查詢包含特定詞匯項(xiàng),例如典型語音中很少出現(xiàn)的產(chǎn)品名稱或行話,那么您可能可以通過自定義語言模型來獲得改進(jìn)的性能。例如,如果您正在構(gòu)建一個通過語音搜索 MSDN 的應(yīng)用程序,“面向?qū)ο蟆薄ⅰ懊臻g”或“點(diǎn)網(wǎng)”等術(shù)語可能會比典型的語音應(yīng)用程序更頻繁地出現(xiàn)。定制語言模型將使系統(tǒng)能夠?qū)W習(xí)這一點(diǎn)
?
什么是聲學(xué)模型以及為什么要定制它?
聲學(xué)模型是一種分類器,它將音頻的短片段標(biāo)記為每種語言的幾個音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個音素“sp iy ch”組成。這些分類按每秒 100 次的數(shù)量級進(jìn)行。定制聲學(xué)模型可以使系統(tǒng)學(xué)會在非典型環(huán)境中更好地識別語音。例如,如果您有一款專供倉庫或工廠工人使用的應(yīng)用程序,則定制的聲學(xué)模型可以在這些環(huán)境中存在噪音的情況下更準(zhǔn)確地識別語音。
?
什么是“自定義神經(jīng)語音”?
語音服務(wù)提供各種文本轉(zhuǎn)語音 (TTS) 語音字體,但自定義神經(jīng)語音允許您構(gòu)建適合您的需求和品牌的自定義語音。閱讀博客了解更多信息。
?
什么是語言識別?
語言識別允許您識別口語的切換并相應(yīng)地轉(zhuǎn)錄語音。這可以應(yīng)用于音頻語言未知或說話者可能說多種語言的場景。單語言識別無需額外付費(fèi)。連續(xù)語言識別是一項(xiàng)增強(qiáng)的附加功能。訪問文檔以了解更多信息。
?
什么是發(fā)音評估?
發(fā)音評估評估語音發(fā)音并向說話者提供有關(guān)口語音頻的準(zhǔn)確性和流暢性的反饋。通過發(fā)音評估,語言學(xué)習(xí)者可以練習(xí)、獲得即時反饋并提高發(fā)音,以便他們能夠自信地說話和表達(dá)。教育工作者可以利用該功能實(shí)時評估多個說話者的發(fā)音。訪問文檔以了解更多信息。
<
關(guān)于我們
>
Microsoft
企業(yè)
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計(jì)算機(jī)軟件、消費(fèi)電子產(chǎn)品以及相關(guān)服務(wù)聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創(chuàng)立,總部位于美國華盛頓州雷德蒙德。Microsoft開發(fā)和銷售多種電腦軟件、電子游戲機(jī)、個人電腦以及移動設(shè)備等產(chǎn)品。其中,Windows操作系統(tǒng)、Microsoft Office辦公軟件套件以及Bing搜索引擎等產(chǎn)品在全球范圍內(nèi)廣受用戶青睞。此外,Microsoft還通過Azure提供云計(jì)算服務(wù),支持企業(yè)數(shù)字化轉(zhuǎn)型和創(chuàng)新。
聯(lián)系信息
服務(wù)時間: 00:00:00至24:00:00
電話號碼: (425) 882-8080
電話號碼: (425) 706-7329

 

公司簡介

隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。

 

 

關(guān)于我們

認(rèn)識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。

 

 

我們的價值觀

了解我們?nèi)绾卫眉夹g(shù)來創(chuàng)建平臺和資源,造就長遠(yuǎn)的積極影響。

 

特色計(jì)劃和項(xiàng)目

透過數(shù)字了解可持續(xù)發(fā)展

到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過互動方式了解我們公司改善對環(huán)境的影響的其他方式。

透過數(shù)字深入了解 

公司的社會責(zé)任

我們相信技術(shù)是造福人類的強(qiáng)大力量,并且正在努力創(chuàng)造一個可持續(xù)未來,使每個人都可以享受到技術(shù)帶來的好處和機(jī)會。

了解我們的方法 

故事

在 Microsoft,我們受到來自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。

了解 Microsoft AI 
<
最可能同場景使用的其他API
>