当前位置：移动技术网 > IT编程>开发语言>.net > 花样试用微软语音服务晓晓

花样试用微软语音服务晓晓

2019年04月12日 | 移动技术网IT编程 | 我要评论

隆尧信息网,最近猪价行情,厦门卫视节目表

前言

受微软美女员工 grace peng 邀请（也可能是套路？？？），参加微软神经语音（没错，就是神经）晓晓的试用，首先是看到了群里面的消息，然后就是发送申请，等待回复，过了几天后，收到了一个机器人发来的账号密码，告诉我已经帮我申请了免费试用的账号，直接登录即可使用了。其实一直都有接触各种 tts 的服务，但是在测试微软晓晓的过程中发现，在拟人方面，晓晓的发音似乎被训练得很不错，在语法方面，晓晓支持 ssml 语法，具体参见：https://www.w3.org/tr/speech-synthesis/ 什么是 ssml，来自百度百科语音合成标记语言的解释。

1. 准备工作

话不多说，马上开始，首先登录 azure portal,

1.1 选择 “认知服务”，添加一个新的 speech 订阅命名为：myspeechservice

1.2 等待部署完成

1.3 speech 部署完成后

点击左侧列表中的 “所有资源”连接，进入资源管理面板

1.4 选择资源，查看密钥

在资源面板点击刚才创建好的 myspeechservice，进入详情后点击 “键”(keys)，可以看到已经生成好的密钥，等一下调用 speech 服务的时候需要用到，好了，准备工作已经完成了，下面就写两行代码试试。

2. 开始试用

创建一个控制台项目：myspeechapp，进行一些简单的编码工作，在正式编码之前，需要来了解一下调用流程

从上面的流程图可以了解到，首先，我们需要使用创建好的 speech 服务中的密钥去换取访问 token ，然后，使用 token 调用 speech 主机，传递文本，下载语音文件，整个流程结束。

注意：通过上面的流程，只能合成 10 分钟以内的语音文件。

好了，流程已经看懂了，下面正式开始编码。

2.1 定义公共的变量备用

    class program
    {
        private const string token_uri = "https://southeastasia.api.cognitive.microsoft.com/sts/v1.0/issuetoken";
        private const string sub_key = "36290bbded8f4cb59e34e50ed7be60b0";
        private const string host = "https://southeastasia.tts.speech.microsoft.com/cognitiveservices/v1";
        private const string resource_name = "myspeechservice";
    }

token_uri：换取 token 调用的 url
sub_key：资源密钥，就是 1.4 中的键（keys）
host：speech 主机，因为给我分配的是东南亚的，所以这里地区也必须选择 southeastasia，资源面板上也没有说明，一开始使用的是 westus ，总是提示身份验证异常，坑了好几分钟。
resource_name：资源名称，就是我们创建的服务名，这没什么好说的

2.2 换取访问token

        private static async task<string> gettokenasync()
        {
            using (var httpclient = new httpclient())
            {
                httpclient.defaultrequestheaders.add("ocp-apim-subscription-key", sub_key);
                var builder = new uribuilder(token_uri);

                var result = await httpclient.postasync(builder.uri.absoluteuri, null);

                return await result.content.readasstringasync();
            }
        }

代码比较简单，就是一个 http 请求的封装而已，核心内容是 httpclient.defaultrequestheaders.add("ocp-apim-subscription-key", sub_key);，把资源密钥加入请求头中。

2.2 合成语音

        private static async task requestssml(string authtoken, string text, string filename)
        {
            console.writeline("准备中...");
            using (var httpclient = new httpclient())
            {
                var body = "<speak xmlns=\"http://www.w3.org/2001/10/synthesis\" xmlns:mstts=\"http://www.w3.org/2001/mstts\" version=\"1.0\" xml:lang=\"zh-cn\"><voice name=\"microsoft server speech text to speech voice (zh-cn, xiaoxiaoneural)\">" + text + "</voice></speak>";
                var request = new httprequestmessage()
                {
                    method = httpmethod.post,
                    requesturi = new uri(host),
                    content = new stringcontent(body, encoding.utf8, "application/ssml+xml")
                };
                request.headers.add("authorization", "bearer " + authtoken);
                request.headers.add("connection", "keep-alive");
                request.headers.add("user-agent", resource_name);
                request.headers.add("x-microsoft-outputformat", "riff-24khz-16bit-mono-pcm");

                console.writeline("正在进行远程过程调用...");

                var response = await httpclient.sendasync(request);
                if (response.statuscode != system.net.httpstatuscode.ok)
                {
                    console.writeline("the response {0}", response.statuscode);
                    return;
                }
                using (var stream = await response.content.readasstreamasync())
                {
                    stream.position = 0;
                    console.writeline("正在下载语音文件 {0} ...", filename);
                    using (var fs = new filestream(filename, filemode.create, fileaccess.write, fileshare.readwrite))
                    {
                        await stream.copytoasync(fs);
                        fs.close();
                    }
                }
                console.writeline("文本转换语音成功");
                console.writeline("===============\n");
            }
        }

这段代码也非常的简单，首先是构造一个 ssml 文件格式的 body，并在请求头中加入 authtoken 还有其它的一些头部标识，然后就开始正式的请求语音文件，最后将合成好的语音文件保存到本地。

2.3 开始调用过程

        static void main(string[] args)
        {
            var result = gettokenasync().configureawait(false).getawaiter();
            string token = result.getresult();

            var text1 = "你好，我是来自博客园的技术爱好者 ron liang；很高兴可以试用 speech，希望一切顺利。";
            var task1 = requestssml(token, text1, "1.wav");
            task1.configureawait(false).getawaiter().getresult();

            var text2 = "小哥哥，来一发<prosody rate=\"-40.00%\" volume=\"-80.00%\" duration=\"1.5s\">吗？</prosody>";
            var task2 = requestssml(token, text2, "2.wav");
            task2.configureawait(false).getawaiter().getresult();

            var text3 = "蒿嗨偶，肝绝忍僧衣襟捣打的高草，肝绝忍僧衣襟捣打了巅峰。蒿赠寒，蒿朵母，蒿悬猜。";
            var task3 = requestssml(token, text3, "3.wav");
            task3.configureawait(false).getawaiter().getresult();

            console.writeline("按任意键退出");
            console.readkey();
        }

上面有3段文本，对应合成3段语音，1和3是纯粹捣乱的，第二段文本中加入了ssml标记prosody，其属性表示：rate=-40%(降低语速),volume=80%(降低音量),duration=1.5s(延时1.5s)

2.3 按 f5 运行程序

非常完美的运行成功，我们得到了3个语音文件，分别是：

正常版：
你好，我是来自博客园的技术爱好者 ron liang；很高兴可以试用 speech，希望一切顺利。

撩人版：
小哥哥，来一发吗？

方言版：
蒿嗨偶，肝绝忍僧衣襟捣打的高草，肝绝忍僧衣襟捣打了巅峰。蒿赠寒，蒿朵母，蒿悬猜。

结束语

整体来说，在普通的语境环境下，晓晓的表现还是不错的，整体令人满意，但是在自定义 ssml 的时候，就非常的麻烦，我调整了不下30分钟，都没有达到一个令人满意的结果；当然，晓晓还有别的优点，比如可以自定义语音字体，你可以请声优来训练专业你自己的语音字体，只为你一个人服务。

代码托管在github上了
https://github.com/lianggx/examples/tree/master/myspeechapp

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

详解.NET Core 3.0 里新的JSON API

为什么需要新的 json api ？json.net 大家都用过，老版本的 asp.net core 也依赖于 json.net 。然而这个依赖就会引起一些版... [阅读全文]
Net Core Web Api项目与在NginX下发布的方法

前言本文将介绍net core的一些基础知识和如何nginx下发布net core的webapi项目。测试环境操作系统：windows 10 开发工具：v... [阅读全文]
浅谈ASP.NET Core 中jwt授权认证的流程原理

1，快速实现授权验证什么是 jwt ？为什么要用 jwt ？jwt 的组成？这些百度可以直接找到，这里不再赘述。实际上，只需要知道 jwt 认证模式是使用一段 ... [阅读全文]
.Net Core 实现图片验证码的实现示例

记录自己的学习，参考了网上各位大佬的技术，往往在登录的时候需要使用到验证码来进行简单的一个校验，这边使用在.net core上进行生成图片二维码思路很简单=》 ... [阅读全文]
asp.net core3.1 引用的元包dll版本兼容性问题解决方案

自从.netcore 3.1出来后，大家都想立马升级到最新版本。我也是如此，微软也对.netcore 3.1 的官方组件不断升级，几乎每隔几天就会有部分元包可以... [阅读全文]
IdentityServer4实现.Net Core API接口权限认证(快速入门)

什么是identityserver4官方解释：identityserver4是基于asp.net core实现的认证和授权框架，是对openid connect... [阅读全文]
从ASP.NET Core3.1迁移到5.0的方法

3月中旬，微软官方已经发布了dotnet 5的第一个预览版：5.0.0-preview.1。dotnet core经过前几个版本的发展和沉淀，到3.1已经基本趋... [阅读全文]
.NET Core中创建和使用NuGet包的示例代码

在.net core的项目中，如果我们要在项目中引用其它dll文件，不建议直接在项目引用中添加dll文件（虽然在.net core项目中也可以这么做），建议是去... [阅读全文]
ASP.NET Core MVC通过IViewLocationExpander扩展视图搜索路径的实现

iviewlocationexpander api expandviewlocations razor视图路径，视图引擎会搜索该路径. populateva... [阅读全文]
ASP.NET Core中的Controller使用示例

asp.net core出现之前我们实现的controller，mvc都继承自controller基类，webapi的话继承自apicontroller。现在a... [阅读全文]