空间管理您的位置: 51Testing软件测试网 » 博为峰软件的个人空间 » 日志

初识百度AI开放平台和简单语音合成

上一篇 / 下一篇 2018-08-02 10:33:03 / 个人分类：博为峰原创技术文章

7月4号，百度2018 AI开发者大会如期举行，这是百度举办的第二届人工智能大会。本次大会有诸多亮点，比如百度研制的无人驾驶汽车APOLLO正式量产并出口到日本、百度自己研发的AI芯片“昆仑”正式亮相，并借此成为拥有从芯片到人工智能、软件平台、人工智能解决方案三位一体的国内AI巨头。

作为国内最大的搜索引擎，百度在搜索技术和海量数据方面有绝对的垄断地位，这为百度在国内人工智能领域独占先机创造了优势。

这次大会，百度提出一个口号：Everyone can AI。百度提出这样口号是有底气的，因为百度利用自身的技术优势完成了一个AI基础架构平台，并开放出来供开发者使用，这个平台就是百度AI开放平台。利用这个开放平台，我们能轻松地使用百度人工智能的基础架构资源，通过调用其相关API，使我们的应用程序获得AI功能。

初识百度AI开放平台

打开百度AI开放平台（https://ai.baidu.com）的产品服务清单，我们可以看到百度AI开放平台提供如下类型的服务：

l 语音技术

l 图像技术

l 人脸与人体识别

l 视频技术

l AR与VR

l 自然语言处理

l 数据智能

l 知识图谱

每种类型的服务又包含若干类型的子项API服务，比如对于上面的语音技术，它就包含了下面几种API服务：

l 语音识别

l 语音合成

l 语音唤醒

l 智能呼叫中心

这些API是基于HTTPS的，通过提供RESTful风格的API为开发者提供服务，比如，语音合成API服务可以将文本转化成可以播放的音频文件。

一般而言，使用百度AI服务的步骤为：

1) 注册成为百度AI开放平台开发者；

2) 在百度API开放平台上创建相关类型的的AI应用，获得AppID、API Key和Secret Key；

3) 调用相关类型的API，获得AI功能的结果，为开发者的应用服务。

利用百度语音API实现一个简单的诗歌朗诵应用

这里我们将介绍如何使用百度的语音合成API来写一个简单的应用：把一个包含有《面朝大海，春暖花开》诗歌的文本文档传化成为音频文件，然后听听机器如何朗诵这首诗歌。

具体步骤如下：

1. 注册百度AI开发者账号

要使用百度的这些AI服务，你必须要首先要在百度AI开放平台上注册成为开发者。百度AI开发者账号分为个人账号和企业账号，无论哪种开发者账号，都需要实名认证。这里我们注册的是个人开发者，注册完后需要进行实名认证。这里的实名认证不但包括姓名、身份证等个人实名信息，还包括个人真实照片等信息。为了方便开发者实名信息认证，百度云移动app集成了百度自家的某些人脸AI服务，提供了刷脸认证，用户可以下载该app完成实名认证。

当你完成了实名认证后，打开百度AI开放平台的控制台页面，我们可以看到会自动开通如下的AI服务：

2.创建语音合成AI引用

选择上面百度语音类别，然后创建一个语音应用：

默认情况下，一个语音AI应用同时包含语音识别和语音合成的接口。语音AI应用创建好，会自动分配AppID，App Key和Secret Key，如果开发者要使用百度语音的API服务，这些信息是必要的。如果你熟悉OAuth2.0 方式的API的调用流程，你会感觉上面的相关术语很熟悉，事实上百度AI应用的API都是采用OAuth 2.0方式的，只不过百度的相关SDK API将这套流程封装得很好，我们使用时可以无需直接处理。

除此之外，打开应用详情，可以看到百度为AI应用分配的默认资源，如QPS，对于本例子中的语音合成API，默认QPS是100，如果开发者认为这些资源还不够，还可以申请更多的服务资源。

3. 安装AI应用SDK，并调用API完成服务

1) 安装SDK

百度语音服务提供了多种编程语言相关的SDK，这里选择Python版本的。打开百度AI开放平台语音服务SDK下载页面（https://ai.baidu.com/sdk#asr），选择Python SDK。

笔者采用Python官方推荐的主流版本Python 3，本例具体版本是Python 3.6.4。

解压下载的zip SDK文件后，进入加压后的目录：

pythonsetup.py install

2) 准备文本材料

准备好诗歌《面朝大海，春暖花开》的文本文件flower.txt，注意标点符号，保存为UTF-8格式的。

3) 使用百度语音合成API

利用上面创建的语音应用的AppID, App Key和Secret Key：

调用百度语音合成API：

代码解释如下：

读取文本文件，获得文本数据，然后作为参数传入client.synthesis() API，当请求成功后就返回一个音频格式的数据内容并写入文件，失败则打印出错误信息。

用户还可以根据自己的相关需要选择合成语音时的语速，语调，音量和发声人选择，具体参数细节可以参考API文档（https://ai.baidu.com/docs#/TTS-API/top）

执行上面的代码，可以发现一个名为poem.mp3的音频文件产生了，用Windows自带的Windows Media Player播放可以听到合成的语音朗诵这首诗。

我们可以发现，机器朗诵的诗歌和人朗诵的相比还是有很大差距，或者我们可以说机器诗歌朗诵是缺乏灵魂的，这是目前AI技术的局限，也是需要努力的方向。随着百度AI语音的进化，特别是丰富语料之后，我相信相关语音合成效果会越来越好。

与此同时，通过上面的演示，我们可以看到，开发者十分钟就可以完成一些简单的文本与语音的转换。这大大降低了开发者使用AI的难度。如果没有这些服务，用户要么自己去实现一套自己的语音合成机器模型和语料库，或者借助第三方TTSSDK，这样的开发难度都大很多。

把上面的代码稍作修改，在文本文件中输入一些大众不会念的生僻字，即可实现一个生僻字的念法应用。

除此在外，百度AI开放平台还提供其他更多更实用的AI服务，读者可以自行探索，基本开发流程跟本文类似。

后记：

百度作为一家国内顶尖的互联网和AI公司，其技术实力毋庸置疑，但是百度是一家颇具争议的公司。在上面的百度AI开放平台的控制台中，我们看到百度提供一些人脸识别、内容审查等敏感而又有争议性的AI服务，这些AI服务在公众生活中涉及到个人隐私，公众舆论的热点事件中应该发挥什么样的作用，值得我们深思。

收藏举报

TAG:

查看全部评论

初识百度AI开放平台和简单语音合成

用户菜单

我的栏目

标题搜索

日历

我的存档

数据统计

RSS订阅