初识百度AI开放平台和简单语音合成

上一篇 / 下一篇  2018-08-02 10:33:03 / 个人分类:博为峰原创技术文章

7月4百度2018 AI开发者大会如期举行这是百度举办第二届人工智能大会。本次大会有诸多亮点,比如百度研制的无人驾驶汽车APOLLO正式量产并出口到日本百度自己研发的AI芯片昆仑正式亮相借此成为拥有从芯片到人工智能、软件平台、人工智能解决方案三位一体的国内AI巨头。

作为国内最大的搜索引擎,百度在搜索技术和海量数据方面有绝对的垄断地位这为百度在国内人工智能领域独占先机创造了优势。

    这次大会百度提出一个口号Everyone can AI。百度提出这样口号是有底气的,因为百度利用自身的技术优势完成了一个AI基础架构平台,并开放出来供开发者使用,这个平台就是百度AI开放平台。利用这个开放平台,我们能轻松地使用百度人工智能的基础架构资源,通过调用其相关API,使我们的应用程序获得AI功能。

  初识百度AI开放平台

打开百度AI开放平台(https://ai.baidu.com)的产品服务清单,我们可以看到百度AI开放平台提供如下类型的服务:

  l 语音技术

  l 图像技术

  l 人脸与人体识别

  l 视频技术

  l AR与VR

  l 自然语言处理

  l 数据智能

  l 知识图谱

每种类型的服务又包含若干类型的子项API服务,比如对于上面的语音技术,它就包含了下面几种API服务:

  l 语音识别

  l 语音合成

  l 语音唤醒

  l 智能呼叫中心

这些API是基于HTTPS的,通过提供RESTful风格的API为开发者提供服务,比如,语音合成API服务可以将文本转化成可以播放的音频文件。

一般而言使用百度AI服务的步骤为:

1) 注册成为百度AI开放平台开发者;

2) 在百度API开放平台上创建相关类型的的AI应用,获得AppIDAPI Key和Secret Key

3) 调用相关类型的API,获得AI功能的结果,为开发者的应用服务。

  利用百度语音API实现一个简单的诗歌朗诵应用

这里我们将介绍如何使用百度的语音合成API来写一个简单的应用把一包含有《面朝大海,春暖花开》诗歌的文本文档传化成为音频文件,然后听听机器如何朗诵这首诗歌。

   具体步骤如下:

   1. 注册百度AI开发者账号

要使用百度的这些AI服务,你必须要首先要在百度AI开放平台上注册成为开发者。百度AI开发者账号分为个人账号和企业账号,无论哪种开发者账号,都需要实名认证。这里我们注册的是个人开发者,注册完后需要进行实名认证。这里的实名认证不但包括姓名、身份证等个人实名信息,还包括个人真实照片等信息。为了方便开发者实名信息认证,百度云移动app集成了百度自家的某些人脸AI服务,提供了刷脸认证用户可以下载该app完成实名认证。

当你完成了实名认证后打开百度AI开放平台的控制台页面,我们可以看到会自动开通如下的AI服务:

2.创建语音合成AI引用

选择上面百度语音类别,然后创建一个语音应用:

默认情况下一个语音AI应用同时包含语音识别和语音合成的接口。语音AI应用创建好,会自动分配AppIDApp KeySecret Key如果开发者要使用百度语音的API服务,这些信息是必要的。如果你熟悉OAuth2.0 方式的API的调用流程你会感觉上面的相关术语很熟悉事实上百度AI应用的API都是采用OAuth 2.0方式的只不过百度的相关SDK API将这套流程封装得很好,我们使用时可以无需直接处理。

除此之外,打开应用详情,可以看到百度为AI应用分配的默认资源QPS,对于本例子中的语音合成API,默认QPS是100,如果开发者认为这些资源还不够,还可以申请更多的服务资源。

   3. 安装AI应用SDK,并调用API完成服务

1) 安装SDK

百度语音服务提供了多种编程语言相关的SDK,这里选择Python版本的。打开百度AI开放平台语音服务SDK下载页面(https://ai.baidu.com/sdk#asr),选择Python SDK

笔者采用Python官方推荐的主流版本Python 3,本例具体版本是Python 3.6.4。

解压下载的zip SDK文件后进入加压后的目录

pythonsetup.py install

2) 准备文本材料

准备好诗歌《面朝大海,春暖花开》的文本文件flower.txt,注意标点符号,保存为UTF-8格式的。

3) 使用百度语音合成API

利用上面创建的语音应用的AppID, App Key和Secret Key

调用百度语音合成API:

代码解释如下:

读取文本文件获得文本数据然后作为参数传入client.synthesis() API,当请求成功后就返回一个音频格式的数据内容并写入文件,失败则打印出错误信息。

用户还可以根据自己的相关需要选择合成语音时的语速语调音量和发声人选择具体参数细节可以参考API文档(https://ai.baidu.com/docs#/TTS-API/top

执行上面的代码可以发现一个名为poem.mp3的音频文件产生了,用Windows自带的Windows Media Player播放可以听到合成的语音朗诵这首诗

我们可以发现机器朗诵的诗歌和人朗诵的相比还是有很大差距,或者我们可以说机器诗歌朗诵是缺乏灵魂的,这是目前AI技术的局限,也是需要努力的方向。随着百度AI语音的进化,特别是丰富语料之后,我相信相关语音合成效果会越来越好。

与此同时,通过上面的演示,我们可以看到,开发者十分钟就可以完成一些简单的文本与语音的转换。这大大降低了开发者使用AI的难度。如果没有这些服务,用户要么自己去实现一套自己的语音合成机器模型和语料库,或者借助第三方TTSSDK这样的开发难度都大

把上面的代码稍作修改,在文本文件中输入一些大众不会念的生僻字,即可实现一个生僻字的念法应用。

除此在外百度AI开放平台还提供其他更多更实用的AI服务,读者可以自行探索,基本开发流程跟本文类似

后记

百度作为一家国内顶尖的互联网AI公司,其技术实力毋庸置疑,但是百度是一家颇具争议的公司。在上面的百度AI开放平台的控制台中,我们看到百度提供一些人脸识别内容审查等敏感而又有争议性的AI服务,这些AI服务在公众生活中涉及到个人隐私,公众舆论的热点事件中应该发挥什么样的作用,值得我们深思。


TAG:

 

评分:0

我来说两句

日历

« 2024-04-19  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 33883
  • 日志数: 43
  • 建立时间: 2018-01-25
  • 更新时间: 2018-11-09

RSS订阅

Open Toolbar