语音质量评价

上一篇 / 下一篇 2013-08-30 11:44:00 / 个人分类：音视频

转载文章来自http://blog.csdn.net/jiangyangbo/article/details/5484010

语音作为信息传递的重要载体，与其相关构成的通信、编码、存储和处理等语音系统已成为现代社会信息交流的必要手段，且已广泛应用于社会各个领域。这些系统的性能好坏成为信息交流是否畅通的重要因素，而评价这些系统性能优劣的根本标志是在于系统输出语音质量的好坏。因此，研制灵活、方便、可靠的语音质量评价系统自然成为国内外研究者共同努力的目标。

语音质量包括两方面内容：清晰度和自然度。前者是衡量语音中的字、单词和句的清晰程度，而后者则是对讲话人的辨识水平。语音质量评价不但与语音学、语言学、信号处理等学科有关，而且还与心理学、生理学等学科有着密切的联系，因此语音质量评价是一个极其复杂的问题。语音质量评价从评价主体上讲可分为两大类：主观评价和客观评价。

主观评价是依靠评听者意见对通信系统性能做出判决，是直接反映用户的观点并与系统的适应性相联系。目前国内外采用较多的主观评价方法有^[1]：平均意见分MOS(Mean Opinion Score)、下降的平均DMOS(Degradation Mean Opinion Score)、诊断押韵测试DRT(Diagnostic Rhyme Test)、满意度判断测量DAM(Diagnostic Acceptability Measure)等。它们的缺点是费时费力，重复性差，难以组织实施不够灵活，而且条件不具备还无法组织实施，容易受人的主观因素影响，不利于在生产过程和现场实验中应用等。其中MOS分是一种广泛使用的主观评价方法。

客观评价主要依据的是原始语音信号和失真语音信号的时频域或变换域的特征参数对比。其主要是针对主观评价方法的不足，人们早就希望有客观评价方法来评价语音设备的音质，所以许多学者陆续提出了基于客观测度的客观音质评价方法，希望采用这些方法方便、快捷地给出被测语音系统的语音质量评价值，只不过评价的主体是由机器(硬件或软件)来完成。目前国内外采用较多的客观评价方法有：PSQM、PAMS和PSQM+等方法，但大量研究发现，这些方法有较大的局限性，效果与特定的编码方式有关系，并且与MOS法的结果相差较大

，因此ITU-T标准在结合了PAMS和PSQM99方法，在2001年提出了P.862标准来对语音音质进行客观评价。其核心算法是：PESQ（Perceptual evaluation of speech quality）。PESQ对语音音质作出的评价与主客评价的相似程度达到0.935。

客观音质评估的国内外研究的概况

客观音质评估最早可以追溯上个世纪四十年代，而为客观音质评价方法研究奠定基础的应归功于S.R.Quackenbush 和T.P. Barnwel l III，他们对二十世纪八十年代中期以前的音质评价研究工作作了系统归纳，出版了一本有关客观音质评价的专著。两人建立了264种失真条件，得到了 11880个样本的失真语音库，提出了谱距离、斜率加权谱距离、对数面积比、分段变频信噪比等客观评价方法。

二十世纪八十年代后期各国的研究者又提出了许多新的客观评价方法。如BellNorthern Research提出的相关函数方法CHF(Coherence Function)，它是一种加权信号失真比测度方法，通过描述人的听力敏感度、人对噪声门限效果以及电话听筒接收的敏感度等来对电话语音质量进行评价; 日本NTT研究人员N. Kitawaki等人提出的倒谱距离CD(Cepstral Distance)方法，它是由原始语音信号和失真语音信号的1阶LPC(Linear Predictive Coding)系数分别推导出各自的倒谱系数C(i),然后求出它们之间的倒谱距离，其相关度达到了0.9左右，是一种与主观评价相关性较好的评价方法; 美国电信科学研究院ITS(The Institute for Telecommunication Sciences)学者R. Kubichek和E.A. Quincy等人提出的专家模式识别EPR(Expert Pattern Recognition)方法，该方法运用贝叶斯估计原理来寻求语音信号的特征参数与语音质量之间的非线性关系，测试结果表明ITS法也比较令人满意。

PESQ算法的算法介绍

PESQ（Perceptual Evaluation of Speech Quality），语音质量的知觉评估方法，其测试的参考模型为：

PESQ总的思路是：对原始信号（参考信号）和通过测试系统的信号进行电平调整到标准听觉电平，再用输入滤波器模拟标准电话听筒进行滤波。对通过电平调整和滤波后的两个信号在时间上对准，并进行听觉变换，这个变换包括对系统中线性滤波和增益变化的补偿和均衡。两个听觉变换后的信号之间的不同作为扰动（即差值），分析扰动曲面提取出两个失真参数，在频率和时间上累积起来，映射到对主观平均意见分的预测值。

Perceptual Evaluation of Speech Quality, is a family of standards comprising a test methodology for automated assessment of thespeech qualityas experienced by a user of atelephony system. It is standardised asITU-Trecommendation P.862 (02/01). Today, PESQ is a worldwide applied industry standard for objective voice quality testing used by phone manufacturers, network equipment vendors and telecom operators.

收藏举报

TAG:

查看全部评论

语音质量评价

用户菜单

我的栏目

标题搜索

日历

我的存档

数据统计

RSS订阅