admin管理员组

文章数量:1531792

2024年5月8日发(作者:)

2011年第2O卷第9期 http:Hwww.c—S—a.org.ell 计算机系统应用 

基于ARM-Linux的普通话发音质量评价体系① 

陈彩华 ,龙卫兵 

(湖南三一工业职业技术学院,长沙410129) 

(湖南工程职业技术学院,长沙4101 14) 

摘要:从当前普通话测试的现状与需求出发,对基于ARM.Linux的语音评价系统进行了深入研究,提出了基 

于嵌入式技术的普通话发音质量评价方案。其中,系统硬件以¥3C2410X处理器和UDA134TS为主要部分,软 

件则主要研究基于语音特征比较的普通话评价方法。本设计方案能有效实现普通话测试系统从PC平台到嵌入式 

平台的移植。 

关键词:普通话发音质量评价;¥3C2410X;Linux;UDA1341TS 

C:hinese Pronuneiation Quality Evaluation System Based on ARM and Linux 

CHEN Cai.Hua ,LONG Wei.Bing2 

(Htman SANY Polytechnic College,Changsha 410129,China) 

(Hunan Engineering Polytechnic,Changsha 4101 14,China) 

Abstract:In view of the current situation and demands of the Chinese test,this paper made a thorough study of the 

pronunciation evaluation system based on the ARM-Linux,and put forward a design of Chinese pronunciation quality 

evaluation system based on the embedded technology.¥3C24 1 0X and UDA 1 34 1 TS are used as the main part of the 

system.Through the research of speech characteristic comparison,the design easily realized the transplant of Chinese 

test system from PC to embedded system. 

Key words:Chinese pronunciation qualiy tevaluation;¥3C2410X;Linux;UDA1341TS 

1 引言 

随着各种消费电子产品对低成本、高稳定性片上 

语音识别系统需求的增加,语音识别系统已从实验室 

的PC平台向各种嵌入式设备转移。在普通话日益推 

广的新形式下,计算机辅助普通话培训、测试工作也 

取得了跨越式发展,但目前所推行的普通话水平智能 

测试系统仍局限于PC平台,而且测试成本高。针对 

系统的语音识别更加方便快捷,并具有一定的通用性。 

2普通话发音质量评价原理 

目前,国内的普通话水平测试方式主要有人工测 

试与计算机辅助测试两种,分别采用主观评价与客观 

评价两种发音质量评价体系【l】,其评价原理如图1所 

示。 

当前计算机辅助测试系统降低成本的需要,本文旨在 

设计一个基于ARM9的嵌入式普通话评测系统,用于 

普通话的发音质量评分,该系统以ARM芯片 

¥3C2410X和嵌入式操作系统Linux为基础,配合其他 

功能模块,能够独立完成普通话发音质量的评分工作。 

匦圃 蔓墨雯 匿圃

—,1 1:=:! :厂 

发音质量 

评价系统 

 

提取语音特征I———’ 机器评分2卜__ ———・ 融合各评分缭出评价 

= _=] 

系统采用¥3C2410X作为控制芯片与处理芯片,设计 

一 

了基于语音特征比较的语音评分算法,使得该嵌入式 

①基金项目:国家语委普通话培训测试科研规划课题(PY09o03) 

收稿时D-]'2010.12.20;收到修改稿时间:201 1.o4.0l 

图1 普通话发音质量的主/客观评价过程 

Research and Development研究开发95 

计算机系统应用 http://www.C—s-a.org.cn 2011年第2O卷第9期 

主观评价主要以人为主体来评价普通话发音质 

量,首先由普通话测试专家聆听测试语音,然后专家 

们凭自己的语音测试经验,检测测试语音与预先约定 

2个USB主机接口、117个通用I/O、24个外部中断、 

芯片内置PLL[ 。系统的外围电路主要包括存储器、 

数据采集模块、LDC显示模块等。存储器包括SDRAM 

的标准发音之间的差异,最后根据被测试语音的失真 与FLASH ROM,SDRAM主要作为应用程序和数据 

的运行空间,Flash ROM则用来存储BIOS、嵌入式操 

程度给出一个总体评价。主观评价方法虽然能真实反 

应普通话的发音质量,符合人对语音质量的整体感觉, 

但工作量大,不易重复,加上语音评价不但与语音学、 

语言学、信号处理等学科相关,而且还与心理学、生 

理学等学科有密切关系f2】,因而主观评价方法的评价 

结果与测试专家有很大的关系,这进一步凸显了主观 

评价的主观性缺陷。 

作系统及运算所需要的各种数据。 

l墨竺皇堡I一 lDMA 

回一 

S3C24lOX 

I壁 I — 32位微处理器 

LCD I々。置寺 

客观评价系统则采用机器来对发音质量进行自动 

评价,系统首先提取测试语音与参考语音各自的特征 

值,然后比较二者在各个特征值方面的的差异,根据 

差异值给出各方面的机器评分,最后对各种机器评分 

值进行融合,最终得出所测试的语音分数值。相对主 

图3系统硬件结构 

整个系统采用ARM—Linux架构,系统的核心部分 

由S3C2410X和UDA1341TS构成。由于S3C2410X 

内置IIS总线接口,加上UDA1341TS支持IIS总线数 

观评价系统而言,客观评价系统由于能提供统一的评 据格式,因此¥3C2410X的IIS总线信号与UDA1341TS 

价标准,因而能有效去除主观评价系统中的主观性, 

同时还能极大的提高语音评价的效率。 

本文研究的具有参考语音标准的普通话发音质量 

评价系统主要基于语音识别与语音韵律分析,采用梅 

的IIS信号可直接相连,通过DMA传输模式,可完成 

语音的录音与放音。语音信号通过UDA1341TS放大、 

滤波、A/D转换后,由DMA控制器从FIFO缓冲区送 

入DMA缓冲区,供¥3C2410X微处理器处理。 

尔倒频谱参数表征声音的内容,基频轨迹用来反映声 

音的韵律变化,通过对比测试语音和参考语音之间的 

4普通话发音质量评价体系软件设计 

操作系统是整个普通话发音质量评价体系的核 

内容与韵律差异,得出反映内容与韵律的机器评分, 

两者融合后便得到了最终的客观分数。普通话语音质 

量评价原理如图2所示。 

心,本文选取开源的、功能可裁减的Linux作为嵌入 

式操作系统。整个系统能够完成语音数据的预处理、 

语音特征提取、发音质量的专家模拟评价等功能。 

4.1语音数据预处理 

标准语音 

测试语音 

语音数据预处理的主要任务是为语音特征提取准 

备可计算的数字语音信号,其处理流程如图4所示。 

图2普通话发音质量评价原理 

首先,系统根据预先确定的采样频率,采集由开发板 

上的麦克风传入的语音信号,然后通过AiD转换电路 

将采集的模拟语音信号转换成数字信号;接着,系统 

应用端点检测技术来确定语音中的音素、音节以及词 

3普通话发音质量评价体系硬件设计 

本文研究的普通话发音质量评价系统主要用于便携 

式语言学习与测试系统,因此系统硬件主要采用低成本、 等信息在语音中的起始点与终止点,以进一步排除原 

语音信号中的无声段,获取有效的语音段;然后,系 

统将语音信号通过一个低通滤波器进行高频噪音滤波 

处理;为了模拟人耳的高频提升特性,最后系统还需 

要将语音信息作预强调处理。预处理好的语音信息可 

在需要时直接读入使用,这在很大程度上降低了系统 

低功耗、高性能的32位ARM微处理器¥3C2410X作为 

系统主控制器,整个系统的硬件结构如图3所示。 

¥3C2410X微处理器使用ARM920T核,工作频率 

为203MHz,带MMU先进体系结构,支持Linux, 

WinCE,EPOC32等嵌入式操作系统,集成了外部存 

储控制器、LCD控制器、PS2接口,4通道的UART、 

96研究开发Research and Development 

的运算量,同时也提高了系统的实时性。 

2011年第2O卷第9期 http://www.c・s-a.org.en 计算机系统应用 

语 

音 A/D转换 端点侦测 +I低通滤波 预强调处理 

预处理 

数字语音 

测系数(PLPC)。在三种语音参数中,梅尔倒频谱参 

数(MFCC)是利用Mel频率与实际频率之间的非线 

图4语音数据预处理流程 

性关系计算得到的频谱特征,能很好的模拟人耳的特 

殊感知特性,而且识别性能好,同时还可以方便的在 

4.2语音基频轨迹曲线提取 

普通话具有包含轻声在内的五种声调,是一种典 

16位定点DSP上实时实现,因此本设计主要选用39 

维MFCC特征参数来表征语音内容的正确性,MFCC 

型的有调语音,要对普通话的发音质量作出正确评价, 

就必须对普通话的声调发音准确程度作出判断。在语 

音信息中,基频参数是反映语音的语调韵律的一个重 

要参数,在现有的基于语音波形估计基音周期的方法 

中,平均幅度差法(AMDF)的特点是不涉及到乘法 

和除法,比较适合于资源相对匮乏的嵌入式系统平台, 

因此本文主要采用AMDF法来求取语音的基频参数, 

语音基频轨迹曲线求取的流程如图5所示。 

预处理语音 

图5基频轨迹曲线提取流程 

考虑到语音信号的时变特性,系统首先对经过预 

处理的数字语音信号进行音框化处理,音框大小取为 

256点(32ms),同时让相邻两音框之间重叠128点, 

以防止音框之间的剧烈变动。在系统对音框化后的语 

音信号进行基音周期估计之前,必须先对语音信号进 

行中心削波非线性处理,以消除共振峰的影响,在中 

心削波后,系统只需要对语音信号进行AMDF处理, 

即可求取所处理帧的基频,在求取各语音帧的基频后, 

就可得到整个语音信号的基频轨迹曲线。 

3_3梅尔倒频谱参数提取 

语音特征参数的选择和提取是构建系统的关键, 

所选取的特征参数不仅要求计算方便,而且要求有高 

效的计算方法,以确保语音识别的实时实现。目前常 

用的语音识别参数主要有3种t4]:线性预测倒谱系数 

(LPCC)、Mel频标倒谱系统(MFCC)和感知线性预 

特征参数的提取流程如图6所示。系统在读入经过预 

处理的数字语音之后,先进行取音框操作,然后对各 

音框乘上汉明窗,以补偿音框边缘所造成的信号不连 

续现象,接着对各音框做快速傅利叶变换,求取各音 

框的频谱,在提取MFCC特征的同时,借助一组在 

Mel频标上均匀分布的20个三角滤波器即可求出各频 

带的输出对数频谱,可进一步减少系统的运算量。 

预处理语音 

图6梅尔倒频参数提取流程 

3.4发音质量评价算法 

为了使系统能够在存储资源、运行速度都受到限 

制的嵌入式平台上更好的模拟语言专家的评分,本文 

设计了一款改进的基于特征比较的普通话发音质量评 

价算法,只需要一次动态时间规整(DTW)操作就可 

结合两种特征参数进行模式对比。 

首先系统利用MFCC参数对待评分语音与标准语 

音进行D,1w非线性校正,既保证了两段语音内容相 

似位置的对应性,同时还可以获得一条误差最小的校 

正路径以及反映两段语音内容相似度的DTW距离; 

然后系统以校正路径为基础,比较待评分语音基频变 

化轨迹与标准语音的基频变化轨迹,通过计算两者相 

似内容对应位置的基频点差距与基频点变化量差距, 

来获取两段语音在语调上的相似度。 

对给定语音的各语音帧分别进行基频轨迹提取与 

(下转第94页) 

Research and Development研究开发97 

计算机系统应用 http://www.c—S-a.org.cn 2011年第2O卷第9期 

常操作的用户。以上方法只是检测异常用户,即用户 

在单一会话中的异常行为检测,对于那些多会话的异 

常行为是无能为力的。而大多数系统使用者本身的操 

参考文献 

l Hawkins D.Identification of Outliers.London:Chapman and 

Ha1l-1980. 

作行为,必然存在很多有趣的行为模式,如熟练用户 

2柴平碹,程时端.入侵检测技术分析.计算机工程与应用, 

2003,14:164-166. 

与不熟练用户的操作模式一定是不同的,经常偷懒的 

使用者和积极的工作者在实用系统中也必然存在巨大 

的差异,什么样的使用者会使系统出现更多的异常。 

下一阶段将在现有的模式上建立系统使用者的行为模 

型,当挖掘出用户的使用模式后,可以使用¥VITI等方 

法对以上描述类用户的使用模式建立一个模型,然后 

使用这个模型区分出不同类型的用户,准确地预测非 

法用户的入侵。 

表4测试结果 

异常 检测异 

数据集 异常类型 事件 常事件 

(个) 

D0S l8 

3肖国强。肖铁.一种从WEB日志中挖掘访问模式的新算法. 

华中科技大学学报(自然科学版),2004,32(5):70—72. 

4 H Z,Xu X,Deng S.FP-outlier:frequent paaem based outlier 

detection.ComSIS,2005,2(1):103-118. 

5 Hart J,Kamber M.范明,孟小峰,译.数据挖掘概念与技术.北 

京:机械工业出版社,200 1.3-22. 

6 Knorr E,Roymond NG Algorithms for mining distance-based 

outlier in large databases.Proc,of the VLDB Conf.New 

York:1998:390-405. 

检测率 误报率 

7崔贯勋.基于密度的离群数据挖掘算法研究f硕士学位论 

文】.重庆:重庆大学,2007. 

(个) 

l5 81.3953% 

抽取6386条 

样本Intrusion 

异常 

9O条.误报 Attempt 

20 

45 

7 

16 

31 

5 

81.25% 

158/(6386 

8徐翔,刘建伟,罗雄.离群点挖掘研究.计算机应用研究,2009, 

26(1):34-40. 

-9O 25.1 

158条 

Penetration 

R2L 

68.5l85% 38 

70.5882% 

(上接第97页) 

梅尔倒频谱参数提取,即可获得对应语音的基频特征 

向量与MFCC特征向量,设标准语音的MFCC特征向 

4结语 

本文在功能强大的ARMS3C2410X硬件平台上, 

量为Ml=[m1(1),m2(2),…ml( 】,基频特征向量为 

Pl=[pi(1),p2(2),…pl( ](T为标准语音长度);待评价 

语音的MFCC特征向量为M2=[m2(1),m2(2),…m2(S)】, 

基频特征向量为P2=[p2(1),p2(2),…p2(S)】,(S为待评价 

语音长度),系统只需进行一次DTW操作,就可按以 

下公式求取基频变化相似度P以及MFCC特征相似度 

M。 

构建了一个嵌入式平台的普通话发音质量评价系统, 

分别从语音的准确性与朗读的韵律两个方面对普通话 

的发音质量进行评价,在保证评分质量的情况下,对 

基于特征比较的语音评价算法进行了改进,大大降低 

了系统实现平台的硬件资源配置要求,对研制嵌入语 

音识别片上系统具有很好的参考价值。 

㈢=。 ( ’(C是特征比较矩阵) 

( 主M2  ) ̄,C2 

c=

参考文献 

2Oo0.16—22.33 1-335. 

l易克出,田斌.语音信号处理.北京:国防业出版社, 

2杜普选,马庆龙.实时DSP技术及浮点处理器的应用.第2 

版.北京:清华大学出版社,北京交通大学出版社,2007:86— 

9O。 

由于各语音特征参数间存在着关联性,可根据评 

分的侧重点不同,在机评分计算公式中引入各特征参 

数的权值,实现机评分与专家评分之间的最佳映射。 

3陈彩华,龙卫兵,刘彬.基于ARM.Linux的家用网络平台设 

计与实现.计算机测量与控制,2010,(9):2176—2177,2193. 

4韩纪庆,张磊,郑铁然.语音信号处理.北京:清华大学出版社, 

Scores(P, )=k ̄P+k2M+ksPM 

94研究开发Research and Development 

20o4.133-1 35. 

本文标签: 语音系统评价普通话质量