한국정보기술학회
한국정보기술학회논문지 제9권 제2호
2011.2, 33-41 (총9페이지)
신뢰도 가중 HMM 디코더를 적용한 음성인식 성능평가
Evaluation of the Speech Recognition based on Reliability-Weighted HMM Decoder
배창희, 이경록
한국어 초록
자동음성인식은 모바일 환경에서 가장 자연스러운 인터페이스 수단이지만, 채널 특성 또는 부가적인 주변잡음에 의하여 성능이 저하된다. 본 논문에서는 화자인식에 성공적으로 적용된 신뢰도 가중 HMM(RW-HMM) 디코더를 음성인식 문제에 적용하여 그 성능을 평가하였다. 신호대 잡음비(SNR)에 기반한 신뢰도 함수를 사용하였으며, 신뢰도 함수 최적화를 위하여 유전자 알고리듬을 채용하였다. 화자수 105명의 숫자음 음성 DB를 대상으로 성능 검증 실험을 수행하였다. 실험결과, 각 잡음환경에서 기존의 방법에 비하여 성능이 향상되었으며, 특히 백색가우시안 잡음환경의 경우 각 SNR에 대한 인식률이 4.6~16.3% 상승하였다.
영어 초록
Automatic speech recognition (ASR) is most natural interface approach between man and mobile devices. But, the performance of ASR is severely degraded with additive noises or channel distortions. As a noise-robust method, recently RW-HMM decoder was developed and evaluated in speaker identification domain. In this paper, to enhance the ASR performance we apply RW-HMM decoder to ASR and evaluate the performance of RW-HMM decoder in the task domain of Korean digits recognition. We adopt the SNR-based reliability measure and optimize the reliability measure by genetic algorithm. Based on a Korean digit database of 105 speakers, we perform the comparison experiments and show that the RW-HMM decoder achieves the better results compared with the CMS(cepstrum mean substraction) based baseline recognizer. In case of WGN, It shows 4.6~16.3% enhancement on each SNR.
목차
요약
Abstract
Ⅰ. 서론
Ⅱ. RW-HMM 디코더
Ⅲ. 음성인식기와 신뢰도 최적화
Ⅳ. 음성인식 실험 및 결과
Ⅴ. 결론
참고문헌
저자소개
키워드
speech recognition, SNR, RW-HMM decoder, genetic algorithm

참고문헌 (12)

  • R.J. Mammone , 1996 , Robust speaker recognition, a feature-based approach , IEEE Signal Processing Magazine 13 (5) : 58 ~ 71
  • D. Stephane , 2003 , Robust feature extraction and acoustic modeling at multitel : experiments on the Aurora databases , EuroSpeech-2003 : 1789 ~ 1792
  • A. Rosenberg , 1994 , Cepstral channel normalization techniques for HMM-based speaker verification , ICSLP-94 : 1835 ~ 1838
  • E. Mengusoglu , 2003 , Confidence measure based model adaptation for speaker verification , 2nd IASTED International Conference on Communications
  • Jin Young Kim, So Hee Min, Seung You Na , 2007 , Modified GMM Training for Inexact Observation and Its Application to Speaker Identification , 음성과학 14 (1) : 163 ~ 175
  • 민 소 희 , 2007 , Particle Swarm 기반 최적화 멤버쉽 함수에 의한 잡음 환경에서의 화자인식 성능향상 , 음성과학 14 (2) : 105 ~ 114
  • M. Heckmann , 2002 , Noise Adaptive Stream Weighting in Audio-Visual Speech Recognition , EURASIP Journal on Applied Signal Processing 2002 : 1260 ~ 1273
  • U. Meier , 1996 , Adaptive bimodal sensor fusion for automatic speech reading , IEEE International Conference on Acoustics, Speech, and Signal Processing : 833 ~ 836
  • R. Eberhart , 1995 , A new optimizer using particle swarm theory , Sixth International Symposium on Micro Machine and Human Science : 39 ~ 43
  • J. L. Shapiro , 2001 , Theoretical aspects of evolutionary computing : Statistical mechanics theory of genetic algorithms , Springer : 87 ~ 108
  • Xavier Llora , 2006 , Analyzing Active Interactive Genetic Algorithms using Visual Analytics , GECCO '06 Proceedings of the 8th annual conference on Genetic and evolutionary computation : 1417 ~ 1418
  • , , http:, , spib.rice.edu, spib, select_noise.html

이 논문이 수록된 권·호 내 논문

한국정보기술학회논문지 제9권 제2호