[국제 저널 논문 요약] Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques

0. Paper Information

  • Title: Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques
  • Authors: Lindasalwa Muda, Mumtaj Begam, Irraivan Elamvazuthi
  • Publication: Journal of Computing
  • Published Year: 2010

 

1. Introduction

Background

  • 음성 신호 식별(Voice Signal Identification)은 음성 파형을 추가 처리에 유용한 특징으로 변환하는 과정으로 구성됨
    • 많은 알고리즘과 기술들이 사용되며, 이는 시간, 주파수, 에너지 정보를 포착하는 특징의 능력에 따라 다름
    • 인간의 목소리는 성별, 감정, 화자의 정체성과 같은 많은 정보를 전달함
    • 음성 인식의 목표는 개인의 발음을 기반으로 어떤 화자가 있는지 확인하는 것

 

Previous Research

  • 여러 기술이 테스트 환경과 학습 환경 간의 불일치를 줄이기 위해 제안됨
    • 이러한 방법 중 많은 방법들이 스펙트럴(Spectral) 또는 켑스트럴(Cepstral) 도메인에서 작동함
      • MFCC(Mel Frequency Cepstral Coefficient) 및 DTW(Dynamic Time Warping)는 유사성을 찾기 위해 패턴을 비교하는 데 널리 사용되는 켑스트럴 기반 방법임
    • MFCC와 DTW 기반 프로세스
      • 인간의 목소리는 디지털 신호 형태로 변환되어 각 시간 단계에서 신호의 각 수준을 나타내는 디지털 데이터를 생성함
      • 디지털화된 음성 샘플은 MFCC를 사용하여 음성 특징을 생성함
      • 이후, 음성 특징의 계수는 DTW를 통해 데이터베이스와 입력 프레임을 비교하여 오류를 최소화

 

Proposed Model

  • 논문에서는 MFCC 및 DTW 기술을 사용한 음성 인식 연구 결과를 보고함

 

2. Methodology

Overall Structure

  • 음성 인식 알고리즘 흐름도

 

MFCC (Mel Frequency Cepstral Coefficient)

  • MFCC는 음성 신호 처리를 위해 사용되는 중요한 특징 추출 방법 중 하나로, 다양한 음성 처리 응용 분야에서 많이 사용됨
    • 멜 주파수는 사람의 청각 특성을 반영한 비선형 주파수 척도를 의미
    • 음성 인식 시스템의 성능을 크게 향상시키며, 잡음에 강인함
    • 작동 프로세스
      • 프레임 분할: 음성 신호를 짧은 프레임으로 나눔
      • 푸리에 변환: 각 프레임에 대해 주파수 스펙트럼을 계산
      • 멜 필터: 멜 스케일에 따라 필터링
      • 로그 변환: 필터링된 신호에 로그를 적용
      • 역변환: 푸리에 역변환을 통해 최종 MFCC를 얻음

 

DTW (Dynamic Time Warping)

  • DTW는 시계열 데이터의 패턴을 비교하는 알고리즘으로, 시간 축을 비선형적으로 변형하여 유사도를 측정
    • 시계열 데이터의 길이가 달라도 비교가 가능하며, 변동이 있는 패턴을 효과적으로 정렬
    • 시간 축을 자유롭게 변형할 수 있어서 최적의 매칭을 찾을 수 있음
    • 작동 프로세스
      • 거리 행렬 계산: 두 시계열 데이터 간의 모든 점 쌍 사이의 거리를 계산
      • 누적 거리 행렬 생성: 최소 누적 거리를 찾기 위해 동적 프로그래밍을 사용
      • 최적 경로 탐색: 최적의 경로를 따라 데이터 포인트를 정렬

 

3. Experimental Result

Dataset

  • 실험실에서 녹음한 음성 데이터를 사용
    • 남자 1명, 여자 1명이 녹음
    • “On TV”, “Off TV”, “Volume Up”, “Volume Down”, “Channel One”을 각각 2번씩 발화하고 이때의 음성을 녹음
    • 샘플링 주파수는 16,000 Khz로 설정

 

Result

  • 다른 발화자의 음성 신호 비교
    • 발화자가 다르면 발음 형식도 달라질 수 있고 MFCC로 변환한 후 길이가 다를 수 있음
    • 입력 시퀀스와 데이터베이스에 저장된 시퀀스의 길이가 동일할 가능성이 낮음
      • DTW가 필요한 이유

 

  • 입력한 음성과 데이터베이스에 저장된 참조 템플릿 비교
    • 입력 테스트 음성이 데이터베이스에 저장된 참조 템플릿과 최적으로 일치했음을 확인
    • 같은 단어를 말했을 때 DTW가 더 직선 형태를 띄는 것을 확인

 

4. Conclusion

  • 해당 논문에서는 음성 인식 성능을 향상시키는 데 중요한 두 가지 음성 인식 알고리즘에 대해 논의함
    • 이 기술을 통하여 음성 신호에 포함된 개별 정보를 기반으로 특정 화자를 인식할 수 있었음
    • MFCC와 DTW는 음성 인식 목적으로 효과적으로 사용될 수 있음을 확인