0. Paper Information
- Title: Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques
- Authors: Lindasalwa Muda, Mumtaj Begam, Irraivan Elamvazuthi
- Publication: Journal of Computing
- Published Year: 2010
1. Introduction
Background
- 음성 신호 식별(Voice Signal Identification)은 음성 파형을 추가 처리에 유용한 특징으로 변환하는 과정으로 구성됨
- 많은 알고리즘과 기술들이 사용되며, 이는 시간, 주파수, 에너지 정보를 포착하는 특징의 능력에 따라 다름
- 인간의 목소리는 성별, 감정, 화자의 정체성과 같은 많은 정보를 전달함
- 음성 인식의 목표는 개인의 발음을 기반으로 어떤 화자가 있는지 확인하는 것
Previous Research
- 여러 기술이 테스트 환경과 학습 환경 간의 불일치를 줄이기 위해 제안됨
- 이러한 방법 중 많은 방법들이 스펙트럴(Spectral) 또는 켑스트럴(Cepstral) 도메인에서 작동함
- MFCC(Mel Frequency Cepstral Coefficient) 및 DTW(Dynamic Time Warping)는 유사성을 찾기 위해 패턴을 비교하는 데 널리 사용되는 켑스트럴 기반 방법임
- MFCC와 DTW 기반 프로세스
- 인간의 목소리는 디지털 신호 형태로 변환되어 각 시간 단계에서 신호의 각 수준을 나타내는 디지털 데이터를 생성함
- 디지털화된 음성 샘플은 MFCC를 사용하여 음성 특징을 생성함
- 이후, 음성 특징의 계수는 DTW를 통해 데이터베이스와 입력 프레임을 비교하여 오류를 최소화
- 이러한 방법 중 많은 방법들이 스펙트럴(Spectral) 또는 켑스트럴(Cepstral) 도메인에서 작동함
Proposed Model
- 논문에서는 MFCC 및 DTW 기술을 사용한 음성 인식 연구 결과를 보고함
2. Methodology
Overall Structure
- 음성 인식 알고리즘 흐름도
MFCC (Mel Frequency Cepstral Coefficient)
- MFCC는 음성 신호 처리를 위해 사용되는 중요한 특징 추출 방법 중 하나로, 다양한 음성 처리 응용 분야에서 많이 사용됨
- 멜 주파수는 사람의 청각 특성을 반영한 비선형 주파수 척도를 의미
- 음성 인식 시스템의 성능을 크게 향상시키며, 잡음에 강인함
- 작동 프로세스
- 프레임 분할: 음성 신호를 짧은 프레임으로 나눔
- 푸리에 변환: 각 프레임에 대해 주파수 스펙트럼을 계산
- 멜 필터: 멜 스케일에 따라 필터링
- 로그 변환: 필터링된 신호에 로그를 적용
- 역변환: 푸리에 역변환을 통해 최종 MFCC를 얻음
DTW (Dynamic Time Warping)
- DTW는 시계열 데이터의 패턴을 비교하는 알고리즘으로, 시간 축을 비선형적으로 변형하여 유사도를 측정
- 시계열 데이터의 길이가 달라도 비교가 가능하며, 변동이 있는 패턴을 효과적으로 정렬
- 시간 축을 자유롭게 변형할 수 있어서 최적의 매칭을 찾을 수 있음
- 작동 프로세스
- 거리 행렬 계산: 두 시계열 데이터 간의 모든 점 쌍 사이의 거리를 계산
- 누적 거리 행렬 생성: 최소 누적 거리를 찾기 위해 동적 프로그래밍을 사용
- 최적 경로 탐색: 최적의 경로를 따라 데이터 포인트를 정렬
3. Experimental Result
Dataset
- 실험실에서 녹음한 음성 데이터를 사용
- 남자 1명, 여자 1명이 녹음
- “On TV”, “Off TV”, “Volume Up”, “Volume Down”, “Channel One”을 각각 2번씩 발화하고 이때의 음성을 녹음
- 샘플링 주파수는 16,000 Khz로 설정
Result
- 다른 발화자의 음성 신호 비교
- 발화자가 다르면 발음 형식도 달라질 수 있고 MFCC로 변환한 후 길이가 다를 수 있음
- 입력 시퀀스와 데이터베이스에 저장된 시퀀스의 길이가 동일할 가능성이 낮음
- DTW가 필요한 이유
- 입력한 음성과 데이터베이스에 저장된 참조 템플릿 비교
- 입력 테스트 음성이 데이터베이스에 저장된 참조 템플릿과 최적으로 일치했음을 확인
- 같은 단어를 말했을 때 DTW가 더 직선 형태를 띄는 것을 확인
4. Conclusion
- 해당 논문에서는 음성 인식 성능을 향상시키는 데 중요한 두 가지 음성 인식 알고리즘에 대해 논의함
- 이 기술을 통하여 음성 신호에 포함된 개별 정보를 기반으로 특정 화자를 인식할 수 있었음
- MFCC와 DTW는 음성 인식 목적으로 효과적으로 사용될 수 있음을 확인