본문 바로가기

인공지능(AI)

이미지와 음성 패턴 인식 (3)

반응형

1-3 음성 인식

음성 인식 방법

  • 사람의 말하는 소리에는 특정 주파수가 있고, 이 소리의 진폭을 Fourier Transform 하면 주파수의 특징을 알 수 있음
  • 어떤 시간 영역에서 뽑은 진폭을 주파수 영역으로 변환했을 때 볼 수 있는 피크를 '포먼트(Formant)'라고 함, 한국어는 1~3 포먼트 주파수의 조합에 따라 모음의 음소를 알 수 있음
  • 목소리는 성대의 진동으로 발생, 성도(Vocal Tract)를 통과하면서 필터에 걸리고, 공기의 진동이 발생해 목소리가 울림
  • 음원의 성대는 소스가 되고, 필터의 조합으로 소리가 들리므로 이를 '소스-필터 이론(Source-Filter Theory)'라고 함
  • 음성을 텍스트로 인식하려면 음성을 분해하는 모델(음성 모델)과 분해된 음성을 문장으로 변환하는 모델(언어 모델)을 구성해야 함

음성 인식 시스템의 작업 흐름

 

 

 

 

 

※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'인공지능(AI)' 카테고리의 다른 글

자연어 처리 (2)  (0) 2023.06.06
자연어 처리 (1)  (0) 2023.06.05
이미지와 음성 패턴 인식 (2)  (0) 2023.06.03
이미지와 음성 패턴 인식 (1)  (0) 2023.06.02
인공지능 모델의 평가  (0) 2023.06.01