パターン認識の流れ

音声の判定処理をするアプリを作成することになったので、簡単にパターン認識の処理の流れをおさらい。
パターン認識

パターン認識では、アナログの信号をデジタル化しパターンを
識別する。主に以下の工程でパターン認識が行われる。

アナログ信号 → 前処理 → 特徴抽出 → 識別 → 判定

○前処理
 アナログ信号をデジタル信号に変換する。
 アナログ化する際の標本化数は標本化定理を考慮する。標本化定理
 とは、周波数fの音を再現する場合2fより大きい標本化数で標本化
 しなければ行けないというものである。例えば人間が聞ける音の範囲
 (20Hz ~ 20,000Hz)を再現する場合は40,000Hz以上で標本化しなけれ
 ばいけない。
 また、雑音などのノイズ除去も前処理で行う。

○特徴抽出
 パターンの特注を抽出してマッチングに必要な情報を取得する。正確な
 マッチングを行うためにはパターンの変動に強い正規化された特徴を抽出
 する必要がある。
 例えば、人が発声した"あ"という声でも人事で大きさや高さが異なっている
 のでそれら変動に強い特徴の取得が必要である。
 また、認識したいパターンの対象によっって特徴の取得方法を変えたほうが
 マッチングが正確に行えるようになる。
 
 特徴抽出ではフーリエ変換によって周波数ごとの音の大きさ(スペクトル)が広く
 用いられている。
 また人の声の場合、フォルマントの抽出などがある。MFCCでは、人間の聴覚
 特性(低い周波数では細かく、高い音では荒い)に対応した情報を取得する。

○識別
 取得した特長情報を元にパターン辞書の情報と識別し、パターンの判定を
 行う。