パターン認識の流れ - teruuuのブログ

音声の判定処理をするアプリを作成することになったので、簡単にパターン認識の処理の流れをおさらい。
■パターン認識

パターン認識では、アナログの信号をデジタル化しパターンを
識別する。主に以下の工程でパターン認識が行われる。

アナログ信号　→　前処理　→　特徴抽出　→　識別　→　判定

○前処理
　アナログ信号をデジタル信号に変換する。
　アナログ化する際の標本化数は標本化定理を考慮する。標本化定理
　とは、周波数fの音を再現する場合2fより大きい標本化数で標本化
　しなければ行けないというものである。例えば人間が聞ける音の範囲
　(20Hz ～ 20,000Hz)を再現する場合は40,000Hz以上で標本化しなけれ
　ばいけない。
　また、雑音などのノイズ除去も前処理で行う。

○特徴抽出
　パターンの特注を抽出してマッチングに必要な情報を取得する。正確な
　マッチングを行うためにはパターンの変動に強い正規化された特徴を抽出
　する必要がある。
　例えば、人が発声した"あ"という声でも人事で大きさや高さが異なっている
　のでそれら変動に強い特徴の取得が必要である。
　また、認識したいパターンの対象によっって特徴の取得方法を変えたほうが
　マッチングが正確に行えるようになる。
　
　特徴抽出ではフーリエ変換によって周波数ごとの音の大きさ(スペクトル)が広く
　用いられている。
　また人の声の場合、フォルマントの抽出などがある。MFCCでは、人間の聴覚
　特性(低い周波数では細かく、高い音では荒い)に対応した情報を取得する。

○識別
　取得した特長情報を元にパターン辞書の情報と識別し、パターンの判定を
　行う。