パターン認識の流れ
音声の判定処理をするアプリを作成することになったので、簡単にパターン認識の処理の流れをおさらい。
■パターン認識
パターン認識では、アナログの信号をデジタル化しパターンを
識別する。主に以下の工程でパターン認識が行われる。
アナログ信号 → 前処理 → 特徴抽出 → 識別 → 判定
○前処理
アナログ信号をデジタル信号に変換する。
アナログ化する際の標本化数は標本化定理を考慮する。標本化定理
とは、周波数fの音を再現する場合2fより大きい標本化数で標本化
しなければ行けないというものである。例えば人間が聞ける音の範囲
(20Hz ~ 20,000Hz)を再現する場合は40,000Hz以上で標本化しなけれ
ばいけない。
また、雑音などのノイズ除去も前処理で行う。
○特徴抽出
パターンの特注を抽出してマッチングに必要な情報を取得する。正確な
マッチングを行うためにはパターンの変動に強い正規化された特徴を抽出
する必要がある。
例えば、人が発声した"あ"という声でも人事で大きさや高さが異なっている
のでそれら変動に強い特徴の取得が必要である。
また、認識したいパターンの対象によっって特徴の取得方法を変えたほうが
マッチングが正確に行えるようになる。
特徴抽出ではフーリエ変換によって周波数ごとの音の大きさ(スペクトル)が広く
用いられている。
また人の声の場合、フォルマントの抽出などがある。MFCCでは、人間の聴覚
特性(低い周波数では細かく、高い音では荒い)に対応した情報を取得する。
○識別
取得した特長情報を元にパターン辞書の情報と識別し、パターンの判定を
行う。