読者です 読者をやめる 読者になる 読者になる

分析方法調査

分析

○主成分分析

主成分分析とは
主成分分析は多くの変数を持っているデータを少ない変数、通常は2つ~3つの
変数に縮約してデータを分析する際に多くもちいられている

x1, x2 の変数が合った場合に z1=ax1+bx2となる合成変数z1を作成することにより
変数を減らしている

1.2主成分分析の基礎
n個の個体(データ数)、p個の変数により構成されたデータセットXn*pがあるとする
このp次元のデータをより低いk次元に集約するには以下の変換を行う
z1 = a11x1 + a21x2 + ・・・ + ap1xp
z2 = a12x1 + a22x2 + ・・・ + ap2xp

zj = a1jx1 + a2jx2 + ・・・ + apjxp

zk = a1kx1 + a2kx2 + ・・・ + apkxp

合成変数ができるだけ多くの情報量を持つようにするため、データの散らばり具合(分散)に着目します。分散=情報量といえるからです。
そのためにはΣaij^2=1になる制約を付けた上で最大になるzjを求める
制約条件によりラグランジュの乗数法を用いることができる

○因子分析
扱うデータの形式が主成分分析と基本的に同じであることから似たような場面で利用される
主成分分析では夢想間の合成変数を求めることで多くの変数を少ない変数に縮小するが、
因子分析で変数間の相関関係から共通因子を求めることで、多くの変数を共通因子にまとめて
説明する
主成分分析は合成の分析であるのに対し、因子分析は分解の分析といえる。
因子分析を使う目的としては以下2つがあるといわれている
・少数の説明要因に話をまとめるため
・(調査対象者の)回答の奥に潜む要因をまとめるため

因子分析で得られる指標
因子負荷量
→各変数と各因子の相関を表す。
共通性
→各変数と因子空間の相関を表す(各変数が因子軍によってどれだけ説明できるかを示すもの)。
0から1の値を取り、道擬かれた因子群で全て説明できるときに1になる。
銃相関係数の2乗を用いて共通性を推定すると、共通性は各因子負荷量の2乗和になる
寄与率:
→ある因子がどの程度の説明力を持っているか割合を表す。

○対応分析(コレスポンデンス分析)
対応分析の考えは、行列(分割表)において、行項目と列項目の相関が最大になるように、行と列の双方を並び替えることです。
対応範囲は広くローデータからでもクロス集計表からでも分析ができる。ブランドイメージの分析などで頻繁に用いられる。
結果に対しては以下の注意が必要
・軸に意味づけをした方が、結果の解釈がしやすい。この場合、意味がつけやすいように軸を回転させてもよい。
・関連の強いカテゴリは近くに、弱いカテゴリは遠くにプロットされるが、これはあくまでカテゴリ間の相対的な関係で、絶対的なボリュームを表わすものではない。
・縦軸の目盛りと横軸の目盛りはあわせた方がよい。そうしないと距離を見誤ることがある。
・ただしこのとき、縦軸と横軸の選んだ軸の固有値(あるいは寄与率)に注意する必要がある。
・クロス集計表から作成しているので、サンプルサイズは結果に反映されない。サンプルサイズが少ない際には注意が必要。(ブランドイメージを質問するときなど、認知者だけに質問すると、ブランドごとのサンプルサイズが異なるので注意する。例えば、Aブランドは認知者が10人で、5人が「はい」と答えて50%、Bブランドは認知者が100人で、50人が「はい」と答えても50%で、この差は結果に反映されない。)
・異なる項目、例えば前の例では、飲料と飲用シーンのカテゴリの位置関係は、原点からの方向で判断する。原点から見て同じ方向にあれば、一見距離があっても、同様の意味づけが可能である。

データの構造を再現する面では主成分分析より効果が劣るが、パターンを分類する面では主成分分析よりよい結果を示すケースが多い。
分割表の独立性の問題では、通常カイ2乗統計量を用い、これにより行列の変換処理を行う。

・多重対応分析
アンケート結果の分析を行うときに、回答結果の変換表(未記入だったら0にするとか)を使って分析することを多重対応分析と呼ぶ

対応分析は結果が図になってやりたいことのイメージはつきやすいが、それを求めるためのアルゴリズム複数存在する。

○多次元尺度法(MDS)
複数の異なる手法の総称のこと。
例えば各地点間の距離を表す表があったとしたら、その表から各地点の2次元座標軸を割り出しそのデータに基づいてデータ解析を行う。
ブランド同士が似ているかどうかという度合いをポジショニングマップを作ってあらわしたりもする。
各地点の距離を現す表から2次元座標軸の表であれば最適なアルゴリズムを選んで実施すればよいが、ブランドイメージなどであれば
まずブランド間の類似度をどうやって求めるのかが課題になりそう。
mdsのインプットとしては各データ間の距離(類似度)データは持っておく必要がある

・非軽量MDS
距離の性質を持たない類似性データを視野に入れた場合のMDS

クラスター分析
異なる性質のものが混ざりあっている集団(対象)の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類する。
分類方法として距離・あるいは類似度を用いる階層的クラスター分析、指定したグループの数に基づいてグループ分けする
k平均法、確率分布を仮定したグループわけがある。

・階層的クラスター分析
個体間の類似度あるいは非理事度に基づいて、最も似ている固体から順次に集めてクラスターを作っていく手法
樹形図で洗わせられるのでどのように階層が分けられているのかわかりやすいが、分類数が多くなるとk平均法に
比べても計算量が大きくなるというネックがある。

分析プロセスは以下のようになっている
1.データから距離(あるいは類似度)を求める。
2.クラスター分析の方法(最近隣方、最遠隣法など)を選択する
3.選択された方法のコーフェン行列を求める
4.コーフェン行列に基づいて樹形図を作図する
5.結果について検討する
コーフェン行列とは、個体間の距離を要素に持つ行列である。

クラスター分析の方法には以下のようなものがある
・最近隣法
・最遠隣法
・群平均法
・重心法
・メディアン法
・ウォード法

・非階層的クラスター分析(k-means)
階層的クラスター分析に比べて複数の個体をグループにまとめて、グループ間の距離(類似度)を使うことで
高速に処理を行えるようにしている。

k平均法の大まかな流れは以下になる
1.k個のクラスター中心(seed)の初期値を適当に与える
2.全てのデータをk個のクラスター中心との距離を求め、最も違いクラスターに分類する
3.形成されたクラスターの中心を求める
4.クラスターの中心が変化しない時点までステップ2,3を繰り返す

○自己組織化マップ
教師データを持たないニューラルネットワークのパターン分類方法
高次元データを2次元平面状へ非線形射影するデータ解析方法であり、
多次元尺度法、クラスター分析法として用いられている

自己組織化マップ(SOM:Self-Organizing Map)のプロセス
1.入力xjと出力層の全てのユニットと比べ、もっとも類似しているユニットを
探し出し、そのユニットを勝者とする。
2.探し出したユニット及びその近傍のユニットの重みベクトルmiを更新する。
3.全ての入力の特徴ベクトルxj(j=1,2,3...n)に対して1,2を繰り返し実行する。

○線形回帰分析
1つの説明変数を用いる単回帰分析、複数の説明変数を用いる重回帰分析、
変数及びモデルの選択、変数の相互作用を考慮したモデルなどある

重回帰分析で、注意すべきことは、本来説明変数間は独立であるべきという仮定です。
説明変数A、B間に相関が高いと、目的変数は、Aによって説明されるのか、Bによって説明されるのか判然とせず、
適切な偏回帰係数が求められません。これを、多重共線性(マルチコリニアリティ)といいます。
多重共線性は、偏回帰係数の符号が逆転することなどによって発見されることが多いのですが、説明変数間の相関行列を
調べることで発見できます。

非線形回帰分析
まず非線形モデルとは線形も出る以外のもののことであり、線形モデルは目的変数を説明変数の線形関数で表現するモデル
である。データによっては対数変換のような変換により非線形のデータを線形にすることも可能。

ロジスティック回帰ではy=a/(1+be^(cx))であらわす
多項式回帰はy=a+bx+cx^2+dx^3のようにあらわっされる

・一般化線形モデル
→線形回帰分析では残差が正規分布に従うと仮定していたが、一般化線形モデルは正規分布に従うことを保障せず
正規分布を拡張した分布族に対応させ非線形の現象を線形モデルの場合と同じく簡単に扱えるようにする。
線形モデルではXを説明変数、Yを目的変数、Aを係数、Eを誤差行列としてY=XA+Eで表せられる。一般化線形モデル
では非線形関数をg(μ)=XAに変換し線形も出るとして扱う。

○線形判別分析
目的変数が質的データである教師データを用いる判別分析及びパターン認識のもっとも木補填的な方法
判別分析は個体がどのグループに属するかが明確である学習データを用いて判別モデルを構築し、そのモデル
を用いて所属不明の個体がどのグループに帰属するかを判別する方法。
判別分析は線形判別分析と非線形判別分析に大別される。

非線形判別分析
非線形判別分析では二次関数を用いた判別分析方法、距離による判別法、多数決による判別分析法、
ベイズ判別分析法などがある。

○生存分析
イベントが起きるまでの時間とイベントとの間の関係に終点を当てる分析方法
工学分野における機械システムや製品の故障、医療分野における疾患の病気の再発
や死亡などを対象とした研究分野である

○時系列
時間と共に変動する現象に対して時間の順序で測定、観測した結果を記録したデータを時系列データと呼ぶ。
日常生活の中では株価及び為替レートのような金融・経済データなどで用いられる

○樹木モデル
非線形回帰分析、非線形判別分析の1つの方法であり、回帰問題では回帰木、分類問題では分類器あるいは
決定木と呼ばれている。

樹木モデルの基礎
CHAID(CHi-squared Automatic Interaction Detection)は分岐基準としてカイ2乗統計量やF統計量などが
用いられている。
C4.5/C5.0/See5は分岐の基準として利得比を用いている。

分類木(決定木)
分岐点の計算にジニ係数またはエントロピーを用いている

回帰木
回帰木で用いる分類基準は、実測時yiとセルの平均値μ[i]との差の2乗の和である。