Created by 2GMon
システムが学習データに過剰に適応してしまうと、学習データに対する識別率はほぼ100%になる
しかし、未知のデータに対する識別率は低いものになってしまう
簡単な方法だが欠点がある
システムの性能を向上させるには、性能が低い箇所を特定する必要がある
特徴空間上で各クラスが適切に分離されているかを確認する
二次元データならプロットできるが、多次元の場合なんらかの評価尺度が必要
$\sigma_W^2$が小さいほど、同じクラス同士はまとまっていて、 $\sigma_B^2$が大きいほど、異なるクラスは離れている
$J$が大きいほど、特徴空間上で各クラスを分離できている
3クラス以上の場合、特定のクラス同士が重なっていても他のクラスが離れていれば大きくなる
相対的によい特徴空間ということしか分からない
2クラス$\{\omega_1, \omega_2\}$の識別問題において、特徴ベクトル${\bf x}$が与えられた時、 ベイズ判定規則が誤る確率は$e_B({\bf x}) = min\{ P(\omega_1|{\bf x}), P(\omega_2|{\bf x})\}$
これを全ての${\bf x}$について積分したものがベイズ誤り率 $$ \begin{array} e_B & = \int e_B({\bf x}) p({\bf x}) d{\bf x} \\ & = \int min\{ P(\omega_1|{\bf x}), P(\omega_2|{\bf x})\} p({\bf x}) d{\bf x} \end{array} $$
$e_B$は分布の重なりを表しているので、理論的にはこれ以上誤り確率を小さく出来ない
SVMやニューラルネットワークで学習するべき重みの数は、識別器の構成が決まらなければ定まらない
識別関数の次数やニューラルネットワークの中間層の数などが、識別器の構成を決める
このようなパラメータをハイパーパラメータと呼ぶ
ハイパーパラメータとパラメータは同時に学習できないので、 ハイパーパラメータ毎にパラメータを学習して最適なハイパーパラメータを決定する