はじめてのパターン認識

1章

Created by 2GMon

話の流れ

  • パターン認識の流れ
  • パターン認識に用いられる特徴

人間は五感を用いてパターン認識を行っているが、感じた情報そのものを用いてパターン認識をしているのではなく、 情報が何かを判断するために有効な特徴を抽出する段階が存在する

識別:「何か」を判断すること

特徴抽出:「有効な特徴」を抽出すること

識別規則:「有効な特徴」と「何か」を結びつける規則

人間はこの識別規則を学習して、パターン認識を行っている

券売機の例

お金を入れると、真贋と種類を識別する

真贋や種類を判定するには、材質・重さ・大きさなどを測定する必要があり、 このように識別の手がかりとなる特徴量を測定することを特徴抽出という

重さ・大きさ・穴の有無などの抽出された特徴を並べたものを特徴ベクトルといい、 特徴ベクトルを用いて入力されたお金を10円や50円や偽物といったクラスに分類する

分類するための規則を識別規則という

識別規則は入力データが所属する正しいクラスを同定するための規則である

識別規則を作るためには、入力データとそのクラスをついにしたたくさんの事例を使って 入力データとクラスとの対応関係を学習する必要がある

このときに用いる事例を学習データと呼ぶ

学習データに含まれない未知のデータについても正しい識別をする必要があり、このような能力を汎化能力という

抽出された特徴は、非数値データの定性的特徴と、数値データの定量的特徴に大別される

非数値データは名義尺度と順序尺度に細分され、数値データは比例尺度と間隔尺度に細分される

  • 名義尺度:分類のための名前
  • 順序尺度:順序関係を表す。演算はできない
  • 間隔尺度:一定の単位で量られた量。原点は「無」ではない。加減算が意味を持つ
  • 比例尺度:原点が定まっている量。比が意味を持つ

定性的な特徴を計算機状で表現するためには符号を用い、2クラスの場合は{0,1}や{-1,+1}などで符号化する

クラス数が$K(>2)$個の場合は$K$個の2値変数を用意し、クラスに対応する変数のみを1とし、他を0とするような符号化を行う

このような2値変数をダミー変数という

特徴数を$d$とすれば、特徴ベクトルは$d$次元線形空間を張る

256個の2値変数からなる特徴ベクトルを考えると、特徴空間の区画は$2^256$となり、次元に対して指数関数的に増加する

1000個の特徴ベクトルを用意しても、$2^256$個の区画のうちたった一部が埋まるだけである

識別規則を学習するために必要なデータが、次元の増加と共に指数関数的に増加することを次元の呪いと呼ぶ