学習へのアプローチ 学習の最終的な目標 与えられた環境で、最適な行動をするような内部状態を構築する 環境で最適 > 評価値が高い > サンプルで正解 > サンプルの特徴を利用 > 特徴量 「最適」にするには ? 己を知り、敵を知り、地の利を得れば.. (孫子) 己: 特徴量がどのような振舞いをするか 敵: 評価を高めるには、どのような行動をすべきか 地: 対象とする集団はどのような特徴量を持つか 教師なし : 特徴量が明確で振舞いも評価も判っている 集団の代表値だけ欲い 教師あり : 正解(確実に評価値を高める値) ラベルが与えられている 正解率を高めれば、評価値が上がる 強化学習 : 評価方法が与えられる(サンプリングは後) 評価が高い(学習度が進んでいる)程、難しい課題 (例:ゲームプレイ) 学習内容が制御できない ( cf. シンギュラリティ / 袋小路 )