教師あり学習とは?機械学習入門者が理解したい基礎知識を解説
昨今、金融や製造、小売、医療、農業に至るまで、あらゆる分野でAIの活用が急速に進んでいます。多くの企業が競争力強化のためにAIの開発を進めており、AI分野のスキルを持つ人材は不足している状況です。
AI人材の需要が高まりを見せている今、AIの主要技術である機械学習に関する知識やスキルを身につけ、市場価値の高い人材として活躍していきたいと考えている方は多いでしょう。
この記事では、機械学習入門者に向けて、機械学習の基礎知識として理解しておきたい「教師あり学習」について解説していきます。
目次
教師あり学習とは
教師あり学習とは、学習用のデータをコンピュータに与える際に、正解のラベルも一緒に与えて学習させる方法です。
例えば、果物の写真を学習データとして与える場合であれば、その写真がイチゴなのか、ミカンなのかという答えを一緒に与えます。他にも、売上予測をするために、過去の広告出稿量や気温などのデータと共に、正解データとして過去の売上額を与える場合などもあります。
教師あり学習は、機械学習の中で最もよく利用される学習方法です。正解を与えて学習させることにより、正解のないデータが与えられたときに高い精度で予測や分類などを行うことができるようになります。
教師あり学習とそのほかの学習の違い
機械学習の代表的な学習方法には、教師あり学習のほかに、「教師なし学習」、「強化学習」、そして教師あり学習と教師なし学習を組み合わせた「半教師あり学習」があります。
それぞれの手法と教師あり学習との違いについて説明していきます。
教師なし学習との違い
教師なし学習とは、教師あり学習とは逆に、正解のない学習データを与えて学習をさせる方法です。
教師なし学習では、学習データの類似点や規則性をもとにデータをグループ化したり、データ同士の関連性を導いたりします。そのため、教師なし学習は、データのグルーピングや、データに潜むルールの導出などに用いられます。
教師なし学習は、人間がデータを見ただけでは気づくことができない、未知の法則性を導くことができます。一方で、グループ化したデータがどのようなグループなのか説明できない、導かれたルールが現実的に活用しやすいものとは限らないなどの課題が出てくることもあります。
強化学習との違い
強化学習は、正解のない学習データをもとにコンピュータに計算をさせ、その結果の良し悪しに対して報酬を与えることで、報酬を最大化する計算ができるように学習させる手法です。
コンピュータは与えられた報酬をもとに学習し、計算方法を試行錯誤しながら、最適な答えが出せるように知能を向上させていきます。囲碁や将棋などのゲームや、自動運転、エレベーター制御などでよく用いられる手法です。
半教師あり学習との違い
半教師あり学習とは、学習データの一部のみに正解のラベルを付与し、学習させる方法です。
正解ありのデータを少量でも与えることで、残りの正解なしのデータを学習に活かし、モデルの精度を上げることができます。
半教師あり学習は、学習データのうち一部のデータにしか正解のラベルを付与できないというケースで用いられます。教師あり学習を利用したいものの、正解ありのデータを大量に準備するためには膨大な人手や時間がかかってしまうという問題はしばしば起こりうるものです。半教師あり学習は、そのような場面で有用な方法です。
教師あり学習の問題は2つのグループに分けられる
教師あり学習が扱う代表的な問題は、分類と回帰の2つのグループに分けられます。それぞれの内容について説明していきます。
分類
分類とは、あらかじめ定められたクラス(カテゴリ)のうち、入力データがどのクラスに属するのかを予測し、振り分ける問題のことです。
分類における計算の出力例としては、果物の写真データの分類であれば「イチゴ」「ミカン」「バナナ」、異常データの検出であれば「正常」「異常」などになります。分類できるクラスの数に決まりはありませんが、振り分けるクラスの数が2つの場合は二値分類、多数のクラスに分類する場合は多値分類と呼ばれます。
回帰
回帰とは、入力データをもとに、予測したい結果を数値で出力する問題のことです。
回帰は、例えば売上予測のように、過去のデータをもとに学習させ、得られたモデルで未来の数値を予測したい場合などに利用されます。入力データの数が1つの場合を単回帰、2つ以上の場合は重回帰と呼ばれます。
教師あり学習の活用例
教師あり学習は、機械学習の中でも予測精度が高い手法であることから、さまざまな分野で利用されています。活用例としては以下のようなものがあります。
活用例 | |
---|---|
分類 | 電子メールのスパムメール判定 銀行の不正取引検知 退会者の予測 画像判定(画像に写っている動物の判定など) |
回帰 | 売上予測 株価予測 住宅価格予測 故障確率予測 |
スパムメール判定や画像判定は分類に属する活用例です。分類は、特定の事象についての判定や、大量のデータをあらかじめ決められたクラスに自動で振り分けしたい時などに利用されます。
一方、売上予測や株価予測、住宅価格予測など価格に関する予測には、回帰が利用されます。また、工業機器について、温度や圧力などのデータから機器の故障確率を予測することにも活用されています。
教師あり学習のメリット・デメリット
機械学習の手法の中から、教師あり学習を選ぶことにはどのようなメリットがあるのでしょうか。教師あり学習のメリットについて、デメリットと合わせて説明していきます。
メリット
教師あり学習の最大のメリットは、学習データとして正解のデータを与えるため、高い精度のアルゴリズムが得られることです。
また、予測すべき回答のパターンがあらかじめ決められていることから、他の手法と比較して学習のスピードが速いことも利点です。
デメリット
教師あり学習のデメリットは、正解が存在しない分野には適用できないこと、機械学習の精度が学習データの品質に依存することです。
品質が高く、かつ学習に十分な数の学習データを準備するためには、多くの人手や時間がかかることがあります。このように、学習データの準備にコストがかかりやすい点もデメリットとして挙げられます。
教師あり学習が利用できるサービス
教師あり学習を新たに利用したいという場合に、ゼロから機械学習の実行環境を構築するのは、ハードルが高いものです。
環境構築の手間をかけずに教師あり学習を利用したいときの選択肢として、クラウド上に準備された機械学習のプラットフォームの利用を検討するとよいでしょう。
機械学習を実行できる代表的なサービスとしては、AWSであればAmazon Sagemaker、AzureであればAzure Machine Learning Serviceがあります。
いずれも、機械学習のモデル構築、トレーニング、デプロイ、モニタリングといった機械学習のフローをカバーしており、準備した学習データを使って、それぞれのサービスで提供されている教師あり学習のアルゴリズムを利用することができます。
教師あり学習を本格的に学ぶなら
この記事では、機械学習の入門者向けに、教師あり学習の概要を説明してきました。
この先、教師あり学習を含めて機械学習を実践レベルで学び、実務に活かしていきたいのであれば、「AIジョブキャンプ」がおすすめです。
AIジョブキャンプとは、機械学習に関する知識をオンラインで学べるAI教育講座と、案件紹介のエージェントサービスがセットになった、AI人材としての活躍を支援するサービスです。
AIジョブキャンプの無料カウンセリングに参加すると、機械学習の無料講座を受講することができます。
無料講座は、教師あり・なし学習のアルゴリズムから実務への応用までを体系的に学べるカリキュラムとなっており、機械学習をより深く、実践的に理解することに繋がります。
AIを仕事にするためのキャリアノウハウ、機械学習・AIに関するTopics、フリーランス向けお役立ち情報を投稿します。