データサイエンティストに数学は必要?データサイエンスのおすすめ本・入門書籍
データサイエンティストに転職したり、就職して活躍するために、数学の知識はどの程度必要なのでしょうか。また、数式や計算が苦手な文系出身者でもデータサイエンティストになることはできるのでしょうか。
この記事では、データサイエンスに必要な数学の知識レベル、統計・数学を学ぶおすすめ本などを紹介します。
目次
データサイエンティストに数学は必要?
データサイエンティストになるには理数系の人が有利、数学が得意でないとなるのは難しい職業と思ってあきらめようとしている人がいるかもしれません。
しかし、その考えは漠然としたイメージから来ているものではないでしょうか。
ここでは、データサイエンティストになるために数学が必要なのか、必要ならどの程度必要なのかを見ていきましょう。
データサイエンスと数学は不可分
データサイエンスはデータ分析の専門分野です。研究においても実務においても、統計学、数学、コンピュータ処理を組み合わせて、データから意味のある情報や法則、パターンなどを導き出します。
データサイエンスの最終的な目的は、分析したデータを基にビジネスなどで合理的な判断をするためのサポートをすることです。数学が全てではないものの、データを分析するために必須の知識といえるでしょう。
数学の中でも統計分野が重要な位置を占め、データサイエンティストを目指すなら大学初等教育程度の知識は最低限つけておく必要があります。
データサイエンスと数学は不可分、つまり密接な関係にあり、切り離しては考えられない分野といってよいでしょう。
役割やレベルに応じた数学の知識が求められる
ひと口にデータサイエンティストといっても、担当する業務内容や期待される役割はそれぞれ異なります。極端な例をあげると、AIモデルの作成やアルゴリズムを調整するような業務と、コンサル提案や分析・レポートなどの業務とを比較すると後者の仕事では前者ほどに高度な数学知識を必要とされないでしょう。
また、未経験から転向したばかりのジュニアレベルと棟梁クラスと呼ばれるシニアレベルとでも最低限必要とされる数学知識の水準は異なるでしょう。
一般的に、キャリアや実力がある人ほど高いレベルの業務をこなすことができ、チームリーダーなどの役割を担当するかもしれません。逆にまだキャリアが浅かったり実力が不十分だったりすれば、ハイレベルな実力者から指示を受けて作業するのが精一杯となる可能性があります。
これはデータサイエンティストも同様です。キャリアアップしていくためには、レベルに応じた知識が必要になることも理解しておきましょう。
データサイエンティストに必要なスキルと知識
ここで、データサイエンティストに必要なスキルを挙げてみます。データサイエンティストに必要不可欠なスキルは、プログラミング・数学・ビジネスの知識・その他クラウドなどの技術です。それぞれどのようなスキルが関係してくるのか、解説していきます。
プログラミング
データサイエンティストに必要なスキルとしてまず挙げられるのが、プログラミングです。プログラミングの役割は将来的にはコンピュータが果たしてくれるとも期待されていますが、そのようなことが実現するまでは人の知能が頼りです。
Python、R、Juliaといったデータ分析に使用する言語のほか、C#、C++、Javaなどの言語でアプリケーションをを動かすこともあります。機械学習などのアルゴリズムを使用したり理解するためにはプログラミング作業にも数学的知識が必要になります。
機械学習
データサイエンティストには機械学習のスキルも必要になります。機械学習と一口に言っても教師あり学習、教師なし学習などがあり、それら一つ一つを理解し習得していかなければなりません。特にデータ分析などにおいても機械学習が用いられることがあるため、データサイエンティストとして活動していくには必須のスキルと言えるでしょう。
機械学習のスキル習得を効率的に進めるのであれば、「AIジョブキャンプ」がおすすめです。AIジョブキャンプに登録すると、現役のデータサイエンティストによる機械学習のオンライン講座が無料で受講できます。AIジョブキャンプとは社会人向けの「AI教育講座」と業務委託の案件紹介をする「エージェント」サービスがセットになった無料の研修プログラムです。登録料や利用料などはかかりませんので、まずは登録だけでもいかがでしょうか。
数学
数学の分野からは、統計学の他に線形代数や確率統計の知識が必要になります。統計学は、どのようなデータをどのように分析するべきか判断するためにもデータサイエンティストには必須の知識といえるでしょう。統計学を理解するためには確率統計の基礎が出来ていなければなりませんから、数学では確率統計も学んでおくことが大切なのです。線形代数はといえば、プログラミングを理解するために必要になってきます。さらに、最適化の勉強もしておくと役立つでしょう。
ビジネス
データサイエンティストが活躍するシーンは、多くがビジネスの場です。データを活用して事業に貢献するためには、ビジネスへの理解が必要です。それも、一般的なビジネス知識に加えて課題の対象であるビジネスについても専門的な知識があるほど有利になります。ロジカルシンキングやドキュメンテーションスキル、プレゼンテーションスキルといった能力も求められます。
その他クラウドなどの技術
IT知識として、データエンジニアリングに関する知識も持っていたほうがよいでしょう。ビッグデータの分析には、コンピュータに高い負荷がかかります。これを解決するのに役立つのが、クラウド技術です。充実してきたクラウドサービスをいかに活用するか、安全性や利便性などを踏まえて選ぶセンスもあったほうがよいでしょう。
統計学や数学はどのくらい理解すればよい?
統計学や数学の知識がデータサイエンティストに不可欠とわかったところで、気になるのはどの程度のスキルが求められるかではないでしょうか。データサイエンティストへの道をあきらめないためにも、必要なスキルのレベルについて認識しておきましょう。
数理モデルを表す数式を読み解ける
データサイエンティストは、数理統計モデルを仕事で用います。ただし、スクラッチでモデルを一から構築するような業務は少なく、ライブラリやフレームワークを利用する機会がふえています。
例えば大量のデータに隠れたパターンを見つけ出したいとき、学習済みのモデルを使えば効率よく作業を進めることができます。その際、精度やロジックを調整するのに数式を読み解く程度の知識は必要です。
統計的な検定や確率を理解してパラメーターをチューニングできれば調整されたアルゴリズムを使いコンピュータが計算をしてくれます。
さまざまな場面でAIが利用されるようになっているのもデータサイエンスのインフラやさまざまなリソースが普及してきているからこそです。
アルゴリズムの使い分けはある程度勉強が必要
機械学習やディープラーニングなどのアルゴリズムを用いてデータ分析をおこなうと、大量のデータを分析に利用できるメリットがあります。
しかしその一方で慎重にならなければならないのは、課題に対してどのようなアルゴリズムを採用するかやモデルをつかいわけるには、数学や統計手法の理解が重要になります。
課題に対して最適なアプローチ方法を選択をすれば、解決もスムーズに進むでしょう。様々な統計手法の中から課題ごとに使い分けをする知識も必要になり、これには勉強や経験が欠かせません。
前提となる確率統計、線形代数、最適化を学ぶ
身に付けておくべきスキルが多いデータサイエンスの分野ですが、数学の範囲で学んでおきたいことをまとめると3つに集約されます。
確率統計は、統計学の前提となる科目です。線形代数はプログラミングの理解のために、最適化は一歩進んだデータサイエンティストを目指すなら学んでおきたいところ。
ただし確率統計や線形代数に比べると難易度は高まるため、まずは大学初等教育レベルの確率統計と線形代数を理解したうえで最適化の勉強に入ることをおすすめします。
データサイエンスに必要な数学知識
次にデータサイエンスで必要な数学知識がどのように用いられているのか、統計学・線形代数・最適化に分けて見ていきましょう。データサイエンティストになるために必要だからと漠然と勉強するよりは、どの部分で必要となるのかを知っておいたほうが勉強しやすくなります。
統計学
統計学は、現状を可視化して将来の予測をすることを目的としています。この2つの側面を両立させるためには、平均・分散・標準偏差といった統計的数値を最初に押さえておくことが重要です。統計的数値を推定するのに必要な母集団・標本集団などの考え方や確率分布についても、学習が必要です。確率分布の範囲が広いと感じたら、最低限として正規分布を押さえておきましょう。
線形代数
アルゴリズムの理解やデータセットの処理などには、線形代数を理解しておくことが必要です。大学の初等教育レベルでよく、高校数2や数Cなどで学習するレベルともいえます。行列の計算やデータ処理をするとき、その基本的概念や演算方法を学ぶ線形代数が身についているとアルゴリズムの理解がスムーズです。
最適化
仮説・分析・検証を繰り返すのが、データサイエンティストの仕事の中心です。これにより最適な解決法を求めるわけで、課題の最適化はデータサイエンスの仕事につきものと思っておいたほうがよいでしょう。このため身につけておきたいのが、最適化数学です。他の数学科目より難易度は高くなりますが、良いテキストで学習すれば力をつけていけます。
データサイエンスに必要な統計・数学のおすすめ書籍
ここでは、データサイエンティストの数学におすすめの本を紹介します。データサイエンスに必要な統計学や数学を学習するためにどの書籍を利用すればよいか迷ったときは、ここでおすすめする書籍を参考にしてみてください。
入門統計解析法
永田靖・著「入門統計解析法」は、統計解析の全容がわかる書籍です。統計解析の基礎的な手法が様々なアプローチで解説されていて、高校レベルの数学知識があれば理解できる内容になっています。統計学の土台を作るには、最適なテキストといえるでしょう。
多変量解析法入門
永田靖・棟近雅彦の共著である「多変量解析法入門」は、「入門統計解析法」の後に学習する書籍としておすすめです。多変量データを解析するために必要になるのが多変量解析法ですが、これを簡単な例を用いて解説しています。回帰についてや主成分分析など、基礎的な部分は特にしっかり理解しておくことが大切です。
データ解析のための統計モデリング入門
久保拓弥・著「データ解析のための統計モデリング入門」は、モデルの作り方について学べる書籍です。統計モデルの基本的な考え方が身につき、ベイズ統計モデル化する方法も学べます。数理モデルの表現方法に慣れていない人にもわかりやすく書かれているので、初歩的な知識をつけるのに頼りになります。
はじめてのパターン認識
平井有三・著「はじめてのパターン認識」も、初学者向けにわかりやすく解説された書籍です。ただ、数式展開で進行していくため、ある程度はパターン認識について勉強してから取り組んだほうが理解しやすくなります。
プログラミングのための線形代数
平岡和幸・堀玄の共著となる「プログラミングのための線形代数」は、データサイエンティストになりたい人のためにあるような書籍です。ターゲットをプログラミングする人に絞っているのがポイントで、無駄なく線形代数を学ぶことができます。
プログラミングのための確率統計
「プログラミングのための線形代数」と同じ著者によってまとめられた本で、一般的な数学の確率統計学習書とはアプローチが異なっています。動作させるプログラムを例にして確率統計を理解できるように表などを使って解説されているので、数学で確率統計が理解できなかった人にもわかりやすいでしょう。
これなら分かる最適化数学
金谷健一・著「これなら分かる最適化数学」は、サブタイトルに基礎原理から計算手法までとあるように最適化の基礎理解から方法までがわかるようになっているのが特徴です。データサイエンスの分野で必要な最適化手法の原理についても、解説されています。
データサイエンティストになるには?
データサイエンティストの勉強を進めるのと同時に準備していきたいのが、実際にデータサイエンティストになるための方法です。スキルを身につけることはもちろんですが、データサイエンティストとして働くためにどのような方法があるのかを紹介しておきましょう。
転職エージェント・求人サイトを利用する
データサイエンティストは、国が学習を奨励するほどニーズのある職種です。転職エージェントや求人サイトにも求人情報が多く、人材が不足しています。
高いスキルや実務経験を求められる求人もある一方で実務経験は問わない求人もあるため、当たってみる価値があります。
具体的にどのような人材が求められているかがわかるのも、転職エージェントや求人サイトを利用するメリットの一つです。
データサイエンスを学べるプログラミングスクールに通う
プログラミングスクールによっては、データサイエンスの講座を修了することで就職の斡旋をしてくれるところがあります。データサイエンティストへの転職を希望する場合はそのような社会人向けのスクールに通ってもよいでしょう。
JDLAのE資格や統計検定などデータサイエンティスト向けの資格取得を目指すコースを設けているスクールもありますから、スキル証明を目的としてプログラミングスクールに通うのも一つの方法です。
フリーランスになる
企業などに就職せず、フリーランスのデータサイエンティストになる手もあります。フリーランスで生計を立てていくには、仕事を得るための営業活動から会計管理までを自分自身でこなさなければなりません。
十分な仕事を得るためには、フリーランスとして仕事を紹介してくれるサービスに登録しておくなどの方法もあります。より確かな技術や信用がモノをいうので、一度は企業に就職して実績を積んでから独立を目指すのもよいでしょう。
AIを仕事にするためのキャリアノウハウ、機械学習・AIに関するTopics、フリーランス向けお役立ち情報を投稿します。