キャリア

データサイエンティストの仕事内容

今回の記事では、データサイエンティストの仕事内容について詳しく解説します。機械学習や統計解析などデータサイエンスの実務が注目されるなか、データサイエンティストが日常業務で携わるタスクや役割に興味がある方も多いのではないでしょうか。

データ分析の企画・実行

データサイエンティストの仕事のひとつにデータ分析やアナリティクスに関する業務があります。この仕事はデータアナリストなど分析職種のほか、コンサルタントやマーケティング出身者も携わることがあり、数理統計に関する知識のほか、ビジネスモデルの把握や事業への深い理解が求められます。それでは、より具体的なデータ分析の実務についてみていきましょう。

ビジネス上の課題や施策に関する原因分析やレポート作成

データ収集や蓄積、調査が進むと、それらを元にビジネス上の課題や施策に関する原因分析やレポートを作成することが重要です。この段階では、細分化したデータを取捨選択したり、KPIに従って整理したりします。また、データサイエンティスト以外の人たちが理解しやすいグラフや表に見える化することも重要です。

マーケティング分野を例にあげると売上や顧客、ウェブサイトへのログデータなどを分析して、次のアクションの指針を作成するなどです。また、広告効果の改善やビジネス上の意思決定に役立つ分析実務を担当することもあります。

統計ソフトやPython、Rなどを使用したデータ分析・仮説構築

データはそのままでは何の価値もないため、仮設を構築したうえで分析を行います。データサイエンティストが行う分析の仕事では、統計ソフトや汎用プログラム言語のPythton、ユーザーフレンドリーなデータ解析・統計プログラミングといわれるRなどが利用されます。統計ソフトなどはあくまで分析や仮説構築のためのツールなので、さまざまな数式や解析方法についての知識があることが前提とされます。そのため、プログラミングやツールの操作方法よりも、統計手法や解析処理などの理解が重視されます。

分析に関するコンサルティング、プロジェクトマネジメント

コンサルティング、プロジェクトマネジメントを提供する受託企業(BtoB企業)も増えています。これらの企業は、法人のクライアントからビジネスの課題解決のためのデータ分析を求められます。このような企業に所属するデータサイエンティストは、クライアントへのヒアリングを通してビジネス上の課題を特定し、分析の要件定義や設計などのコンサルティングを行います。プロジェクトマネジメントを担当する場合は、データ分析プロジェクトを要件に沿って納品するまでを担当します。一般的に、BtoB企業に所属するデータサイエンティストは、自社のデータを扱う場合よりもビジネス寄りの知識やスキルが求められるといえます。

分析環境の設計・構築、データの整備

ビッグデータ分析や機械学習のサービス実装には、分析基盤などの環境構築が必要です。データ活用に積極的な企業では、ITインフラや分析基盤の整備は「データエンジニア」の仕事とされていますが、現場によってはデータサイエンティストが分析環境の設計や構築を担当することもあります。また、前処理やクレンジングといった分析の前工程にあたるデータ準備はデータサイエンティストも日々行う業務として知られています。

こうした業務では、データベース、クラウドに関する知見のほか、システム開発などエンジニア寄りの知識やスキルが求められます。社内に分散するデータを同じフォーマットにそろえ集約するデータウェアハウスやデータレイク、データマートといった分析環境に詳しい人材は重宝されます。また、それらの分析環境に自動でデータが集約するようデータパイプラインを整備することも、この仕事に含まれることがあります。

データ分析基盤・DBの設計・開発

データサイエンティストが扱うデータは基本的にデータベース(DB)に収集します。そのため、データ分析基盤となるデータベースに関するスキルを持つ人が必要です。具体的にはデータベースの運用上の設計を作成したり、スキーマ定義を設計したり、ディスクボリュームを考慮したスペース設計などを行ったりします。データが膨大な場合に過剰な負荷がかからないようにレプリケーションを利用するなど、パフォーマンスに配慮することも求められます。

データ収集・蓄積

データを活用して分析やレポーティング業務に接続するためには、まず、データ収集や蓄積が必要です。たとえば、企業で採用している業務システムやTwitterやInstagramなどのSNSなどからデータを集めます。通常、そのままではデータサイエンティストが扱いづらい形式となっているため、JSONなどデータベースに蓄積しやすい形式に変換する作業も必要です。具体的にはHadoopやMySQL、NoSQLなどのデータベース環境にデータ収集・蓄積を行います。

データ加工・変換(データクレンジング)

データ分析をする前に必要なのが、データ加工や変換をするデータクレンジングという作業です。たとえば、アンケートの数値記入欄には全角・半角など表記ゆれが発生します。こうしたデータを正確にデータベースに取り込むために行われるのがデータクレンジングです。特にビッグデータなどは多様性があるのでそのままでは利用できません。データ形式の標準化やデータクレンジングが重要な作業となるのです。

ビッグデータの解析

ここでは、データサイエンティストが行うビッグデータ解析の例を紹介します。以下にあげた顧客情報やインターネット利用者のデータなどマーケティング分野のほか、金融や医療、スポーツなどさまざまな分野で分析が行われています。今後はIoTなどセンサデバイスから収集したデータ解析にも期待が高まっています。

アクセスログや購買データをもとに顧客分析、行動予測

Webサイトのアクセスログや購買データを元にした顧客分析や行動予測は、顧客関係管理(CMR)とも関係性が強い仕事です。現在は収集できるデータが飛躍的に増加したことから、消費者別のニーズに合わせたマーケティング戦略が重要とされており、One to Oneマーケティングを目指すためにはCMRに蓄積したデータをビジネスの発展に活用できるデータサイエンティストの存在が欠かせません。

TwitterやInstagram等ソーシャルデータを使用したトレンド分析

日々膨大なデータを更新し続けるTwitterやFacebook、InstagramなどのSNSのデータは、ビッグデータに分類されることが多いといえます。これらのデータ分析で重要となる要素のひとつがトレンド分析です。SNS上に投稿されたテキストや画像・動画などのデータを解析し、今現在、どのサイトが多くの人に支持されているのか、どのような情報がたくさんシェアされているのか、投稿ユーザーの属性についてなど分析するのがデータサイエンティストの仕事といえます。また、分析の角度を変えることで新たなニーズを発見できるため、クリエイティブな仕事といわれることが多いのも特徴です。

お客様の声分析(テキストマイニング、VOC分析)

顧客の声(VOC)を重要視する企業が増えています。VOC分析をすることで顧客満足度を高め、リピーターを増やせるからです。現在、急速に普及が進んでいる一定期間の料金を定額にするサブスクリプションのビジネスモデルにおいても、継続して利用してもらうためにVOC分析が欠かせません。データサイエンティストはVOC分析をするために、テキストマイニングという技術を使います。すなわち、構造化されていない顧客の声(大量のテキスト情報など)を単語や文節に分解して、特徴や傾向、相関関係などを抽出するのがテキストマイニングです。

機械学習の実行

ここまでに挙げたビッグデータの解析において欠かせないのが機械学習のスキルです。膨大なデータを取り扱うことになるデータサイエンティストは、機械学習などを用いてデータ解析を進めることになります。そのため、機械学習の基本的な使い方だけでなく、ニュートラルネットワークや決定木やロジスティック回帰などの代表的なアルゴリズムなどへの理解が必要です。

機械学習の知識やスキルを習得するのであれば、弊社が提供している「AIジョブキャンプ」がおすすめです。「AIジョブキャンプ」では、現役のデータサイエンティストによる機械学習講座がオンラインにて無料受講できます。登録料や受講料などは完全無料ですので、まずは登録だけでもいかがでしょうか。

数理統計モデルの作成、開発・実装

AIエンジニアや機械学習エンジニアと呼ばれるデータサイエンティストの仕事に、統計解析、機械学習などのモデリングやアルゴリズムに関する業務があります。統計解析や機械学習などの数理モデルをインプットしておくことで、AIにデータを解析させ、特徴や傾向を抽出させることが可能になります。また、AI自体がデータ分析することで行動パターンやルールを抽出するディープランニングを可能にするのも、AIエンジニアや機械学習エンジニアの作成した数理モデルです。

検索/レコメンデーション

Amazonでは検索履歴や購入履歴を元に、ユーザーごとに最適化された広告が表示されます。これはレコメンデーションの一種であり、対象者にとって価値あるサービスを個別に提示しています。ユーザーの属性情報や閲覧履歴などから個別にレコメンデーションするには、データサイエンティストによるデータ分析が必要です。現在では、ユーザーのアクションによってリアルタイムでレコメンデーションを変える技術も採用されています。

売上予測・需要予測

担当者の勘や経験でしていた売上予測や需要予測を、データを活用することによって、より正確に行うのもデータサイエンティストの仕事です。たとえば、流通業における在庫の最適化、旅行やイベントの来客数予測、新商品開発の売上予測などを行っています。BtoB企業のなかには、コンサルタントからシステム開発までトータルソリューションを提供している会社もあります。

異常検知

異常検知とは、おおまかにいえば大多数のデータと違う振る舞いを発見することです。たとえば、クレジットカードの不正使用を検知することなどが異常検知にあたります。機械などの異常検知と違う点は、クレジットカードの使用自体は異常な行動とはいえないことです。しかし、ユーザーの住居や月々の使用金額などの傾向がデータ分析からわかっていれば、異常な行動として検知できます。異常検知技術で最も有名なものはホテリング理論です。こうした統計モデルの知識を持つ人が、データサイエンティストとして採用されています。

最適化

最適化とはある条件の枠内で、成果を最大にすることを意味する言葉です。データサイエンティストの仕事には、大きく分けてアルゴリズム分析系とアドホック分析系の仕事があります。アルゴリズム分析系はプログラム言語を用いて最適な方法を見つけるため、ITエンジニアに近いといわれている仕事です。一方、アドホック分析系はマーケターやコンサルタントに近い職種とされています。リアルタイムでデータを取り込んで市場調査やビッグデータを処理させて最適化を行い、レポートや提案を行うなどが仕事です。

データの見える化、自動化

分析基盤に集約したデータや統計解析の結果を事業部門や経営層が利用するにはデータの見える化や可視化が必要です。また、AIによる業務自動化も進んでいます。それらデータ利用の社内啓蒙やAIのビジネス利用を推進する役割をデータサイエンティストが担うこともあります。

BIツール導入、KPIのダッシュボード化

BIツールとはビジネスインテリジェンスツールの略であり、データ分析から意思決定までを迅速にするために利用します。BIツールの機能は多岐にわたっており、複数のデータの統合や連携、データの集計や分析、目的によってデータを見える化する、などがあります。一般的には、市販のBIツールを導入して自社用にカスタマイズするのがデータサイエンティストの仕事です。たとえば、目標達成度を示すKPIをダッシュボード化して、意思決定をサポートできるようにします。

Web広告の予算配分・入札などの最適化

投下した広告費用に対する売上などの成果や期間ごとの推移、商品・ブランドなどの認知や購買、アクセスログなどのデータを元に、Web広告の予算配分を最適化する、あるいはそうした仕組みを開発・実装するのもデータサイエンティストの仕事です。広告担当者の判断などに役立つ調査やレポーティングを行うこともあります。また、月予算や認知度を高めるなどの目的を決めるとCPAやROASを最適化したり、コンバージョンを最大化したりする自動入札システムのアルゴリズムにも、データサイエンティストが関係しています。

オペレーションの自動化

機械学習や深層学習などのAIによるデータ分析を応用して業務効率化や自動化を推進する技術も進んでいます。しかし、機械が扱いやすいデータ構造は、必ずしも人間が理解しやすいわけではなく、誰もが利用できるためには使いやすいインターフェースに落とし込んだり、業務利用に組み込むためのシステム開発が必要です。それらの設計やかじ取りを推進する役割としてはアーキテクトやコンサルタントのような立ち位置が求められます。また、一部の専門家にしか理解できない複雑な数理モデルを簡単なオペレーションに落とし込むための開発なども、データサイエンティストの仕事のひとつです。

まとめ

この記事では、ビッグデータを扱うデータサイエンティストの仕事について紹介しました。ビッグデータの特性として挙げられるのは「3つのV」、すなわちVariety(データの多様性)、Volume(データ量)、Velocity(データ生成速度・頻度)です。Varietyによって総合的なデータ分析が、Volumeによって従来予測が難しかったインフルエンザや気象予報などの分析が、Velocityによってリアルタイムのデータ分析・活用が可能になります。

本文中で解説した通り、データ分析や統計モデリングなど数理統計に関する仕事のほか、分析基盤の設計やKPIの可視化などデータサイエンティストの仕事は多岐に渡ります。また、ビッグデータを利用してビジネス上の成果につなげる方法も無数に存在します。その一方で、データサイエンスや統計を利用して何をしたいのか、何を知りたいのかを明確にできないとデータ分析の仕事は非効率になりかねません。そのため、目標や分析課題を整理できる人材が求められています。

また、機械学習やデータ活用の導入が進むなか、企業が求めるデータサイエンティストへの需要として、よりエンジニアリングの知見が求められる状況になってきました。実際の職場では分業がすすんでおり、分析や開発のチームにはデータサイエンティストのほか、データアナリストやデータエンジニア、DevOpsエンジニアなど複数の役割をもったエンジニアが協業する体制が組まれています。

関連記事Related Posts