統計解析・データ分析
分析基盤環境を用いて分析・レポーティングを行い、ビジネス上の問題解決や改善提案を行います。分析では「データを用いてビジネス上重要な知見を得る」といったことを支援したり、レポーティングでは、「KPI(Key Performance Indicator)を意思決定者に見える化すること」などを行います。
データサイエンティストは、統計解析の知見をいかし「仮説と実際のデータが矛盾していないかの検証」「様々な分析手法を活用しデータに当たりその結果を解釈していく」といった業務に携わります。
機械学習のビジネス導入支援
主に、SIer・ITコンサルやデータ分析の受託企業のデータサイエンティストが行う業務です。データ分析やビッグデータ活用などの開発やデータ基盤の整備をパッケージ化し、クライアント企業での導入支援までを提供する際の要件定義やデータ設計、モデルの検討などを担当します。
PoCから運用まで機械学習や統計アルゴリズムによる最適化を活用し、ビジネス上の問題・課題の解決策立案、その導入の支援、コンサルティングなどを実施します。
データ基盤設計・構築
ビッグデータ分析や機械学習にはデータが必要です。分析目的や課題に応じた適切なデータソースを選定し、分析基盤を整えるといった業務もデータサイエンティストの仕事の一部です。
業務では、システムログ、アクセスログなど社内に存在するデータから、SNS・ブログなど外部の情報ソースまで、分析目的に応じたデータを適切な形式で収集し、HadoopやMySQL、NoSQLなどのデータベース環境を構築・運用します。また、Amazon Redshift、BigQueryなどのデータウェアハウス(DWH)、データレイクといった基盤にデータを蓄積するシーンも増えてきました。
また、蓄積したデータについて、BI(Business Intelligence)ツールや、Hiveなどのようなデータ操作環境を構築・運用する場合もあります。