DWH(データウェアハウス)とは?活用事例・主要製品・導入のポイント
BIやCRMなどデータ分析やデータ統合に役立つシステムが「データウェアハウス(DWH)」です。データベース(DB)のひとつとして企業内にあるデータを集約・統合して、時系列で保管します。
この記事では、DWH(Data Ware House)の定義や活用例、導入メリットなど紹介します。データレイク、データマートとの違い、ビッグデータとの関係性も解説します。
目次
DWH(データウェアハウス)とは
DWH(データウェアハウス)はデータベースの利用形態の一種です。基幹システムなどから様々なデータを時系列に整理・統合して保管したデータの集合やソフトウェアのことを指します。DWH上のデータは削除、更新しないことが特徴です。
分析や意思決定にもよく用いられることからBI(ビジネスインテリジェンス)の一つとして位置づけられることもあります。
データベースとの違い
財務経理や生産管理、販売など目的ごとにシステムが作られ、それぞれデータベースを備えています。それら通常のデータベースとDWHには、どのような違いがあるのでしょうか。
大きな違いにDWHは分析に最適化されている点が挙げられます。保持形式などを定義したうえでデータを統合するため、処理のスピードが高速で、データの抽出や集計がしやすいのです。
また、DWHは一般的なデータベースに比べ、ストレージの容量も大きいです。そのため、データベースの一種でありながら、データウェアハウス(DWH)と個別の名称を付けられています。
また、保管しているデータが現在使用中か否かも、データベースとの違いのひとつと言えるでしょう。ウェアハウスとは英語で倉庫という意味があり、データウェアハウスは現在使用していないデータを保管しておく倉庫のようなものと考えるとわかりやすいでしょう。そのように、現在使っているデータがいつでも取り出せる状態にあるデータベースとは区別して考えられています。
ビッグデータとの関係
事業活動に付随して、大量のデータが生まれています。オンライン上のログデータやSNS上の口コミ情報、売買や取引などの記録、IoTなどを利用した製造現場のデータなど、ありとあらゆる領域でデータの収集・蓄積が可能になりました。そのようにデータの規模が拡大してきたこととDWHの発展は無関係ではありません。むしろ、そのようなビッグデータを分析し活用してくためにも、日々データを蓄積する保管場所が求められているのです。
データには様々な形態や規模があり、従来の管理システムでは記録・解析・保管が困難なほど巨大なデータ群をビッグデータと呼んでいます。量が多いだけでなく、種類も形式も異なるデータが含まれている状態です。
一方、DWHに保管されているのは処理済みデータです。そのため、画像や音声、テキストなどの収集にはデータレイクが適していることもあります。DWHは、ビッグデータを分析できる環境を持っていますが、状況によっては、違う種類のデータ基盤が必要となるのです。
DWH(データウェアハウス)の要件
ここでは、DWHの要件についてみていきましょう。DWHを定義づける要因としては、以下4つの条件を満たしている必要があります。
サブジェクトごとに整理される
DWH上のデータは、サブジェクト(subject)によって分類されています。データをまとまりごとに整理して、タイトルを付けてまとめているため、内容による検索がしやすいのが特徴です。
データを統合している
DWHは、フォーマットの異なる様々なデータを集約して保管します。データごとに型や値の形式が違っていると単なるデータ置き場でしかなくなりますが、分析用のIDなどと紐づけ整理して保管してあることが重要です。
ラベルの統一など名寄せを行い統合されたデータを保管するのです。
データが時系列である
DWHに保管されているのは、処理済みの過去データです。データは時系列に整理されていて、いつのデータなのかがわからなければなりません。時系列で整理されたデータは、過去の状況把握が容易です。
データは消さない・更新しない
DWHに保管してあるのは過去のデータですが、記録を消さずに保管しておくことが重要です。更新することもなく、保管したときのままにしておくことで有効活用できます。ただし、場合によっては長期間経過したデータを一部消去することもあり得ます。
DWH(データウェアハウス)を利用するメリット
DWHを効率的に活用するにあたって、メリットとなることを認識しておきましょう。
データ収集を効率化できる
DWHには、例えば企業の各部署の過去データが一同に集められています。そのため、会社全体でデータを分析しようというときも部署ごとに保管していたデータを持ち寄り整理する手間がかかりません。
データの型や定義が明確なため、必要なデータをすぐにまとめて使えて便利です。各部署の担当者が寄り集まってデータ収集や加工する必要もなく、データ分析専門の担当者が集中的に作業できるメリットもあります。
データを高速で処理できる
大量のデータを高速で処理できる点もDWHの利点です。データを削除せず時系列に扱うには大容量のストレージが必要ですが、DWHはその要件をみたすのと、すでに分類されているDWHのデータは、改めて加工・分類する必要がありません。
様々なデータソースから収集したデータをあらかじめ定義づけしているためまとめて高速で処理できます。ラベルで分類された内容ごとに処理することもできるため、目的の業務をスムーズかつスピーディーに済ませることができるでしょう。
データの履歴を参照できる
時系列で全データが残されているDWHでは、データの履歴を参照できて便利です。いつどのような処理が行われたのかを確認し、総合的な分析ができます。仮にデータが更新された場合でも、元データも保管するのがDWHの特徴です。元データと更新データの比較もDWH上で行えます。
意思決定に活用できる
DWHが提唱されたとき、もう1つ定義されていたのが意思決定のためという点です。意思決定するためにデータ集積をするのがDWHの役割で、何か決める際に分析に使用できるデータが集まっている保管倉庫がDWHです。
DWH(データウェアハウス)の活用例
ここでは、DWHの活用例を3つ見ていきましょう。
CRM
顧客との関係を管理するCRMでは、多量のデータを保管しておかなければなりません。顧客の個人情報も購買履歴も保管してあるDWHは、誰がどのような商品やサービスを好むのか傾向をつかむのに便利です。受発注のスピードやコールセンターの対応を改善するときにも、購買行動がデータで残されていると自社のマーケティングで効果的に活用できます。
BI
BI(ビジネスインテリジェンス)とは、組織がデータに基づく意思決定をするためのサポートを意味しています。ビジネスのパフォーマンスを最適化するために必要なデータ収集・保存・分析から方法まで様々なことが含まれます。BIツールはDWHで収集したデータを分析したり可視化するのに役立ちます。
ETL
DWHを活用するとき、大きな役割を果たすのがETLです。ETLは抽出・変換・書き出しを行うシステムのことで、各所に散らばったデータを収集してDWHに保管できるように変換し、DWHに書き出しすることで分類しやすいデータにしてくれます。DWHに保管しておくデータ規模が大きくなるほど、ETLの働きは欠かせないものとなってきます。
データマート、データレイクとの違い
ここでは、データマートやデータレイクについて、DWHとの違いや関係を紹介します。
DWH(データウェアハウス)とデータマートとの違い
データマートは、DWH内のデータから必要なものを抽出したデータベースです。例えば、売上情報・社員情報・在庫情報が保管されているDWHから売り上げ情報のみ抽出されたとき、そのデータは売上データマートとなります。小規模な組織では、DWHとデータマートが同じ役割を果たしていることもあります。
DWH(データウェアハウス)とデータレイクとの違い
DWHとデータレイクの違いは、データの活用目的にあります。データレイクに保管されているのは、データソースから収集したそのままのデータです。DWHと違って何のために収集されたかが定まっておらず、ストレージ容量が多いという特徴もあります。ビッグデータとして解析されることも多いデータです。
DWH(データウェアハウス)の主要製品
ここでは、DWHの代表的な製品について見ていきましょう。
Oracle Exadata
Oracleデータベースに最適化されたDWHが、Oracle Exadataです。徹底した効率化を目指し、従来の10倍以上のパフォーマンスを発揮しながらデータ量は10分の1に圧縮可能です。Oracleのライセンスを流用できる点も重宝されるポイントです。
SAP BW/4HANA
SAP社が2016年にリリースしたDWHで、データ処理基盤にインメモリーデータベースのSP HANAが採用されています。これにより、処理速度が飛躍的に向上しているのが特徴です。データを保管するだけでなく、大量のデータを分析するために役立つDWHでもあります。
Amazon Redshift
AWSの各種サービスと連携させるなら、便利なのがAmazon Redshiftです。選べるノードタイプは3つで、DS2はHDDを使用するストレージ重視タイプ、DC2はSDDを使用するコンピューティング重視タイプ、RA3はSDDとS3が連動してコンピューティングとストレージケーリングを最適化するタイプです。それぞれ利用料金も異なります。
BigQuery
クラウド型のDWHとして、低料金から利用できるのがGoogleのBigQueryです。運用方法は自由度が高く、標準SQLや地理空間データ型にも対応しています。ODBC・JDBCドライバは無償で提供され、外部ツールとの連携にも優れたDWHです。
DWH(データウェアハウス)導入のポイント
DWHを導入するにあたっては、どのような点に着目すればよいのでしょうか。
処理スピード
データ量が多くなるほど、分析処理に時間がかかります。時間短縮も目的として生まれたのがDWHです。処理スピードが高ければ、最終的な意思決定にも最速でたどり着けるでしょう。サンプルデータでのパフォーマンス検証を行うなど、速度を確認してからの導入をおすすめします。
分析の柔軟性
分析処理の操作が簡単なだけでなく、柔軟性があるかどうかも重要です。高度な専門スキルを持っている人のみが扱えるのでは、常にその担当者がいなければDWHを使えないことになります。操作で求められるスキルのレベルには注意しておいた方が良いでしょう。
拡張性
DWHに保管するデータがどのくらいに拡大していくのかを見越して、導入する製品を選びましょう。拡張性が高ければ面倒な手続きなく、日々増えていくデータ量に対応できます。拡張した場合、どのくらい費用がかかるのかについてもチェックしておくことをおすすめします。
AIを仕事にするためのキャリアノウハウ、機械学習・AIに関するTopics、フリーランス向けお役立ち情報を投稿します。