今回は、データレイク、データウェアハウス、データマートについて、説明します。前提として、これらの言葉は、完全に決まった定義があるわけではありません。ケースによって様々な使われ方がありますので、それぞれの意味を憶えるというよりは、ざっくり理解した上で、これらの用語が出てきた際には、どのような意味で使われているかを都度確認するのがよいでしょう。
なお、過去に開設した、データ、データベースについては以下を参照ください。
データレイク(Data Lake)とは
データレイクは、様々な形式のデータをそのままの形で保存しておく大規模なデータストレージのことを指します。その最大の特徴は、構造化されているデータ(データベースの表など)だけでなく、非構造化データ(画像、動画、PDFファイルなど)や半構造化データ(JSON、XMLファイルなど)も、そのまま格納できる点にあります。
言わずもがな、レイク(Lake)は湖という意味です。湖は広大で、多種多様な生物が生息している水域です。このイメージをデータレイクに当てはめると、様々な形式や形状のデータ(非構造化、半構造化、構造化)を、そのままの形で”広大な範囲にわたって保存する場所”と考えることができます。あらゆる種類のデータが原形のまま保存される、”何でもアリ”のストレージだと理解したらイメージしやすいかもしれません。
データウェアハウス(Data Warehouse)とは
データウェアハウスは、企業の様々なシステムから収集されたデータ、特に構造化データを、統合・整理・保存するためのストレージです。データレイクの状態からデータウェアハウスを構築するには、構造化・正規化・クレンジング・統合・集約などのプロセスを経ることになります。
ウェアハウス(Warehouse)というのは、倉庫のことです。倉庫は物品を整理して保管するための場所で、物事をシステマティックに整理・分類します。名前からして、データレイクよりも、特定の目的に合わせて整理されたストレージだとイメージしましょう。
データマート(Data Mart)とは
データマートは、データウェアハウスからさらに派生した概念で、特定のビジネスユニットや部門向けに特化したデータのサブセットを提供します。例えば、営業部門向けなら受注明細・売上明細などのデータマートが活用されることが多いですし、財務部門、生産部門なでも、それぞれ特定の分析やレポート作成に必要なデータのみを抽出し、管理することが特徴です。
マートというのは市場や小売店のことです。マートはさまざまな商品を特定のカテゴリーごとに整理して顧客に提供します。ファミリーマートのマートです。データウェアハウスが大型業務スーパーだとしたら、各部門専用の小売店のようなものだと理解すると良いかもしれません。
コメント