ビッグデータ分野には、頭を悩ませるような専門語が膨大にあり、スプレッドシートで用語集を作るなら項目が無限に続きそうだ。そのなかでも、企業が新しく理解しておくべき言葉が、「データレイク(data lake)」です。大量のデータを効率的に保管する方法を探している企業なら、データレイクを検討すべきです。
ビッグデータ分野には、頭を悩ませるような専門語が膨大にあり、スプレッドシートで用語集を作るなら項目が無限に続きそうです。そのなかでも、企業が新しく理解しておくべき言葉が、「データレイク(data lake)」です。
大量のデータを効率的に保管する方法を探している企業なら、データレイクを検討すべきです。ただし、そうしたプラットフォームを構築するにはコストがかかり、アナリストが巨大なデータの集積から必要な情報を見つけるのが困難になる可能性もあります。
今回の「一問一答」シリーズでは、このデータレイクの要点を取り上げます。
Advertisement
――データレイクとは何ですか?
データレイクとは、各種データの大きなかたまりを、本来のフォーマットのままで保管しておく「データの貯水湖」です。
――なぜ重要なのですか?
ほかのデータプラットフォームではたいてい、データを固有の構造に適合するよう整形して、はじめて保管できるようになります。たとえば、データウェアハウスは行と列で構成されたデータしか受けつけず、通話記録のような非構造化データは通常アップロードできません。
一方のデータレイクは、データの構造にかかわらず、データを元の形式のまま取り込みます。つまり、データレイクは通話記録のような非構造化データを取り込めることだと、アドビシステムズ(Adobe Systems)の製品マネージャー、トレバー・ポールセン氏は説明します。あらゆるフォーマットを取り込むことで、データレイクはより多くのデータを扱えるのです。
こうしてデータレイクの導入企業は、「すべてのデータを保存しておき、あとからその用途を見つける」ことが可能になると、データ管理会社セマーキー(Semarchy)のCMO、マイケル・ヒスキー氏は述べています。
――どんな企業がデータレイクを使うのですか?
理論上は、多種多様のデータを組み合わせて活用したいすべての事業者が該当します。メディアやマーケティング企業が代表格ですが、大学、病院、企業全般で有効活用できるはず。
――具体的にはどのように使われているのですか?
例として、一般消費財を扱う企業が、多種多様なソースから得たデータの分析に取り組むことを考えてみます。特定の広告が実店舗の売上を促進したかどうかを判断するために、広告サーバーから得たユーザーIDや閲覧データといったさまざまなデータフォーマットと、自社の出荷データを組み合わせることが可能でしょう。
「アナリストから『これこれの情報からデータセットを作りたい』と依頼されるとき、データレイクならすべてのデータを保管しておけるので、一層容易に作業できる」と、デマンドサイドプラットフォーム(DSP)のターン(Turn)でマーケティングサイエンスサービス担当VPを務めるマックス・ナイト氏は述べています。「以前は、そうした情報はそれぞれ異なるシステムに存在していた。データレイクはより普遍的なアクセスを実現する」。
――そうした使い方は、データ管理プラットフォーム(以下DMP)とかぶるのでは?
ある意味そうです。ただし、DMPはユーザーとメディアに関連するデータ、たとえばクッキーIDやオーディエンスセグメントなどを中心に構築されています。それに対し、データレイクはより包括的で、ロジスティクスや生産といった問題に関するオフラインのデータも含めることができる、とナイト氏は指摘します。
――Dropboxの巨大なフォルダと何が違うのですか?
純粋に保管だけを考えれば、大きな違いはありません。しかし、一般消費者向けのファイルホスティングサービスと違って、データレイクは「SQL」「R」「BigML」「Python」といった分析ツールを数多く提供しているため、アナリストは大量のデータポイントを素早く精査できると、ポールセン氏は述べています。
――頼もしいですね。欠点はありますか?
コストです。マイクロソフトの「Azure(アジュール)」のようなクラウドサービスで100テラバイトを保管すると、月額費用はおよそ3000ドル(約34万円)になるでしょう。データレイクはまた、「Apache Hadoop」のような無料のオープンソースソフトウェアで構築することも可能ですが、その場合もデータレイクを構築するWeb開発者への支払いが必要です。
もうひとつの欠点は、データの積み過ぎでしょう。データレイクを導入しても、蓄積したデータで何をするのかを考えなければ、ビッグデータはまったく役に立たないのです。また、大量のデータが一元化されることで、アナリストが必要なデータを探すのに手間取ってしまうおそれもあります。
「なんでもかんでも保管すると、問題を解決できる真の分析を見失いがちになるし、さらに悪いことに、永久に見つからなくなるかもしれない」と、アドテクの独立コンサルタント、マイケル・コリン氏は警告しています。
Ross Benes (原文 / 訳:ガリレオ)
Image from Getty Images