国内に300人のデータ専門家を抱え経営とデータ分析をつなぐサービスを提供する、デロイトアナリティクス日本統括責任者の矢部誠氏は「データの前処理などが自動化されることで、データサイエンティストの仕事は高度化する。サイエンティストは分析結果を、ビジネスサイドが理解しやすい洞察に変えていく必要がある」と主張した。
企業にとってデータ分析の重要性が増していることは既知の事実。近年は人工知能ブームにより企業の投資は上向いていると言われ、「IoT」のバズワードでその重要性が高まっていくと考えられる。
企業がデータ分析をビジネスに取り込む過程で、データのサイロ化やビジネス側による分析の評価など課題も出てきたが、どう乗り越えるか。国内に300人のデータ専門家を抱え経営とデータ分析をつなぐサービスを提供する、デロイトアナリティクス日本統括責任者の矢部誠氏は、DIGIDAY[日本版]の取材に対し、こう主張した。
* IoTで重要なのは必ずしもデータの絶対量ではなく、データの質の向上とバラエティの広がりにより、分析の精度が向上し対象を拡大できること
Advertisement
* 人工知能やロボティクスの活用により、データ分析の前処理などが自動化されることで、データサイエンティストの仕事は高度化する。データサイエンティストは、ビジネスサイドが分析結果をアクションにつなげられる洞察に変えていくために、より積極的に関与する必要がある
* 企業内のデータは縦割りの組織体制に対して意外なほど従順であり、社内の政治的要素や不文律などに左右され、サイロ化しがちだ
* データマーケットには可能性がある。ただし、特にプライバシーに関連したデータの共有や売買はデータを提供する人々に「気持ち悪い」という感情を抱かせない形にしないと、受け入れられないだろう
*日本のマネジメント層に求められるのは、イノベーションを進める人やチームが動きやすいよう、しがらみに縛られない組織横断的なサポート体制を構築し、彼らと一緒に、それまでに積んできた経験による勘とサイエンスを融合させることに挑戦することだ
IoTで重要なのはデータのバラエティ
IoTではデータ量の爆発が話題にされることが多いが、矢部氏は重要なのは必ずしもデータの絶対量ではないと指摘する。
「常にデータは分析の処理容量を上回る大きさで存在し続けています。そのトレンドは昔から変わっていません。分析は許容時間内に結果を導出するためのデータ量、計算量との戦いであり、コンピューティングパワーやストレージキャパシティを常に上回るデータが生成されています。そういったトレンドの中で、2000年代はサーバーなどの計算機単体で処理できない計算量やデータ量を賄うために分散処理を導入しました。その後、コンピューティングパワーが一層高まったため分散環境を統合し、企業は環境を仮想化しています。そして、今度はネットワークを介した分散処理技術が確立され、クラウドストレージが急速に発達したためクラウドに集約してきました」。
「現在におけるトレンドはIoTの進展と拡大で、データを生成するスピードと量に対する要求が再びクラウドで賄いきれない状況になっており、『どうデータをクラウドに上げるのか』という課題に対して『エッジの部分でデータを処理する』(エッジコンピューティング)となってきています。この大きな流れはデータ分析環境がデータウェアハウス、データマート、FPGAを活用した並列処理基盤、Hadoopなどの分散処理基盤、クラウドコンピューティング、エッジコンピューティングというトレンドで統合化と分散化を繰り返しながら、『データをいかに吸収するか』ということ課題に取り組んでいるといえます」。
「産業機器に搭載されたセンサー(IoT)が1ミリ秒ごとに生成する稼働情報があったとして、その利用目的によっては1ミリ秒単位で処理することが必要なものだけではありません。1秒間に1000個ログが出てきたとしても処理が必要なのは、毎分、毎時かもしれませんね。そうすると今度はデータを間引く技術が必要になります。必要なデータや粒度を選別して分析に最適なデータを生成する(間引く、集約する)ためにエッジコンピューティングが有益な側面があると思います」。
洞察、分析のために最適な量でデータを揃えることも非常に重要になる。データの量というよりはデータのバラエティ、属性情報が豊かになっていくなかで分析できるものの可能性や精度がかわっていく、と矢部氏は説明した。
分析者の仕事はどう変わる?
分析結果はビジネス側に「説明」されるものだ。人間はおおむねストーリーで物事を理解する。
「分析し導出した結果について、『説明しにくい結果』であったり、『アクションにつなげにくい結果』であることがあります。機械学習などを活用して目的変数に対して最も有効な説明変数を選択することは正しいアプローチですが、それが実社会や経済活動において説明力に足るものなのかどうか、ビジネス上のアクションにつなげられるかどうかが重要です」。
「ディープラーニングのような技術により、分析者の思考によらず分析における特徴量の抽出自体も自動化されてきていますが、例えばクラスタリングを行ったそれぞれのクラスタに対して意味づけをするのは、依然として人が行っています。この状況はまだしばらくは続くでしょう」。
データの前処理から分析までの自動化が実現すると、分析者が多くの時間を割いている、データ分析にかかる時間が相対的に減り、結果的に本来データサイエンティストに求められる仕事にフォーカスできるようになる、というのだ。では、得られた分析結果とビジネスをどうつないでいくのか。
「誤解を恐れずに言えば、多くの日本のデータサイエンティストは『高度な分析をやりたい人』であり、『ビジネス課題を解決したい人』は、まだまだ少ないと思います。我々に求められているのは、分析した結果をいかにビジネスで活きる価値にまで昇華できるのかということです。複雑な処理や計算について機械化や自動化が進んでいくなかで、分析結果を洞察に変えていくことが、これからのデータサイエンティストには一層に求められています」。
課題:企業データのサイロ化
縦割りの組織内でデータがサイロ化すると、企業は有効なデータマネジメントを打てなくなる。Via GettyImage
「データ活用を進めようとすると大抵、データの精度問題に直面します。この宝の山であるには違いない資源を利用可能にするために、壮大なデータマネジメントプロジェクトを立ち上げて解決しようと決めても、途中で会社を買収したり、新しいシステムを入れたりすると、最初に決めたプランが陳腐化していきます。こうした状況に陥るのは決して珍しいことではなく、むしろ企業における日常です。強い意志を持ち、データの生成がされる現場の末端までデータマネジメントの体制を整備し続けない限り、なかなか解決しません」。
「データを生成するのは、現場の方です。業務のプロセスはビジネスの状況に応じて合理化・効率化を目的に変化し、これに伴い蓄積するデータは変化していきます。当たり前のことなのですが、データをためるために仕事をしているわけではないにもかかわらず、データを集める側はそれを忘れがちです」。
「データを活用しようと、マスターデータマネジメントを整備したり、チーフデータオフィサーを置いたりしていますが、結局、誰がデータをもっていて、誰が活用するのか、誰がそのためのコストを負担するのかといった課題に対する解は、社内の高度な政治や力関係の産物になっています。したがって多くの場合トップダウンでないとデータマネジメントの問題は解決しません」。
企業内のデータの取り扱いは、社内の政治的要素や不文律に大きく左右されるという。
「取引先からのFAXによる受注は、受信側で手入力が発生し、誤入力を発生させるので止めようとしたとします。オンラインの受発注システムへ変更すれば転記における誤入力がなくなるうえ、システム化されることで取引先として登録されているかどうか、いつ注文されたのかも分かるようになり、メリットばかりのように見えます。しかしながら、実現のためには取引先と折衝する営業部門での調整、企業間での力学、組織をまだいたステークホルダーが多く絡むため、導入へのハードルは低くありません」。
「情報システム部門がデータマネジメントの導入を推進しようとしても、他部署の責任者からは『それで、いくら儲かるの?』という質問をされると、答えづらい部分があります。データ生成元となる部門に埋もれている無駄な時間やコストを削減できるかもしれませんが、データマネジメントプロジェクト単体で定量的にそれを示すことは難しいといえます」。
データマーケットと「気持ち悪さ」
データを売買するデータマーケットがより大規模で実現すれば、イノベーションの素地になる可能性がある。
「『データは第四の経営資源』といわれています。部門間でさえデータのやり取りが難しい現状ではありますが、自社では生成・収集できないデータがデータマーケットで提供されることで、そこから大きな価値が生まれます。製造業のようなB to B企業がどのような自社製品の購入者にどのような顧客像を見出すべきなのかは雲をつかむような話でもありましたが、小売事業者がID-POSの購買情報を提供することで、「誰が買っているのか?」という問いの答えにかなり近づくことができます。」
「一方で、買って使う側の課題としては、『似ているが異なるデータ』がたくさんあり、どんなデータをどのように利用するか判断することが難しいという点が挙げられます。AとBの似たデータを取得したとしても、データの粒度や鮮度が異なると『揃わないデータ』になってしまい、分析に利用するまでの処理に多くの時間を割くことになります。また、AとBでオーバラップするデータがあり、必要な分だけでいいので100万円で済ませたいと思っても、重複分を含めると150万円払わないといけず、コスト効率が悪いなどということも発生します。そういったことを回避するために、データベンダーに『欲しいデータを作ってくれないか』という話をしますが、彼らにしても『データを作る』コストが高く、必ずしもビジネスとして成り立つケースばかりではない状況です」。

デロイトアナリティクス日本統括責任者の矢部誠氏
「特に、『個人の情報を、いかに理解を得られる形式で商売につなげることができるのか』という問題は依然としてデータマーケットにおける大きな課題です」。
データ分析を経たビジネス上のアクションは、分析に活用した個人が特定される形で利用されることは、ほとんどない。にもかかわらず、個人に関連するデータの極端な利用事例だけが広く取り上げられることで、世の中の拒否反応を引き出している部分がある。
「少しでも感覚的に『気持ち悪い』使い方だと思われてしまうと、感情的な反応を招くことになります。ミレニアルやそれ以降の世代は、『生活が便利になれば、個人に紐づくデータを活用されてもいい』と前向きです。一方で、異なる世代になると、ポイントカードは使わずデータを収集されるのはクレジットカードだけが良い、と思う人もいます。『自分のことは、自分だけの秘密にしておきたい』という感情は誰もが持っているもので、いかに、この感情に反しない形でデータ活用を行うのか、そのフローを設計していくことが重要です」。
サイエンスとビジネスの融合
「外資系でよくあるのは、社長にしろ商品開発のプロにしても、比較的短期間の任期で替わっていってしまうことです。このような環境では、データの指し示す合理性を基に、説得していくことが不可欠です」。
「一方で、旧来の日本の経営者は、長く同じ会社に所属しているため、自社の商品や従業員のことをよく知っています。また、いろいろな部署を経験しているため、会社の中で行われている業務を広く理解しています。そのため、データ分析においては対立軸とされがちな経験や勘の精度が高いことが多いです」。
日本の経営者層の多くを占める50〜60代の年代は、サイエンスと長年の経験を橋渡しすることを後押しするのが役割だという。
「初期段階ながら、科学分野で先行する理論や技術が、ビジネスの課題解決に活かされる事例が次々と出てきています。デロイトでは、科学分野とビジネス分野におけるアナリティクスのツール、手法、プロセスなどの融合が爆発的に進む兆候が十分に出揃っていると考えています」。
「日本の企業経営者の皆様にお願いしたいのは、『会社が変わっていくなかで自分らでは計り知れないものが急速に入ってきていることを認める』ということです。データの活用、イノベーションをドライブするのは難しいとしても、それを進める人やチームを組織横断的にサポートすることが、積んできた経験による勘とサイエンスを融合させるためになくてはならない活動であり、かつ、トップにしかできない役割だと思います」。
Written by 吉田拓史
Image by GettyImage