明日のマーケティング: 「ビッグデータ」のビッグ（Big）は「ビッグマック」のビッグとは違う。でも、やっぱり、数（量）は力なり・・なのだ。

　ビッグデータ（Big Data）が流行語になっている。ＮＨＫの「おはよう日本」でも話題として取り上げていたから驚いた（ビジネスマンをターゲットとした夜のＢｉｚスポならわかるけど・・・）。ビッグデータをテーマにした記事も多いが、「データの話ならなんでもビッグデータというタイトルをつければ注目される」的な発想で書かれた内容も多い。

　たとえば、コンビニ大手のローソンが三菱商事が運営しているポイントカード「ポンタ」との連携に本腰をいれている・・・といった記事。　

コンビニ大手のローソンは２０１０年から共通ポイントカード「ポンタ・カード」の採用を開始。１年で、ローソンの売上のうちカード会員が占める割合は35%になった。ＰＯＳデータに誰がその商品を買ったかの顧客を識別するデータが組み合わされることにより、有益な情報が得られるようになってきている。たとえば、新商品を出したときに、同じ顧客が２回以上購買したかどうかのリピート率がわかるようになった。それによって、この商品は短命に終わる確率が高いとか低いとか需要予測をして在庫を調整することが可能になった。

ポンタの会員数は２０１１年末で３５００万人くらい。ローソンの購買客でポンタ・カードを利用する客は３００万人くらいだと推定される。このくらいのデータ規模でこのくらいの分析なら、カタログ通販企業が２５年以上前にやっていた。

　これくらいのことを、ビッグデータのくくりで書かれると、ちょっとこけそうになる。

　もっとも、ローソンはYahoo! Japanと提携して、ヤフー会員のネット上での行動履歴データとポンタ会員の購買履歴データとを重ね合わせて、スマホでの販促に利用するという。そういった活動が本格化すれば、ビッグデータという言葉にそってくるかも。

　現在世界中にあるデータの９０％は過去２年間に創造されたものだといわれる。つまり、そのほとんどがインターネット関連で生まれたものだということです。ケータイ契約者は世界中で５９億人、インターネットにアクセスしている人は２０億人。そして、そういったひとたちが、ネットにアップロードするデータ量は毎年増大するばかりです（２００９年に１人当たりがアップロードしたデータ量は３年前の１５倍になっているそうです）。　

　ネットを通じて入ってくるデータは、顧客データやＰＯＳデータのように、コンピュータが計算しやすいように表形式で整理し管理できるものばかりではありません。文字列や数値データで表形式に管理できる「構造化データ」は、米ウォルマートやeBayのデータウェアハウスのようにテラバイトやペタバイト（テラバイトの１０００倍）の大容量になっても、リレーショナルデータベースシステムで管理されているのがフツ―です。

　が、ネット上にあるデータは、ウェブページやサーバーへのアクセスログや、ソーシャルネットワーク上のコメント、写真、動画のような「構造化データのようには管理できない、あるいは、しにくいデータ」です。また、Suicaのような乗車カード、　Edyのような電子マネー。自動車のカーナビやGPS機能付きケータイからもたえまなく新しいデータがはいってきます。こういった「構造化データ」でないデータは、現在、企業がもっているデータの80%に達しているといわれます。

　　そういった意味で、次のような例をみると、「ああ、ビッグデータだ！」と思うわけです。

クチコミ分析で有名な（株）ホットリンクがホットスコープという株価動向を予測し投資アドバイスをする子会社を設立した。この会社は、２００８年からの過去３年分のクチコミデータ（フェースブックやツイッターでのコメント、ブログ記事、２チャンネルへの投稿など）６８億件を蓄積。こういったクチコミデータと株価動向との関係性を分析した結果、数十万件のキーワードの組み合わせにより、当日の日経平均株価の騰落との相関性をある程度導き出した。２００９年末より実際に少額を試験運用したところ、年率換算で投資額が1.6倍になる運用益を達成したことから、投資助言をする会社を設立するとともに、実際に資産運用をするファンドも立ち上げた。
自動車保険会社は、これまでは、性別、年齢、住所、どのくらいの頻度でどのくらいの距離を運転するかとか、過去の事故歴などの情報に基づいて保険料を決めていた。だが、自動車に搭載したＧＰＳ機能つき機器を通じて、運転手一人ひとりの運転習慣を知ることで保険料を変えることができるようになった。最初に、一定期間内の一定走行距離数を想定して保険金額を支払ってもらう。その後、自動車につけられた機器から、運転距離数、スピード、突然ブレーキをかけたりコーナリングをしたり危険度の高い運転している、ブレーキをかけないでどのくらいの距離を走行しているかなどといった運転データがリアルタイムで入ってくる。そのデータにもとづいて、安全な運転をすれば、それだけ保険保証距離がのびる。保険料がそれだけ割安になるので、運転手が安全運転をする動機づけにもなる。

　「ビッグバン」みたいにカッコづけで「ビッグデータ」という言葉を最初に使ったのが誰かははっきりしません。ただ、２００１年に発表されたＩＴ調査会社ガートナーのレポートで、ビッグデータの３要素が明確にされ、その後、多少言葉がちがっていても、この３要素でビッグデータが定義されるようになっています。①　大容量（Volume）　②　さまざまの種類のデータ（Variety）　③　速さ／リアルタイム性（Velocity）の３つのVです。

　「３つのＶはビッグデータの定義」と書きましたが、正確には、「今後しばらくの間、この３つの問題を解決してくれるようなテクノロジーを、企業は必要とするであろう」という、ガートナーからITベンダーへのアドバイスだといったほうがよいかもしれません。

　ビッグデータを支えるテクノロジーを開発したり、実際に発展させてきたのはネット関連企業です。誰よりも早く、上記３つの問題に直面したのですから、当然の成行きだといえます。

　たとえば、Ｇｏｏｇｌｅは世界で３６か所にデータセンターをもっており（２００８年現在）、合計９０万台のサーバーをつかっている（２０１１年現在）といわれます。９０万台のサーバーというとびっくりですが、一つ一つのマシンは性能もそれほど高くないフツ―の安価なものです。でも、たとえば、プログラムを分割して同時並行的に複数のコンピュータ上で実行させる。複雑な計算をネットワークを介して複数のコンピュータにふりわけ、同時並行的に処理させることで、仮想的に非常に高価なスーパーコンピュータをつかっているかのように、大量のデータを高速に処理することができます。データ量が多くなればサーバーを付け足せばよいという融通性もあります（サーバーの数を２倍に増やせば、データ処理時間は半分になるといわれます）。

　こういった分散コンピューティングのやりかたによって、ペタバイトのデータを高速で、しかも以前よりコスト安に処理することが可能になりました。でも、従来のリレーショナルデータベースは分散処理にはあまり向いていません。だいたいにおいて、増大するばかりの非構造化データはリレーショナルデータベースシステムでは効率よく処理できません。そこで、Googleは「世界中のありとあらゆる情報を集積する」という自分たちの目標にあったデータ処理をしてくれるソフトウェアフレームワークMapReduce（マップリデュース）を開発しました。（MapReduceをつかって１０００台のサーバーで１ペタバイトのデータを個々のサーバーにふりわけ６８秒で処理できたそうです）。

　Googleは２００４年にMapReduceの特許を申請し、ソースコードやファイルシステムを除いて、そのアリゴリズムだけは公表しました。

　その論文をよんだ当時Yahooの社員だった人が、同じアルゴリズムをつかって大規模の構造・非構造化データを処理・保存できるソフトウェアフレームワークを開発し、自分の息子の象のぬいぐるみの名前をとってHadoop（ハドゥープ）と命名しました。Hadoopは非営利団体アパッチソフトウェア財団からオープンソフトウェアとして無料で提供されています（Apache Hadoopのトレードマークは黄色い象です）。

　YahooやFacebookも２００６年からHadoopを採用。オープンソースであるために、その後、多くのITベンダーがHadoop対応のソフトやツールを、続々と開発し販売するようになっています。ビッグデータは業績をあげるビッグチャンス！　IT産業は久しぶりに活気づいています。

　ＮＨＫまで朝の番組で特集をくむほど騒がれる結果となっています。

　でも、マスコミでとりあげられることによって、これまでデータやデータ分析の価値を無視しつづけてきた日本の企業経営者が、関心をもってくれるようになればシメタものです。米大学MITが大手企業１７９社を調査したところ、データに基づく意思決定している企業は生産性が5~6%高くなることが判明しているのですし・・・。

　ちなみに・・・Googleが２００４年に申請したMapReduce並行プログラミングモデルの特許は２０１０年にみとめられました。「もしかしたら、Googleは自分たちのアルゴリズムを基本としているHadoopを特許侵害で訴えるのではないか? 」・・アパッチソフトウェア財団だけでなくHadoopを使って新しいソフトやツールを開発した企業はちょっと心配したようです。が、Googleにはそのつもりはないとわかり業界は一安心したということです

　で（やっと）・・・、本題の「数は力なり」の話にうつります。

　データ量がとてつもなく大きいということは、これまでとは１８０度異なる発想の転換が起こることもあります。たとえば、私が「目からウロコ！」と思ったのがGoogleの翻訳サービスです。

　グーグルの翻訳サービスは、コンピュータに翻訳をさせようという過去４０年間の試みを、全く無視したというか、まったく異なる発想から生まれたものです。

　これまでのやり方は、人間に外国語を教えるのと同じようにコンピュータに教えようとするものでした。まず言語構造を理解させる。つまり、文章の中のどこに名詞がありどこに動詞があるのか？　現在形なのか過去形なのか？　はたまた過去完了形なのか？　こういった文法というルールを定義づけ、それをコンピュータにプログラムするという言語学と人工知能の問題だったわけです。

　つまり、言葉の意味と言葉をむすびつける文法のルールを人間である翻訳者が理解したように、コンピュータにも教えこもうとしたわけです。

　でも、グーグルは、この問題を、膨大なデータ量とデータ処理能力で解決できる数学の問題だと考えました。どうしたかというと・・・。

欧州委員会の公文書は２３か国語に訳されているのだが、当然のことながら、非常に正確で優れた翻訳となっている。それに加えて６か国語に訳されている国連会議の議事録も使用した。コンピュータに各言語のルールをおぼえさせるのではなく、こういった公文書をスキャン入力し、どれとどれが同じである確率が高いか統計的推定をさせたのです。一つの言語のある言葉や語句は、他の言語のどの言葉や語句と同じである可能性が高いと判断できるようにさせたのです。コンピュータに入力した文章を理解させる努力をあきらめ、原文とそれを翻訳した文章をできるだけたくさん入力して、統計的先例にもとづいて、言葉や語句が正しい確率を計算するシステムにしたのです。

　９０年代初めにIBMも同じことを試みました。英語と仏語で記録されているカナダの国会が持っている公文書をつかったのです。でも、このときは、数百万くらいの公文書しかなかったために、良い結果が得られずプロジェクトは中止となった。Googleは数十億の公文書をスキャンし、最初につくられたシステムでは２兆個の言葉をデータ処理したそうです。

　いまでは、５０か国語を即時に訳す。もちろん、その完成度には問題も多々あります。が、入力する文書が多くなればなるほど、精度はよくなるはずだとGoogleは考えています。

　「いや、これ以上良くはならないだろう」と、Googleの今の方法の限界を指摘する専門家も多くいます。が、Googleのリサーチディレクター、ピーター・ノービッグの次の言葉は、ビッグデータに対するひとつの真理を語っていると思います。

　「充分な量のデータを集めれば、いくつかの比較的シンプルな統計アルゴリズムで、自動翻訳のような機械学習の分野での難問も解決することができる」。

　こう考えるのは「世界中の情報を体系化すること」をミッションとしているグーグルだけではありません。アマゾンの元チーフサイエンティストも、「（伝統的企業が考えもしなかったような膨大な購買者データを、新しいネット関連企業はもっています）・・・こういったデータがあれば、アルゴリズムを改善するよりももっと良いシステムを構築することができます」と言っています。

　グーグルのリサーチディレクターは、また、「昔は、コンピュータのメモリーがいっぱいになったときが限界だったが、今は、データセンターがいっぱいになったときが限界だ」とも言っています。つまり、生データを保存する能力が発展したことが重要だといっているのです。アマゾンのベゾスＣＥＯは「顧客データを何年間保存しますか？」と聞かれて「永遠に」と答えています。ビッグデータとよばれるデータ革命はデータ保存能力の拡大と低価格化がもたらしたものなのです。

　データは垂直軸（時間）においても水平軸（空間）においても集積されることによって威力を増すのです。

　２０１２年１月にスイスの保養地ダボスで開催された世界経済フォーラム年次総会「ダボス会議」でも、ビッグデータはテーマのひとつとしてとりあげられました。報告書「ビッグデータ、ビッグインパクト」には、データは、株、債券や現金のように経済資産のひとつとなったと書かれています。

New!　「ソクラテスはネットの無料に抗議する」を出版しました。内容については⇒ をクリックしてください。

参考文献：　１．「つぶやき分析で相場予測」日経産業新聞1/5/12、2.Ameet Sachdev, Insureres try basing rates on individual cars' data, Los Angeles Times 10/10/11, 3. Rich Miller, Report:Google Uses About 900,000 Servers, Data Center Knowledge, 8/1/11, 4. Derrick Harris, Why Hadoop Users Shouldn't Fear Google's New MapReduce Patent, Tech News and Analysis 1/19/10, 5. Tim Adams, Can Google bread the computer language barrier? 12/19, 10, 6. Aaron Claassens, Google's research chief: The power of big data, Transcurve, 5/10/11 7. Clicking for gold, How internet companies profit from data on the web, The Economist 2/25/10, 8. George Lawton, Distributed data-analysis approach gains popularity, Computing Now February 2010 9. Why big data matters to companies in retail and media, A straightforward guide for business folk February 2012, Keplar LLP, 10.Richard Macmanus, The Coming Data Explosion, The New York Times, 5/31/10, 11.Rachael King, Getting a handle on big data with Hadoop, Bloomberg businessweek, 9/7/11, 12.　ビッグデータ、スマホ、ソーシャルで進化する「デジタルクーポン」　日経デジタルマーケティング2011.8 13.　栗原潔、「クラウド系企業の「ビッグデータ」戦略」、ＺＤＮＮｅｔ　Ｊａｐａｎ, 14. Doug Henschen, Hadoop Spurs Big Data Revolution, InformationWeek, 11/9/1　16.イアン・エアーズ「その数学が戦略を決める」　文春文庫　17. Steve Lohr, When There's No such Things as Too Much Information, The New York Times 8/23/11

Big dataを制するのはおそらくGoogleだけだと思ってます。ローソンコンビニは相変わらず品切れ多いし、開発商品はメーカーのおんぶにだっこなので供給に対する責任所在が不明確だからしかたがないのでしょうね。
そもそもポンタを導入しなくても分析できたレベルの話なのでね。そのレベルは。

ユビキタス環境には確実に必要な「Bigdata」managementなんですが、その先にあるどのように人間の活動に生かしていくのかについては誰も定義付けられていないのが問題ですね。そうなるとやはりwebとスマホを凌駕しているGoogleだけとなってしまいます。

楽天などは、一度、サイト内で検索してみれば分かると思いますが、該当商品が1500個も表示されます。絞り込みのロジックも甘く、中々減りません。これは「Bigdata」以前の問題でマスターデータマネジメントができていないのですね。論外ですわ。

投稿： Black　Jack | 2012年4月17日 (火) 14:39

コメントを投稿

コメントは記事の投稿者が承認するまで表示されません。

名前： (必須)

メールアドレス： (必須 / 公開されません)

URL：

この情報を登録する

コメント：

明日のマーケティング

ルディー和子のブログ。グローバルな視点からマーケティングの新しい傾向を楽しく解説したいと思います

プロフィール

新しい本です

最近の記事

カテゴリ

携帯URL

2012年3月 9日 (金)

「ビッグデータ」のビッグ（Big）は「ビッグマック」のビッグとは違う。でも、やっぱり、数（量）は力なり・・なのだ。

トラックバック

コメント

コメントを投稿