「ビッグデータ」のビッグ(Big)は「ビッグマック」のビッグとは違う。でも、やっぱり、数(量)は力なり・・なのだ。
ビッグデータ(Big Data)が流行語になっている。NHKの「おはよう日本」でも話題として取り上げていたから驚いた(ビジネスマンをターゲットとした夜のBizスポならわかるけど・・・)。ビッグデータをテーマにした記事も多いが、「データの話ならなんでもビッグデータというタイトルをつければ注目される」的な発想で書かれた内容も多い。
たとえば、コンビニ大手のローソンが三菱商事が運営しているポイントカード「ポンタ」との連携に本腰をいれている・・・といった記事。
- コンビニ大手のローソンは2010年から共通ポイントカード「ポンタ・カード」の採用を開始。1年で、ローソンの売上のうちカード会員が占める割合は35%になった。POSデータに誰がその商品を買ったかの顧客を識別するデータが組み合わされることにより、有益な情報が得られるようになってきている。たとえば、新商品を出したときに、同じ顧客が2回以上購買したかどうかのリピート率がわかるようになった。それによって、この商品は短命に終わる確率が高いとか低いとか需要予測をして在庫を調整することが可能になった。
ポンタの会員数は2011年末で3500万人くらい。ローソンの購買客でポンタ・カードを利用する客は300万人くらいだと推定される。このくらいのデータ規模でこのくらいの分析なら、カタログ通販企業が25年以上前にやっていた。
これくらいのことを、ビッグデータのくくりで書かれると、ちょっとこけそうになる。
もっとも、ローソンはYahoo! Japanと提携して、ヤフー会員のネット上での行動履歴データとポンタ会員の購買履歴データとを重ね合わせて、スマホでの販促に利用するという。そういった活動が本格化すれば、ビッグデータという言葉にそってくるかも。
現在世界中にあるデータの90%は過去2年間に創造されたものだといわれる。つまり、そのほとんどがインターネット関連で生まれたものだということです。ケータイ契約者は世界中で59億人、インターネットにアクセスしている人は20億人。そして、そういったひとたちが、ネットにアップロードするデータ量は毎年増大するばかりです(2009年に1人当たりがアップロードしたデータ量は3年前の15倍になっているそうです)。
ネットを通じて入ってくるデータは、顧客データやPOSデータのように、コンピュータが計算しやすいように表形式で整理し管理できるものばかりではありません。文字列や数値データで表形式に管理できる「構造化データ」は、米ウォルマートやeBayのデータウェアハウスのようにテラバイトやペタバイト(テラバイトの1000倍)の大容量になっても、リレーショナルデータベースシステムで管理されているのがフツ―です。
が、ネット上にあるデータは、ウェブページやサーバーへのアクセスログや、ソーシャルネットワーク上のコメント、写真、動画のような「構造化データのようには管理できない、あるいは、しにくいデータ」です。また、Suicaのような乗車カード、 Edyのような電子マネー。自動車のカーナビやGPS機能付きケータイからもたえまなく新しいデータがはいってきます。こういった「構造化データ」でないデータは、現在、企業がもっているデータの80%に達しているといわれます。
そういった意味で、次のような例をみると、「ああ、ビッグデータだ!」と思うわけです。
- クチコミ分析で有名な(株)ホットリンクがホットスコープという株価動向を予測し投資アドバイスをする子会社を設立した。この会社は、2008年からの過去3年分のクチコミデータ(フェースブックやツイッターでのコメント、ブログ記事、2チャンネルへの投稿など)68億件を蓄積。こういったクチコミデータと株価動向との関係性を分析した結果、数十万件のキーワードの組み合わせにより、当日の日経平均株価の騰落との相関性をある程度導き出した。2009年末より実際に少額を試験運用したところ、年率換算で投資額が1.6倍になる運用益を達成したことから、投資助言をする会社を設立するとともに、実際に資産運用をするファンドも立ち上げた。
- 自動車保険会社は、これまでは、性別、年齢、住所、どのくらいの頻度でどのくらいの距離を運転するかとか、過去の事故歴などの情報に基づいて保険料を決めていた。だが、自動車に搭載したGPS機能つき機器を通じて、運転手一人ひとりの運転習慣を知ることで保険料を変えることができるようになった。最初に、一定期間内の一定走行距離数を想定して保険金額を支払ってもらう。その後、自動車につけられた機器から、運転距離数、スピード、突然ブレーキをかけたりコーナリングをしたり危険度の高い運転している、ブレーキをかけないでどのくらいの距離を走行しているかなどといった運転データがリアルタイムで入ってくる。そのデータにもとづいて、安全な運転をすれば、それだけ保険保証距離がのびる。保険料がそれだけ割安になるので、運転手が安全運転をする動機づけにもなる。
「ビッグバン」みたいにカッコづけで「ビッグデータ」という言葉を最初に使ったのが誰かははっきりしません。ただ、2001年に発表されたIT調査会社ガートナーのレポートで、ビッグデータの3要素が明確にされ、その後、多少言葉がちがっていても、この3要素でビッグデータが定義されるようになっています。① 大容量(Volume) ② さまざまの種類のデータ(Variety) ③ 速さ/リアルタイム性(Velocity)の3つのVです。
「3つのVはビッグデータの定義」と書きましたが、正確には、「今後しばらくの間、この3つの問題を解決してくれるようなテクノロジーを、企業は必要とするであろう」という、ガートナーからITベンダーへのアドバイスだといったほうがよいかもしれません。
ビッグデータを支えるテクノロジーを開発したり、実際に発展させてきたのはネット関連企業です。誰よりも早く、上記3つの問題に直面したのですから、当然の成行きだといえます。
たとえば、Googleは世界で36か所にデータセンターをもっており(2008年現在)、合計90万台のサーバーをつかっている(2011年現在)といわれます。90万台のサーバーというとびっくりですが、一つ一つのマシンは性能もそれほど高くないフツ―の安価なものです。でも、たとえば、プログラムを分割して同時並行的に複数のコンピュータ上で実行させる。複雑な計算をネットワークを介して複数のコンピュータにふりわけ、同時並行的に処理させることで、仮想的に非常に高価なスーパーコンピュータをつかっているかのように、大量のデータを高速に処理することができます。データ量が多くなればサーバーを付け足せばよいという融通性もあります(サーバーの数を2倍に増やせば、データ処理時間は半分になるといわれます)。
こういった分散コンピューティングのやりかたによって、ペタバイトのデータを高速で、しかも以前よりコスト安に処理することが可能になりました。でも、従来のリレーショナルデータベースは分散処理にはあまり向いていません。だいたいにおいて、増大するばかりの非構造化データはリレーショナルデータベースシステムでは効率よく処理できません。そこで、Googleは「世界中のありとあらゆる情報を集積する」という自分たちの目標にあったデータ処理をしてくれるソフトウェアフレームワークMapReduce(マップリデュース)を開発しました。(MapReduceをつかって1000台のサーバーで1ペタバイトのデータを個々のサーバーにふりわけ68秒で処理できたそうです)。
Googleは2004年にMapReduceの特許を申請し、ソースコードやファイルシステムを除いて、そのアリゴリズムだけは公表しました。
その論文をよんだ当時Yahooの社員だった人が、同じアルゴリズムをつかって大規模の構造・非構造化データを処理・保存できるソフトウェアフレームワークを開発し、自分の息子の象のぬいぐるみの名前をとってHadoop(ハドゥープ)と命名しました。Hadoopは非営利団体アパッチソフトウェア財団からオープンソフトウェアとして無料で提供されています(Apache Hadoopのトレードマークは黄色い象です)。
YahooやFacebookも2006年からHadoopを採用。オープンソースであるために、その後、多くのITベンダーがHadoop対応のソフトやツールを、続々と開発し販売するようになっています。ビッグデータは業績をあげるビッグチャンス! IT産業は久しぶりに活気づいています。
NHKまで朝の番組で特集をくむほど騒がれる結果となっています。
でも、マスコミでとりあげられることによって、これまでデータやデータ分析の価値を無視しつづけてきた日本の企業経営者が、関心をもってくれるようになればシメタものです。米大学MITが大手企業179社を調査したところ、データに基づく意思決定している企業は生産性が5~6%高くなることが判明しているのですし・・・。
ちなみに・・・Googleが2004年に申請したMapReduce並行プログラミングモデルの特許は2010年にみとめられました。「もしかしたら、Googleは自分たちのアルゴリズムを基本としているHadoopを特許侵害で訴えるのではないか? 」・・ アパッチソフトウェア財団だけでなくHadoopを使って新しいソフトやツールを開発した企業はちょっと心配したようです。が、Googleにはそのつもりはないとわかり業界は一安心したということです
で(やっと)・・・、本題の「数は力なり」の話にうつります。
データ量がとてつもなく大きいということは、これまでとは180度異なる発想の転換が起こることもあります。たとえば、私が「目からウロコ!」と思ったのがGoogleの翻訳サービスです。
グーグルの翻訳サービスは、コンピュータに翻訳をさせようという過去40年間の試みを、全く無視したというか、まったく異なる発想から生まれたものです。
これまでのやり方は、人間に外国語を教えるのと同じようにコンピュータに教えようとするものでした。まず言語構造を理解させる。つまり、文章の中のどこに名詞がありどこに動詞があるのか? 現在形なのか過去形なのか? はたまた過去完了形なのか? こういった文法というルールを定義づけ、それをコンピュータにプログラムするという言語学と人工知能の問題だったわけです。
つまり、言葉の意味と言葉をむすびつける文法のルールを人間である翻訳者が理解したように、コンピュータにも教えこもうとしたわけです。
でも、グーグルは、この問題を、膨大なデータ量とデータ処理能力で解決できる数学の問題だと考えました。どうしたかというと・・・。
- 欧州委員会の公文書は23か国語に訳されているのだが、当然のことながら、非常に正確で優れた翻訳となっている。それに加えて6か国語に訳されている国連会議の議事録も使用した。コンピュータに各言語のルールをおぼえさせるのではなく、こういった公文書をスキャン入力し、どれとどれが同じである確率が高いか統計的推定をさせたのです。一つの言語のある言葉や語句は、他の言語のどの言葉や語句と同じである可能性が高いと判断できるようにさせたのです。コンピュータに入力した文章を理解させる努力をあきらめ、原文とそれを翻訳した文章をできるだけたくさん入力して、統計的先例にもとづいて、言葉や語句が正しい確率を計算するシステムにしたのです。
90年代初めにIBMも同じことを試みました。英語と仏語で記録されているカナダの国会が持っている公文書をつかったのです。でも、このときは、数百万くらいの公文書しかなかったために、良い結果が得られずプロジェクトは中止となった。Googleは数十億の公文書をスキャンし、最初につくられたシステムでは2兆個の言葉をデータ処理したそうです。
いまでは、50か国語を即時に訳す。もちろん、その完成度には問題も多々あります。が、入力する文書が多くなればなるほど、精度はよくなるはずだとGoogleは考えています。
「いや、これ以上良くはならないだろう」と、Googleの今の方法の限界を指摘する専門家も多くいます。が、Googleのリサーチディレクター、ピーター・ノービッグの次の言葉は、ビッグデータに対するひとつの真理を語っていると思います。
「充分な量のデータを集めれば、いくつかの比較的シンプルな統計アルゴリズムで、自動翻訳のような機械学習の分野での難問も解決することができる」。
こう考えるのは「世界中の情報を体系化すること」をミッションとしているグーグルだけではありません。アマゾンの元チーフサイエンティストも、「(伝統的企業が考えもしなかったような膨大な購買者データを、新しいネット関連企業はもっています)・・・こういったデータがあれば、アルゴリズムを改善するよりももっと良いシステムを構築することができます」と言っています。
グーグルのリサーチディレクターは、また、「昔は、コンピュータのメモリーがいっぱいになったときが限界だったが、今は、データセンターがいっぱいになったときが限界だ」とも言っています。つまり、生データを保存する能力が発展したことが重要だといっているのです。アマゾンのベゾスCEOは「顧客データを何年間保存しますか?」と聞かれて「永遠に」と答えています。ビッグデータとよばれるデータ革命はデータ保存能力の拡大と低価格化がもたらしたものなのです。
データは垂直軸(時間)においても水平軸(空間)においても集積されることによって威力を増すのです。
2012年1月にスイスの保養地ダボスで開催された世界経済フォーラム年次総会「ダボス会議」でも、ビッグデータはテーマのひとつとしてとりあげられました。報告書「ビッグデータ、ビッグインパクト」には、データは、株、債券や現金のように経済資産のひとつとなったと書かれています。
New! 「ソクラテスはネットの無料に抗議する」を出版しました。内容については⇒ をクリックしてください。
参考文献: 1.「つぶやき分析で相場予測」日経産業新聞1/5/12、2.Ameet Sachdev, Insureres try basing rates on individual cars' data, Los Angeles Times 10/10/11, 3. Rich Miller, Report:Google Uses About 900,000 Servers, Data Center Knowledge, 8/1/11, 4. Derrick Harris, Why Hadoop Users Shouldn't Fear Google's New MapReduce Patent, Tech News and Analysis 1/19/10, 5. Tim Adams, Can Google bread the computer language barrier? 12/19, 10, 6. Aaron Claassens, Google's research chief: The power of big data, Transcurve, 5/10/11 7. Clicking for gold, How internet companies profit from data on the web, The Economist 2/25/10, 8. George Lawton, Distributed data-analysis approach gains popularity, Computing Now February 2010 9. Why big data matters to companies in retail and media, A straightforward guide for business folk February 2012, Keplar LLP, 10.Richard Macmanus, The Coming Data Explosion, The New York Times, 5/31/10, 11.Rachael King, Getting a handle on big data with Hadoop, Bloomberg businessweek, 9/7/11, 12. ビッグデータ、スマホ、ソーシャルで進化する「デジタルクーポン」 日経デジタルマーケティング2011.8 13. 栗原潔、「クラウド系企業の「ビッグデータ」戦略」、ZDNNet Japan, 14. Doug Henschen, Hadoop Spurs Big Data Revolution, InformationWeek, 11/9/1 16.イアン・エアーズ「その数学が戦略を決める」 文春文庫 17. Steve Lohr, When There's No such Things as Too Much Information, The New York Times 8/23/11
Copyright 2012 by Kazuko Rudy. All rights reserved
Big dataを制するのはおそらくGoogleだけだと思ってます。ローソンコンビニは相変わらず品切れ多いし、開発商品はメーカーのおんぶにだっこなので供給に対する責任所在が不明確だからしかたがないのでしょうね。
そもそもポンタを導入しなくても分析できたレベルの話なのでね。そのレベルは。
ユビキタス環境には確実に必要な「Bigdata」managementなんですが、その先にあるどのように人間の活動に生かしていくのかについては誰も定義付けられていないのが問題ですね。そうなるとやはりwebとスマホを凌駕しているGoogleだけとなってしまいます。
楽天などは、一度、サイト内で検索してみれば分かると思いますが、該当商品が1500個も表示されます。絞り込みのロジックも甘く、中々減りません。これは「Bigdata」以前の問題でマスターデータマネジメントができていないのですね。論外ですわ。
投稿: Black Jack | 2012年4月17日 (火) 14:39