« 社員150人以下の企業で、競争する必要などないビジネスを生みだす | メイン | NEW! 「ソクラテスはネットの無料に抗議する」(日経プレミアシリーズ)を出版しました »

2013年2月13日 (水)

世界一有名な「データサイエンティスト」は「ビッグデータ」とは無縁の人でした。

 

 「有名なデータサイエンティストといったら誰?」とアメリカ人にきいたら、ネイト・シルバーと答える人が多いでしょう。昨年11月6日に 、いちやく、チョー有名人になった。日本でも、朝日新聞がそのときどきの「時の人」を紹介する欄に、「米大統領選挙で、選挙前日に90.9%の確率でオバマ再選と予測し、全50州各州の勝敗の結果を的中させた」と紹介した。ネイト・シルバーがなにかのイベントで日本を訪問していたわけでもないのに・・。 

 アメリカでは、「統計学オタクが勝利」とか大騒ぎになって、「データサイエンティスト」という言葉があっというまに世間一般にひろがった。ほとんどの(いわゆる昔ながらの)政治評論家が同点か、オバマが勝つとしても非常に接戦だと解説していて、ネイト・シルバーのデータにもとづく予測をさんざんぱらけなしていた。だが、結局、大恥をかいたのは「昔ながらの評論家」のほうだった。

 「政治世界の専門家の経験やインサイダー知識にデータサイエンスが勝った!」と、アナリティクス分野のひとたちは興奮した。ネイト・シルバーが9月に出版していた本「The Signal and the Noise(シグナルとノイズ: なぜ予測は当たらないのか?)」の売上も一晩で8倍に急上昇した。

 もっとも、すぐに、批判は出てくる。まず第一にネイト・シルバーはデータサイエンティストではない。なぜなら、彼がしたことはビッグデータとはまったく無関係だから・・・という声があがった。ビッグデータの特徴のひとつは膨大なデータ量だ。毎日24ペータバイトのデータを処理するというグーグルは、600人のデータサイエンティストをかかえる。やっぱり少なくともテラバイトかペータバイト(1000テラバイト)を取り扱わなくちゃデータサイエンティストとはいえないだろう・・・という批判だ。

 たしかに、ネイト・シルバーがつかったデータは世論調査が中心で、データセットのサイズは小さい。大きいものでも、全国調査で2万とか3万人からの回答データ。 州単位でも数千人、地方の新聞社の調査では数百人からの回答データだ。しかし、いわゆる政治評論家なるひとたちが全国規模の世論調査を中心にして結果を予測したのに対して、ネイト・シルバーは数百に及ぶありとあらゆる調査結果を集約して分析にとりいれた。

 つまり、、手に入るデータソースすべてをつかって、そこから情報を引き出すようにしたのだ(ただし、無作為抽出された人ではなくてボラティアのグループを対象にしたネット調査などは分析からはずしている。重要なことは、データソースそれぞれを使えるか使えないかきちんとチェクしていることだ)。

 できるだけバイアスの少ない信頼できるデータソースだけをつかうのが一般的常識だ。が、彼は、あえて、バイアスが多いと考えられる調査結果もつかった。たとえば、保守系でより共和党よりだとみなされる団体の調査結果もつかう。だだし、この場合、時系列で傾向をみる。一週間前に共和党候補に投票すると55%が答えていたのに、現在は52%となっているとしたら、これは、それなりに重要な情報を提供していることになる。

 世論調査だけでなく、選挙に影響を与えるような経済指標、デモグラフィックデータ、各党の登録党員数の移り変わりも分析に採用している。 そして、過去の選挙結果、過去の世論調査結果、過去の経済指標を利用して、現在のデータに重みづけをして調整したうえで、各州で誰が勝者となるか予測する回帰分析モデルをつくっている。

 ネイト・シルバーの予測手法の特徴は、小さなサイズのデータソースを集約することでサンプル数をふやし、また、データそれぞれに慎重な重みづけをして調整することで誤差を少なくしたことにある。フロリダ州の某地方新聞社の681人にインタビューした世論調査結果を分析に採用するときには、調査対象者の名前をみてヒスパニック系(スペイン語を話す中南米諸国からの移民とその子孫)が多いことからオバマよりだと判断し、それなりに、重みを調整したといわれるくらいです。

 重みをつけることで、各データの予測値への影響を高めたり低くしたり調整することができます。予測能力が高いと思われるデータには高い重みをつけます。どのデータにどれだけの重みづけをするか判断するときには、分析者の主観が入ります。分析者の経験や知識や勘とか直観とよばれるものが分析に入ってくるのです。

 ビッグデータが機械まかせの大量生産的イメージがあるとしたら、まさに手作り・・・といった感じ。

 データサイエンティストはビジネスアナリストであり、ビジネスのことがよくわかっていなくてはいけないといいます。ネイト・シルバーはシカゴ大学経済学部を卒業したあと会計事務所で働いていましたが数年でやめ、そのあと、しばらくの間、オンラインポーカーゲームで生活費を稼いでいました。ポーカーゲームで「確率についていろいろ勉強できた」とともに、40万ドル稼いだそうです。それを元手に、メジャーリーグの野球選手の成績を予測するシステムPECOTAをつくり、その後売却しています。

 お金儲けも上手そうだし、ビジネスのことがよく理解できるという点では、データサイエンティストとしての資格をそなえていそうです。

 データサイエンティストは、写真や動画、あるいはテキストといったような非構造化データを取り扱えるHadoopとかビッグデータ処理に必要な新しいテクノロジーについて熟知していなくてはいけない・・・ともいわれます。(非構造化データやHadoopについては2012年3月9日の記事を参照してください)。

 シルバーさんは、そういったテクノロジーも「おてのもの」かもしれませんが、大統領選の予測につかったのは、デスクトップのごくふつーのパソコンだそうです。また、データサイエンティストは、分析能力とか高度なモデル化に精通していなくてはいけないともいわれます。シルバーさんがつかった分析手法は、州ごとの候補者の勝敗を予測するための回帰分析と、その結果を、候補者の選挙人獲得数に変換し、勝者の勝つ確率を算出するためのモンテカルロ・シミュレーション。この2つだけのようです。

 データサイエンティストの非常に重要な資格として、データのなかからインサイトを発見できることがあげられます。そして、それを一般人にも理解できるようなわかりやすい形で説明できる、とくにビジュアル化にすぐれている・・・という能力も必要だといわれます。こういった点においては、シルバーさんの評判は高いようです。だから、アメリカのTV局も、ワイドショーに安心して呼ぶことができる。シルバーさんは数字中心の退屈な話しはしない。カラフルなグラフをつかって説明する。それが、また、一般的人気を読んだ理由のようです。

 データサイエンティストという言葉は、ビッグデータを分析することと関連して、2000年代半ばごろから使われるようにはなった。が、必ずしも、2つがいっしょでなくてはいけないわけではないようです。1月28日付の日経新聞によると、「日本はデータサイエンティストが不足していて推定で1000人もいない・・・」そうですが、そのうち何人が本当の意味でビッグデータとかかわりある仕事をしているのでしょうか? 

 データから価値ある知見を発見してビジネスの改善に貢献していると主張できる人は多いかもしれませんが・・・。どちらにしても、アメリカでも日本でも自称データサイエンティストが多いようです。

 ネイト・シルバー自身は、ビッグデータに関して、あまり楽観的な意見は述べていません。データが膨大になったからといって予測が簡単になるわけではなく、かえってむずかしくなるようなことを言っています。とくに、「ロングテール」や「フリー」といったベストセラーを書いた作家とし有名なクリス・アンダーソンが、2008年に発表した記事には批判的です。

 当時、ワイアード誌の編集長だったクリス・アンダーソンは、「ビッグデータの時代においては、われわれは、仮設をたててモデルをつくる(科学的といわれてきた)伝統的手法をもはや必要としない。機械(コンピュータ)がビッグデータのなかからパターンや傾向や関係性を(勝手に)発見してくれる」といった趣旨の発言して、多くの科学者からブーイングされました。

 ビッグデータの未来を予言する趣旨の内容ですから、4年後のいまの状況において批判をすることは、クリス・アンダーソンに不公平な気もします。アンダーソンは、グーグルのような本当の意味でビッグデータを取り扱っている数少ない企業を念頭に発言したのでしょう。

 たとえば、グーグルの機械学習による翻訳は、コンピュータに翻訳をさせようという過去40年間の試みとはまったく異なる発想から生まれたものです。コンピュータに文法を憶えさせるのではなく、原文とそれを翻訳した文章をできるだけたくさん入力して、一つの言語のある言葉や語句は、他の言語のどの言葉や語句と同じである可能性が高いと統計的に判断できるようにさせた。コンピュータは言語のことなど何も知らず、ただ、同じ言葉や語句をマッチングさせているだけなのです。

 クリス・アンダーソンは、また、グーグルにおける新しいテストのやり方を念頭において、仮設など必要ないと発言したのでしょう。従来のテストでは、たとえば、サイトの利用者はどういった背景の色ならより滞在時間が増えるかとか、どのレイアウトのほうが、あるいはどのコピーのほうがクリック数がふえるか?を知るためには、仮設をいくつかたて、その仮説が正しいかどうかテストをして、結果を検証するというステップを採用しました。この時、むろん統計的に有意な(適切な)サンプル数も計算しなくてはいけませんでした。テストをするには費用や時間がかかるので、それを少なく短くするために、仮設の数も制限されました。

 が、グーグルのように毎日の利用者数が50億人を超える場合(つまりビッグデータの場合)、サンプル数とか仮設とかを以前のように厳密に考える必要はないのです。いくつかの異なる色や異なるレイアウトのページをつくり提示する。どの色やどのレイアウトの場合、利用者の反応が良くなるかは、短時間でわかります。サンプル数なんて計算しなくても、ある程度様子をみていれば、どの色やどのレイアウトが勝者かは自然とわかります。

 しかし、グーグルやアマゾンや、日本でいえば楽天のようなサイトを抱えている企業は少数です。ペータバイトはむろんテラバイト級のビッグデータを取り扱っている企業は現実的には少ないのです。まだ、機械にまかせておけばよい・・・というレベルからは程遠いのです。

 ネイト・シルバーは、コンピュータまかせにできるという意見には反対で、「生データはモデルなしには何の役にも立たない・・・情報量が天文学的に増えれば増えるほど、探索すべき仮説の数も増える。インターネットが登場する前もその後も、世界に存在する真実に変わりはない。データ量がふえても、データの大半はノイズ(雑音)であり、そこから、シグナル(価値ある情報,この場合は真実)を見つける作業に変わりはないのです」と、新著に書いています。

 今回の大統領選挙において、いわゆる昔ながらの政治評論家は、データにもとづく分析をして予測モデルをつくるアナリストの判断に負けたわけです。業界の玄人がデータ分析者に赤っ恥をかかされたことは以前にもありました。たとえば、野球の世界。映画「マネーボール」で描かれたように、統計解析理論による選手の成績予測が、スカウトの経験にもとづく直観とか勘に勝った・・・といわれました。

 そして、それ以前、1990年には、ボルドー・ワインの質(競売価格)を予測する回帰分析予測モデルが発表されて話題になりました。数式モデルをつくったのは、データサイエンティストの先駆者と呼ばれたりもする、プリンストン大学の経済学者 オーリー・アッシェンフェルター。彼は大のワイン好きがこうじて、過去数十年の気象データとワインの競売価格との相関関係を分析してつぎのような等式を発表しました。

 ワインの質=12.145 + 0.00117 x 冬の降雨 + 0.0614 x 育成期平均気温 - 0.00386 x 収穫期降雨

 当然のことながら、その道の批評家や通人は激怒しました。ワインを数式で表すなんて、神を冒涜するに等しい!でも、この数式の予測は当たったのです。

 いまでは、ワイン業界のひとたちも、気象データにも気を配りながら、ワインの質を予測するようになっています。野球界においても、米メジャーリーグの大半のチームが、統計解析とスカウトの長年の経験にもとづく勘と、両方を利用しています。そして、シルバーネイトは著書で、気象予報においても、コンピュータと予報士の判断と両方を組み合わせたほうが、コンピュータプログラムだけのときより10%から25%も正確な予報ができると書いています。 

 クリス・アンダーソンは、ビッグデータの時代においては、相関関係だけで十分で、因果関係を知る必要はなくなると大胆な発言もしました。つまり、相関関係だけで予測はできるということです。それが事実ではあっても、因果関係を知らなくてもよいなどど考える科学者が存在するでしょうか? ビジネスの世界では、予測さえできればOKということもあるかもしれません。が、でも、人間というのは好奇心があり、それがあるから発見も発明も生まれるわけです。たとえお金にならなくても因果関係を知りたいというビジネスパーソンも多いのではないでしょうか?

 いずれにしても、データサイエンティストもビッグデータも、まだ、言葉が先行して流行している状況のようです。だいたいにおいて、データサイエンティストとかビッグデータという言葉が、数年後につかわれているかどうか? 最近のIT関連の新語は、あまり真面目に定義しないほうがよいようです。

New! 「ソクラテスはネットの無料に抗議する」を出版しました。内容については をクリックしてください

 

参考文献: 1. John Cassidy, Brooks  vs. Silver: The Limits of forecasting Elections, The New Yorker 10/24/12, 2. Thomas H. Davenport, Research Report "The Human side of Big Data and High-Performance Analytics, International Institute for Analytics, August 2012, 3. Michael cosentino, How did Nate Silver predict the US election?, The Gurdian 7/11/12, 4. Carole Cadwalladr, Nate Silver: It's the numbers, stupid, The Observer 17/11/12, 5. Bora Zickocic ,Nate Silver and the Ascendance of Expertise, Sicnetific American 14/11/12, 6. Gary Marcus and Ernest Davis, What Nate Silver Gets Wrong, The New Yorker, 1/25/13, 7. Andrew hacker, How he got it right, The New York Review of Books, 8.Chris Anderson, The End of Theory, will the data deluge makes the scientific method obsolete? , Wired 23/6/08, 9.イアン・エアーズ、「その数字が戦略をきめる」山形浩生訳、文春文庫 2010年

Copyright 2013 by Kazuko Rudy. All rights reserved.

 

 

 

 

 

 

 

トラックバック

このページのトラックバックURL:
http://bb.lekumo.jp/t/trackback/603373/31081987

世界一有名な「データサイエンティスト」は「ビッグデータ」とは無縁の人でした。を参照しているブログ:

コメント

 ビッグデータの解析というのは、気持ちはよく分かるんですが、まるで身体で発生するすべてのデータを、みんな脳で処理しようとするようなものなのではないか、という気がします。
 知り合いに皮膚の研究者がいて、本なんかも出してるんですが、その内容の中心に、皮膚のデータ処理機能のことがあります。生物におけるこういう分散処理のスタイルは、ビッグデータの解析などではどう捉えられてるんでしょう。
 相関関係と因果関係の違い、というキーワードに、なんだかつながりそうな気もします。

斎藤さま、非常に興味深いコメント有難うございました。たしかに、データセンターをつかっての分散処理って、分散といいながら、脳だけでしているって感じがありますよね。例にあげてくださったような皮膚のデータ処理機能って、人体の分散処理の優秀さにいまさらながら驚かされます。ビッグデータ関係でいえば、保存する前にまず処理するというやり方は最近注目されているようですが、わたしも勉強不足でよくわかりません。チェックしてみます。詳しいかた、教えてください!

興味深いブログ拝見いたしました。

半年前の記事ですが、今日の統計ブーム、ビッグデータがもてはやされている状況を予見されていらっしやいましたね。

当方は、データ解析をコアにしたサービスを提供していますが、最近ビッグデータに関する問い合わせが多くなっています。

私は、ビックデータはインターネットがもともとサーバを分散させて処理するという性質のネットワークのデータを扱うもの理解しています。

皮膚のデータ処理という考えに自立分散の類似性を見出された方のお考え、面白いですね。
ログと処理データのある無しが相違点かと思いますよ。

遺伝子は処理するだけでログは残さないですね。ただ、免疫系は記憶という方法でログが残っていますが。

大分前の記事にコメントしてしまってすみません。

Alex Northさま。コメント有難うございます。皮膚のデータ処理とか人体のデータ処理とかデータ分析とか勉強しはじめたら、きっと面白くてやめられなくなってしまいそうですね。遺伝子とか免疫系とか、私はよく知らない分野ですが・・・。いつか、もう少し勉強してみたいと思います。

群れの理論にびっくり、感心していたのです。

 皮膚の研究、その感覚もすごいですね。
 ありがとうございます。
 すごい論文を読ませていただいて感激しています。

こんりっぷさま。コメント有難うございます。みなさま、皮膚の研究にとても興味がおありになるようですね。

コメントを投稿

コメントは記事の投稿者が承認するまで表示されません。