« 2013年1月 | メイン | 2013年4月 »

2013年2月17日 (日)

NEW! 「ソクラテスはネットの無料に抗議する」(日経プレミアシリーズ)を出版しました

 51kyak3m11l__ss400__2「ソクラテスはネットの無料に抗議する」という本(日経プレミアシリーズ・新書版)を日本経済新聞出版社から出しました。ブログをつうじて、(赤い糸ではないけれど)なんらかの御縁でつながっている皆様に読んでいただければとてもうれしいです。 

 この本を書いたもともとのきっかけは、「無料」がまかりとおっている現状に疑問を抱いていたからです。「21世紀のフリーは20世紀のフリーとは違う」と主張する本がベストセラーになり、 「無料」でモノやサービスを販売するのが当然であるかのような風潮になっていることは問題だと思っていました。 

 20世紀であろうと21世紀であろうと企業は適正な利益を生まなくてはいけません。そうでなければ、従業員に適正なお給料も払えないし、従業員を雇うことすらできない(って、べつに、アベノミクスに肩入れしているわけではありません)。デジタルの世界においては、アナログの世界よりモノが安く売れる理由をたくさんあげることはできます。が、無料にはできないし、安く売るにも限度というものがあります。インターネットやコンピュータが可能にしてくれる「新しい世界」でも、無料とか極度な安売りには継続性(はやり言葉でいえばサスティナビリティ)を支えることはできません。

 わたしたちは、「新しい世界」が提供してくれる可能性に目を向けるあまりに、古代ギリシア世界ですでに完成していた人間の知恵や知性を忘れていました。

 私は、どちらかというと哲学=眠くなる・・・と思う人種に属しています。ソクラテスに興味をもったのは、やはりインターネットというメディアの登場が関係しています。

 ネットやケータイの登場によって、メールやフェイスブック中毒とかケータイ依存症などが社会問題となっています。そして、こういった問題について書いた本には、必ずと言ってよいほどソクラテスが登場するのです。彼が新しいメディアについて語った言葉が引用されるのです。

 ソクラテスや彼が住んでいた古代社会の考え方を知ることから、なぜ、「21世紀のフリー」がいけないかの謎が解けまました。

 「謎」とか「古代ギリシア」とか、思わせぶりな書き方ですよね。当然のことながら、その謎を知りたかったら、どうぞ、本を読んでくださいませ・・・・と続きます。

 下に目次内容を記しました。 本を読んでくださったとして、感想など、この記事にコメントとして送ってくだされば、さらにさらにうれしいです。目次をクリックするとアマゾン書店にリンクします。

 

「ソクラテスはネットの無料に抗議する」目次

第1章  文字が人間の頭を悪くする

● ソクラテスはiPadを見ても驚かない ● 「書き言葉が話し言葉にとって代われば、若者たちの頭が悪くなる」 ● 古代ギリシアにおける秀才と凡才の判断材料 ●「物忘れ」を恐れたソクラテス ●なぜ魂を揺さぶる話術が大切だったのか ●中毒になるほど裁判に熱中したアテナイの人々 ● 2500年たっても解けない「法廷のパラドックス」 ●グーグルは「怠け者」が利用するメディア ●文字を使うようになって、脳はどう変化したのか ● 文章を読むということは自分自身に話しかけるということ ● 本を黙読できるようになるまで1500年かかった ● 識字率が上がると他人の顔をわすれやすくなる ● デジタル時代には顔の認識率はもっと低下する

第2章 ソクラテスが「無料」に抗議する理由

● ソクラテスが犯した大きなタブー ● 「無料」が嫌いだった古代ギリシア人 ● 古代から現代につづく「贈与の法則」 ● 「いいね!」は現代社会の恩返しの仕組み ● なぜ日本にだけホワイトデーがあるのか ● 人間の本能的性向は「恩返し」よりも「仕返し」 ● チンパンジーもホメロスも知っている返礼のルール ● ギフト交換すれば友人になれる ● 市場経済の源流は贈り物の交換にある ● 美少年でなくとも無料サービスを提供したソクラテス ● ソクラテス以上の賢者はいなかったのか ● あてにならないデルフォイの神託 ● 富山の薬売りのビジネスモデルも贈与のシステム

第3章  21世紀と20世紀の「フリー」は本当に違うか

● 優れた戦略家は狡猾なウソつきである ● ネット上での「無料」のウソ ● タダより高いものはないし、無料のランチもありはしない ● ウィキペディアへの寄稿は「神への贈与」と同じ ● なぜ人間は寄附やボランティア活動をするのか ● 神様に10分の1を捧げる「算数」は世界に共通 ●寄附活動から生まれた累進課税 ● 人間の脳が大きくなり、知能が高くなったのはなぜか

第4章 フェイスブックは贈与の法則を破ったのか

● 不正に対する報復は「正義」なのか ● 「無料サービスは使うが、個人データは提供しない」の論理矛盾 ● 無料サービスとの個人データのやり取りは、贈与か売買取引か ● 消費者は自分のデータで返礼をしている ● プライバシー問題を非難する消費者はずうずうしいが・・・ ● プライバシー規約を読むのにかかる時間は年間244時間 ● 私の個人データにはどれだけの価値があるのか ● 自分のデータを保管するヴァーチャル金庫 ● 個人データは永遠に生きつづける ● データの秘密の生涯 ● マオリ族のハウ(霊)と「お返しの義務」の関係 ● 呪われた宝石、戦国時代の名茶器、そして上司のご馳走 ● 個人データにもあなたのハウが宿る

第5章 人間はなぜ言葉にだまされるのか

● 上手なウソをつかなかったソクラテス ● 人間は生まれつきウソをつくようにできている ● ソーシャルメディアの詐欺師と世界最古の詐欺師は手法が同じ ● 2700年後にわかった神のお告げの真相 ● 古代に頻発した保険金詐欺の仕組みと対策 ● 詐欺師と呼ばれたソフィストたち ● 理性の発達は真実の発見のためではなく、議論に勝つため ● 近親相姦は「理性」だけで判断すれば悪ではない ● 認知バイアスのせいで、だまし、だまされる ● 「自分だけは大丈夫」と思う楽観主義バイアス ● 人間の8割は楽観主義者、そして、楽観主義者は生存率が高い ● 確証バイアスにとらわれる人ほど議論に強い ●詐欺師が利用するヒューリスティクスな選択 ● なぜ、お金がない人ほど投資話にだまされるのか ● なぜ、ソフィストたちは人間の心理が理解できたのか ● 「まだ半分ある」を「もう半分しかない」に変える方法 ● 感情の時代に理性を、理性の時代に感情を

第6章 人間はデジタル社会に、デジタル社会は人間に適応できるのか

● マルチタスク能力を信用しなかったアインシュタイン ● 1つの作業を一気に片付けないと、1.5倍の時間がかかる ● 電話番号の数字を3つに区切る必然性 ● すべての国で新しい時代になるほどIQが高くなっている ● ソクラテスがこだわった「記憶」は、ワーキングメモリーなのか ● 脳は「新しい情報」の誘惑に抵抗できない ● 仕事中のメールはドラッグよりも2倍もIQを下げる ● メディアが脳に適応するのか、脳がメディアに適応するのか? ● ソクラテスが選んだメディア

 

 

 

2013年2月13日 (水)

世界一有名な「データサイエンティスト」は「ビッグデータ」とは無縁の人でした。

 

 「有名なデータサイエンティストといったら誰?」とアメリカ人にきいたら、ネイト・シルバーと答える人が多いでしょう。昨年11月6日に 、いちやく、チョー有名人になった。日本でも、朝日新聞がそのときどきの「時の人」を紹介する欄に、「米大統領選挙で、選挙前日に90.9%の確率でオバマ再選と予測し、全50州各州の勝敗の結果を的中させた」と紹介した。ネイト・シルバーがなにかのイベントで日本を訪問していたわけでもないのに・・。 

 アメリカでは、「統計学オタクが勝利」とか大騒ぎになって、「データサイエンティスト」という言葉があっというまに世間一般にひろがった。ほとんどの(いわゆる昔ながらの)政治評論家が同点か、オバマが勝つとしても非常に接戦だと解説していて、ネイト・シルバーのデータにもとづく予測をさんざんぱらけなしていた。だが、結局、大恥をかいたのは「昔ながらの評論家」のほうだった。

 「政治世界の専門家の経験やインサイダー知識にデータサイエンスが勝った!」と、アナリティクス分野のひとたちは興奮した。ネイト・シルバーが9月に出版していた本「The Signal and the Noise(シグナルとノイズ: なぜ予測は当たらないのか?)」の売上も一晩で8倍に急上昇した。

 もっとも、すぐに、批判は出てくる。まず第一にネイト・シルバーはデータサイエンティストではない。なぜなら、彼がしたことはビッグデータとはまったく無関係だから・・・という声があがった。ビッグデータの特徴のひとつは膨大なデータ量だ。毎日24ペータバイトのデータを処理するというグーグルは、600人のデータサイエンティストをかかえる。やっぱり少なくともテラバイトかペータバイト(1000テラバイト)を取り扱わなくちゃデータサイエンティストとはいえないだろう・・・という批判だ。

 たしかに、ネイト・シルバーがつかったデータは世論調査が中心で、データセットのサイズは小さい。大きいものでも、全国調査で2万とか3万人からの回答データ。 州単位でも数千人、地方の新聞社の調査では数百人からの回答データだ。しかし、いわゆる政治評論家なるひとたちが全国規模の世論調査を中心にして結果を予測したのに対して、ネイト・シルバーは数百に及ぶありとあらゆる調査結果を集約して分析にとりいれた。

 つまり、、手に入るデータソースすべてをつかって、そこから情報を引き出すようにしたのだ(ただし、無作為抽出された人ではなくてボラティアのグループを対象にしたネット調査などは分析からはずしている。重要なことは、データソースそれぞれを使えるか使えないかきちんとチェクしていることだ)。

 できるだけバイアスの少ない信頼できるデータソースだけをつかうのが一般的常識だ。が、彼は、あえて、バイアスが多いと考えられる調査結果もつかった。たとえば、保守系でより共和党よりだとみなされる団体の調査結果もつかう。だだし、この場合、時系列で傾向をみる。一週間前に共和党候補に投票すると55%が答えていたのに、現在は52%となっているとしたら、これは、それなりに重要な情報を提供していることになる。

 世論調査だけでなく、選挙に影響を与えるような経済指標、デモグラフィックデータ、各党の登録党員数の移り変わりも分析に採用している。 そして、過去の選挙結果、過去の世論調査結果、過去の経済指標を利用して、現在のデータに重みづけをして調整したうえで、各州で誰が勝者となるか予測する回帰分析モデルをつくっている。

 ネイト・シルバーの予測手法の特徴は、小さなサイズのデータソースを集約することでサンプル数をふやし、また、データそれぞれに慎重な重みづけをして調整することで誤差を少なくしたことにある。フロリダ州の某地方新聞社の681人にインタビューした世論調査結果を分析に採用するときには、調査対象者の名前をみてヒスパニック系(スペイン語を話す中南米諸国からの移民とその子孫)が多いことからオバマよりだと判断し、それなりに、重みを調整したといわれるくらいです。

 重みをつけることで、各データの予測値への影響を高めたり低くしたり調整することができます。予測能力が高いと思われるデータには高い重みをつけます。どのデータにどれだけの重みづけをするか判断するときには、分析者の主観が入ります。分析者の経験や知識や勘とか直観とよばれるものが分析に入ってくるのです。

 ビッグデータが機械まかせの大量生産的イメージがあるとしたら、まさに手作り・・・といった感じ。

 データサイエンティストはビジネスアナリストであり、ビジネスのことがよくわかっていなくてはいけないといいます。ネイト・シルバーはシカゴ大学経済学部を卒業したあと会計事務所で働いていましたが数年でやめ、そのあと、しばらくの間、オンラインポーカーゲームで生活費を稼いでいました。ポーカーゲームで「確率についていろいろ勉強できた」とともに、40万ドル稼いだそうです。それを元手に、メジャーリーグの野球選手の成績を予測するシステムPECOTAをつくり、その後売却しています。

 お金儲けも上手そうだし、ビジネスのことがよく理解できるという点では、データサイエンティストとしての資格をそなえていそうです。

 データサイエンティストは、写真や動画、あるいはテキストといったような非構造化データを取り扱えるHadoopとかビッグデータ処理に必要な新しいテクノロジーについて熟知していなくてはいけない・・・ともいわれます。(非構造化データやHadoopについては2012年3月9日の記事を参照してください)。

 シルバーさんは、そういったテクノロジーも「おてのもの」かもしれませんが、大統領選の予測につかったのは、デスクトップのごくふつーのパソコンだそうです。また、データサイエンティストは、分析能力とか高度なモデル化に精通していなくてはいけないともいわれます。シルバーさんがつかった分析手法は、州ごとの候補者の勝敗を予測するための回帰分析と、その結果を、候補者の選挙人獲得数に変換し、勝者の勝つ確率を算出するためのモンテカルロ・シミュレーション。この2つだけのようです。

 データサイエンティストの非常に重要な資格として、データのなかからインサイトを発見できることがあげられます。そして、それを一般人にも理解できるようなわかりやすい形で説明できる、とくにビジュアル化にすぐれている・・・という能力も必要だといわれます。こういった点においては、シルバーさんの評判は高いようです。だから、アメリカのTV局も、ワイドショーに安心して呼ぶことができる。シルバーさんは数字中心の退屈な話しはしない。カラフルなグラフをつかって説明する。それが、また、一般的人気を読んだ理由のようです。

 データサイエンティストという言葉は、ビッグデータを分析することと関連して、2000年代半ばごろから使われるようにはなった。が、必ずしも、2つがいっしょでなくてはいけないわけではないようです。1月28日付の日経新聞によると、「日本はデータサイエンティストが不足していて推定で1000人もいない・・・」そうですが、そのうち何人が本当の意味でビッグデータとかかわりある仕事をしているのでしょうか? 

 データから価値ある知見を発見してビジネスの改善に貢献していると主張できる人は多いかもしれませんが・・・。どちらにしても、アメリカでも日本でも自称データサイエンティストが多いようです。

 ネイト・シルバー自身は、ビッグデータに関して、あまり楽観的な意見は述べていません。データが膨大になったからといって予測が簡単になるわけではなく、かえってむずかしくなるようなことを言っています。とくに、「ロングテール」や「フリー」といったベストセラーを書いた作家とし有名なクリス・アンダーソンが、2008年に発表した記事には批判的です。

 当時、ワイアード誌の編集長だったクリス・アンダーソンは、「ビッグデータの時代においては、われわれは、仮設をたててモデルをつくる(科学的といわれてきた)伝統的手法をもはや必要としない。機械(コンピュータ)がビッグデータのなかからパターンや傾向や関係性を(勝手に)発見してくれる」といった趣旨の発言して、多くの科学者からブーイングされました。

 ビッグデータの未来を予言する趣旨の内容ですから、4年後のいまの状況において批判をすることは、クリス・アンダーソンに不公平な気もします。アンダーソンは、グーグルのような本当の意味でビッグデータを取り扱っている数少ない企業を念頭に発言したのでしょう。

 たとえば、グーグルの機械学習による翻訳は、コンピュータに翻訳をさせようという過去40年間の試みとはまったく異なる発想から生まれたものです。コンピュータに文法を憶えさせるのではなく、原文とそれを翻訳した文章をできるだけたくさん入力して、一つの言語のある言葉や語句は、他の言語のどの言葉や語句と同じである可能性が高いと統計的に判断できるようにさせた。コンピュータは言語のことなど何も知らず、ただ、同じ言葉や語句をマッチングさせているだけなのです。

 クリス・アンダーソンは、また、グーグルにおける新しいテストのやり方を念頭において、仮設など必要ないと発言したのでしょう。従来のテストでは、たとえば、サイトの利用者はどういった背景の色ならより滞在時間が増えるかとか、どのレイアウトのほうが、あるいはどのコピーのほうがクリック数がふえるか?を知るためには、仮設をいくつかたて、その仮説が正しいかどうかテストをして、結果を検証するというステップを採用しました。この時、むろん統計的に有意な(適切な)サンプル数も計算しなくてはいけませんでした。テストをするには費用や時間がかかるので、それを少なく短くするために、仮設の数も制限されました。

 が、グーグルのように毎日の利用者数が50億人を超える場合(つまりビッグデータの場合)、サンプル数とか仮設とかを以前のように厳密に考える必要はないのです。いくつかの異なる色や異なるレイアウトのページをつくり提示する。どの色やどのレイアウトの場合、利用者の反応が良くなるかは、短時間でわかります。サンプル数なんて計算しなくても、ある程度様子をみていれば、どの色やどのレイアウトが勝者かは自然とわかります。

 しかし、グーグルやアマゾンや、日本でいえば楽天のようなサイトを抱えている企業は少数です。ペータバイトはむろんテラバイト級のビッグデータを取り扱っている企業は現実的には少ないのです。まだ、機械にまかせておけばよい・・・というレベルからは程遠いのです。

 ネイト・シルバーは、コンピュータまかせにできるという意見には反対で、「生データはモデルなしには何の役にも立たない・・・情報量が天文学的に増えれば増えるほど、探索すべき仮説の数も増える。インターネットが登場する前もその後も、世界に存在する真実に変わりはない。データ量がふえても、データの大半はノイズ(雑音)であり、そこから、シグナル(価値ある情報,この場合は真実)を見つける作業に変わりはないのです」と、新著に書いています。

 今回の大統領選挙において、いわゆる昔ながらの政治評論家は、データにもとづく分析をして予測モデルをつくるアナリストの判断に負けたわけです。業界の玄人がデータ分析者に赤っ恥をかかされたことは以前にもありました。たとえば、野球の世界。映画「マネーボール」で描かれたように、統計解析理論による選手の成績予測が、スカウトの経験にもとづく直観とか勘に勝った・・・といわれました。

 そして、それ以前、1990年には、ボルドー・ワインの質(競売価格)を予測する回帰分析予測モデルが発表されて話題になりました。数式モデルをつくったのは、データサイエンティストの先駆者と呼ばれたりもする、プリンストン大学の経済学者 オーリー・アッシェンフェルター。彼は大のワイン好きがこうじて、過去数十年の気象データとワインの競売価格との相関関係を分析してつぎのような等式を発表しました。

 ワインの質=12.145 + 0.00117 x 冬の降雨 + 0.0614 x 育成期平均気温 - 0.00386 x 収穫期降雨

 当然のことながら、その道の批評家や通人は激怒しました。ワインを数式で表すなんて、神を冒涜するに等しい!でも、この数式の予測は当たったのです。

 いまでは、ワイン業界のひとたちも、気象データにも気を配りながら、ワインの質を予測するようになっています。野球界においても、米メジャーリーグの大半のチームが、統計解析とスカウトの長年の経験にもとづく勘と、両方を利用しています。そして、シルバーネイトは著書で、気象予報においても、コンピュータと予報士の判断と両方を組み合わせたほうが、コンピュータプログラムだけのときより10%から25%も正確な予報ができると書いています。 

 クリス・アンダーソンは、ビッグデータの時代においては、相関関係だけで十分で、因果関係を知る必要はなくなると大胆な発言もしました。つまり、相関関係だけで予測はできるということです。それが事実ではあっても、因果関係を知らなくてもよいなどど考える科学者が存在するでしょうか? ビジネスの世界では、予測さえできればOKということもあるかもしれません。が、でも、人間というのは好奇心があり、それがあるから発見も発明も生まれるわけです。たとえお金にならなくても因果関係を知りたいというビジネスパーソンも多いのではないでしょうか?

 いずれにしても、データサイエンティストもビッグデータも、まだ、言葉が先行して流行している状況のようです。だいたいにおいて、データサイエンティストとかビッグデータという言葉が、数年後につかわれているかどうか? 最近のIT関連の新語は、あまり真面目に定義しないほうがよいようです。

New! 「ソクラテスはネットの無料に抗議する」を出版しました。内容については をクリックしてください

 

参考文献: 1. John Cassidy, Brooks  vs. Silver: The Limits of forecasting Elections, The New Yorker 10/24/12, 2. Thomas H. Davenport, Research Report "The Human side of Big Data and High-Performance Analytics, International Institute for Analytics, August 2012, 3. Michael cosentino, How did Nate Silver predict the US election?, The Gurdian 7/11/12, 4. Carole Cadwalladr, Nate Silver: It's the numbers, stupid, The Observer 17/11/12, 5. Bora Zickocic ,Nate Silver and the Ascendance of Expertise, Sicnetific American 14/11/12, 6. Gary Marcus and Ernest Davis, What Nate Silver Gets Wrong, The New Yorker, 1/25/13, 7. Andrew hacker, How he got it right, The New York Review of Books, 8.Chris Anderson, The End of Theory, will the data deluge makes the scientific method obsolete? , Wired 23/6/08, 9.イアン・エアーズ、「その数字が戦略をきめる」山形浩生訳、文春文庫 2010年

Copyright 2013 by Kazuko Rudy. All rights reserved.