トップ «前の日記(2012-04-25) 最新 次の日記(2012-04-29)» 編集

日々の破片

著作一覧

2012-04-26

_ ビッグデータとバズる前に読む本

というわけで、ビッグデータってなんだ? と思っているところに、byflowを眺めていたら、知り合いが全員が全員持っているそれっぽい本を見つけたので、買って読んだ。つい、みんなが持っているやつを買ったので、実は文庫で安くなっているのにも気づかずにハードカバーを買って読んでしまったのであった。

その数学が戦略を決める (文春文庫)(イアン エアーズ)

出版社が文藝春秋なので、とりあえず知っとけレベルの教養書だろうと思ったら、帯に『文系にもわかる知的大興奮の書!』とかくだらない惹句が小さく書いてあって、なんだこれ? と思ったけど、確かにやたらとおもしろかった。

出版年は2007年だから5年も前の話だ。ああ、データウェアハウスでBIといってたころかな。

内容は、たくさんのデータが利用できるようになったのと、高速な計算が可能になったことで、回帰分析の結果意外な説明変数が見つかった例の紹介とかがほとんどだけど、いろいろな面からおもしろかった。

要約すると、

・回帰分析によって各種予測が人間の専門家よりも正しくできるようになった分野があるよ。でも人間はプライドがあるから、なかなか機械に路を譲らなくて困るね。彼らはアルゴリズムを発見する仕事に回れば良いのに。

・無作為抽出を使ってあまりビッグじゃないデータからでもいろいろおもしろい結果が出ているよ。でも専門家が道を譲らなくて困ったなぁ。彼らはアルゴリズムを発見する仕事に回れば良いのに。

・とは言え、悪用するブッシュとかブッシュとかがいて、機械が出した推定によってほとんどの黒人は犯罪者だから選挙権を無効にしたんだよ。ゴアは選挙に負けたよ。そういうことするから、専門家は機械に路を譲らなくなるんだよね。困ったもんだ。

・正規分布している集団については標準偏差のプラスマイナス2倍の範囲に95%が入るってことを知っていると、フェルミ推計がうまくいくよ。

というところだ。

アメリカでは対照群を作って特定の政策をそれぞれに実施して結果を追うというようなことがいくつか行われているらしく(州によって行政が異なるから比較できるというようなものもあるけど、あえて異なることをするということも行われているのだ)、そこで得られた知見というのが特に印象的だ。

公文式のオリジンのように思うのだが、教師はシナリオを読み、とにかくリズムに乗って、生徒全員が言われたことを正しく答えるという授業(エンゲルマンという人が提唱)を行うと、ピアジェやチョムスキーの教育指導方法よりも圧倒的に良い生徒を作ることができるというやつ。

ふーむ、名古屋の生徒と、東京の生徒の、犯罪発生率の差とか知りたいところだ(3校禁とかに意味がないことが明らかになるだろう)。

あるいは、新しい歴史教科書がどうした教育を受けた生徒と、家永教科書(ってのは無いんだっけな)で教育を受けた生徒の、愛国意識の差とか(これまた、どっちでも変わらないという結果になるんじゃないかなぁ)、そういう研究って日本には無いんだろうか?

あるいは、アメリカみたいにドラスティックな政策を実行できそうな大阪市長がいるうちに、特定地域ではエンゲルマン流の授業をやって、他の地域と比較して日本での導入効果を調べるとかやってみるとおもしろそうだなぁ。同じように、そういうことができるのであれば、同一県内の人口比率や経済状態が同じレベル2つの市それぞれについて大きな市政策と小さな市政策をやらせて、犯罪率の上昇とか、出生率の変化をみるとか、やるとおもしろいだろうなぁとか。

というような、政策的な話も興味深いのだが、それ以上に興味深いのは、死んだはずのAIが、ある意味大きく復活してしかも意味を持っているらしい点だ(しかも5年前に)。

そこで、不思議に思ったのは、ビッグデータという言葉はやたらと耳にするが、それをどう分析するかの話については全然聞かないことだ。結局は回帰分析一択なんだろうか? あるいは、そこがノウハウだから、語られないのだろうか? あるいはおれが知らないだけで、世の中はビッグデータの個々のアイテムを構成する要素について勝手に組み合わせて、指定した従属変数に対する、適切な目的変数と係数を求めるようなシステムが普通に存在しているんだろうか?

いずれにしても、5年前とは言え、ようような分野で巨大データを利用して予測を行い、それが相当の確度で正しい結果となるというここで語られている内容は実におもしろかった。

本日のツッコミ(全3件) [ツッコミを入れる]
_ aamine (2012-04-26 03:44)

びっぐでーた屋さんをしています。日本だと、まず分析が好きな企業が少ないと思います。でっかい情報系データベースが単なる帳票出力機と化してたりとか。データマイニングなんかは、難しいの一言で捨てられがちです。アメリカだと分析の価値がわりと認められたんでそれじゃ次はでかいデータも、って流れだと思うんですが、日本は分析が受け入れられないまま次の段階がきてる感じです。もちろんお客さんもわかってる人はわかってて、ビッグデータの前に普通のデータ分析しないとー、と言われたりしますね。そういう本気で分析やってる人たちの話は面白いですが、その辺の話が出て来ないのは…やっぱり貴重だからかなあ。競合に真似されても構わないレベルのネタしか表には出ないのでは。

_ arton (2012-04-26 19:52)

今度、NDAありの内輪の勉強会でもしませんか? そのへんの本気の事例とか教えてほしいなぁ。

_ naruse (2012-04-26 20:53)

あ、わたしも聞きたいな


2003|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|04|05|06|07|08|09|10|11|

ジェズイットを見習え