投票行動の調査方法はソーシャルメディアの勝ちだった米大統領選

朝のニュース番組では日本時間の昼頃には大勢が判明って聞いたような気がしたが、日本の株式市場が終わっても確定しなかった米大統領選。

開票が始まる前にこんな記事が出ていた。

一方、事前のメディアの調査ではヒラリー優位。CNNjを中心にBBCや日テレニュース24、TBSニュースバードなどをザッピングしていたのだが、トランプ優位が判明するにつれてCNNが予測が外れたことに対してお通夜状態にｗ。

日本でもネットでは衆院選・参院選・統一地方選などの全国規模の選挙のたび、「出口調査では是非○○党に」というフレーズが飛び交う。しかし、まだTV局の出口調査が全く予測を外す事例はまだない。

米大統領選では出口調査ではなく世論調査のようだ。出口調査にせよ、世論調査にせよ全数調査は不可能。それだけの調査員を派遣することには無理があるし、期日前投票もあるし、答えない人もいる。そこで標本調査ということになるわけだが、標本に偏りが出れば調査結果も偏る。

このような検討の結果、割り当て法にあった主観性の介入という問題を解決するため、調査員の主観を全く介さない「無作為抽出法」がクローズアップされるようになり、今日に至っています。現在、マスコミ各社が行っている電話による世論調査や選挙結果の予測でよく使われている「RDD法」もこの一種です。

RDDとはRandom Digit Dialingの頭文字で、この方法では電話をかける番号は機械によってランダムに作成されます。このため、対象の抽出には調査員の主観が入り込む余地がなく、文字どおり無作為になります。他方で、RDD法によれば、電話の加入者が対象となるため、一般家庭も会社も選ばれる可能性があり、個人を対象とすることを意図しながら、会社に電話がかかってしまうことがあるという問題があります。一般家庭に電話がかかった場合であっても、その家庭でどの個人に回答してもらうかを決める必要があります。その場合に、最初に電話口に出た人に回答を求めることにするとしたら、年齢や性別に偏りが出るおそれがあります(例えば、日中の昼間に電話に出るのは主婦や仕事を離れた高齢者が多いなど)。このため、一般家庭に電話をかけた際には、例えばその世帯で最初に誕生日を迎える人に回答してもらうなどして無作為性を確保するための工夫が必要となります。

このほか、電話調査では、調査を受ける側からすると「誰が調査を行っているのか」、「秘密が守られるのか」などといった事情が確認しにくいため、回答率が著しく低くなることがあります。また、固定電話の番号を対象にRDD法を行った場合には、携帯電話しか持っていない人が対象から除かれてしまう一方、一家に2台以上の電話を持っている家庭は調査に当たりやすいなどの問題点があることも指摘されています。

社会人のためのデータサイエンス演習オフィシャルスタディノート―データサイエンス・オンライン講座無料で学べる大学

作者: 総務省統計局
出版社/メーカー: 日本統計協会
発売日: 2016/03
メディア: 単行本
この商品を含むブログを見る

今回の米大統領選では主な予測が外れたわけだが、インドのMoglAはどのように予測したのだろうか。

MoglAは膨大なインターネット情報の中から「一般大衆がどれだけネット上で候補者のサイトにアクセスしたりその言動を引用したりしたか」を割り出し、その数値が高い方を評価する。しかしあくまで「数」が問題で、その内容については判断しない。

実際、ヒラリーとトランプのツイッターのフォロワーの数を比べるとヒラリー約1000万人に対し、トランプは1280万人。過去のツイート数もヒラリー9500弱に対しトランプ3万3800強、と圧倒的にトランプが多い。発言が多ければそれにアクセスする人の数も多くなる。

また、トランプ氏には何かと問題発言が多く、それがネットでニュースになることも当然ながら多い。トランプ批判のニュースサイトであっても、そこにアクセスする人が多ければMoglAは「ネット上でトランプに関心を持つ人が多い」と判断する。

米大統領選、AIはトランプ有利を予測 WEDGE Infinity(ウェッジ)

なかなか興味深い。通常このような調査では「ネガティブ」「ポジティブ」などを判定結果に反映させることが多いが、MoglAは「数」だけ。逆に統計的なのかもしれない。開票速報番組でも、トランプに投票するつもりだが、外聞的にトランプとは答えにくいのでトランプ以外と回答する「隠れトランプ」が多かったという話になっていたし。

あと記載がないので想像だが、MoglAはクロールできた分全部を対象としているようなので、全数調査ということになるのだろう。標本調査に全数調査が勝ったという話かもしれない。