ぱっと見、変だなと思ったのはこのツイートから。
50代借金世帯56%
— Paul神田敏晶 Paul Toshi kanda (@knnkanda) 2020年1月24日
住宅ローン以外の借金414万円 平均
自動車? 平均だからこの数字は怖い!#ニッポンのミカタ pic.twitter.com/mGQkgVVB5J
ハッシュタグの付いている文字列は番組名かなと思って調べてみた。番組サイトあった。
そもそも最初の疑問はコレ。散歩前で支度しながらなので、読み返すとちょっと意味わかんないけど。
TVのテロップだからわかんないけど、借金あり世帯の平均額なのか50代世帯の平均額なのか。50代世帯の平均額なら、借金あり世帯は56%だから世帯当たりだとさらに倍ってことになる……。
— ꧁🐶꧂ (@shigeo_t) 2020年1月24日
で、こうなって
出典書いてあるから出典引けばいいのか。
— ꧁🐶꧂ (@shigeo_t) 2020年1月24日
すぐに検索出来て、
これだな。
— ꧁🐶꧂ (@shigeo_t) 2020年1月24日
「家計の金融行動に関する世論調査[二人以上世帯調査](令和元年)」の各種分類別データhttps://t.co/zUV2H3ZLWP
こうなる。
データ見てるけど、テロップの計算方法おかしいっぽい。あとできちんと見る。母数が違うデータで引き算してるような気がする。
— ꧁🐶꧂ (@shigeo_t) 2020年1月24日
あれこれ済ませてから思い出して計算してみた。
どう計算してもテロップの414万円にならなくて笑った。というかこの表を作るのに30分くらい掛った。これだから神Excelは(怒)。
— ꧁🐶꧂ (@shigeo_t) 2020年1月25日
2人以上世帯かなで計算して、違うみたいなんで単身世帯も足しこんでそれでも合わない。下の表は平均×回答数で総量出して計算してから回答数で割った。 pic.twitter.com/r2sG2wvxK5
で、こんなに合わないことってあるんだろうかと思って、もう一度ツイートに貼られているスクリーンショットを見てみた。2018年って書いてある。オレが上記ツイートで張ったのは令和元年データ、ということは2019年である。なぜ1年前のデータ使っているのかわからないが2018年データを探した。
二人以上世帯のデータはこのページからExcelファイルがダウンロードできる。
各種分類別データ(平成30年) ― 家計の金融行動に関する世論調査[二人以上世帯調査](平成19年以降)|知るぽると
同じように単身世帯のデータはこちら。
各種分類別データ(平成30年) ― 家計の金融行動に関する世論調査[単身世帯調査](平成19年以降)|知るぽると
するとなんということでしょう!。414万円は出てきたw。そりゃそうだ、TV屋が難しい計算をしているはずがない。二人以上世帯の中で(借入金がある世帯)ー(住宅ローン残高)だった。
あと、二人以上世帯の中で(借入金がある世帯)ー(住宅ローン残高)だとしても回答数が異なるので、それぞれ回答数を掛けてから引き算をするとこうなる。550万円ですね。
で、この平均414万円は統計的にどうなのか。50歳以上の世帯ということで言えば単身世帯も加えるべきだし、平均というなら借金が無い世帯も加えるべきでは?
元の統計には中央値も付いている。例えば二人以上世帯の項番29はこんなデータ。
文字が小さくて見辛いので中を非表示にする。
30歳代、40歳代は平均と中央値が近く、分布的に平均はこの統計データを代表するデータと言える。しかし、TVのテロップになっていた50歳代は平均1,488万円に対して中央値は995万円。これは平均を使う方がおかしい。平均を使うなら全世帯の項番30-項番31で179万円だろう。179万円じゃインパクト無いけど。
あと、これはニッポンのミカタ という番組の問題ではないが、借金はあるけど金額無回答12.6%はちょっと多過ぎないか?厳密な金額じゃなく幅のある選択肢なんだし。本来的には抜いて統計を作らないと金額には信憑性が無い。でも回答数364の中の12.6%を引いてしまうと300ちょっとになってしまう。元々全体で3,579世帯(項番28による)というのが少ないんじゃないか?
56%のほうも疑わしくなったので表にまとめてみた。やはりこれも二人以上世帯だけの56.2%が元だった。単身世帯を加えた総世帯なら43.2%である。
ということで元の統計データもどうなのよって感じはあるが、それでも通常のTV局がやる統計よりは母数が大きいのでより実態に近いのではないかという気がする。ところがそういう統計を使っても、やっぱり正しい数字が出てるとは言えない。