いろいろやってみるにっき

てきとーに生きている奴の日記

https化に伴い、表示できなくなっているリンクについて修復中。
2018年から遡って修正し、2015年分まで修正完了。


きちんと取得された統計情報でさえ、TVに掛かれば正しい数字が出てこない

ぱっと見、変だなと思ったのはこのツイートから。

画像

 

ハッシュタグの付いている文字列は番組名かなと思って調べてみた。番組サイトあった。


そもそも最初の疑問はコレ。散歩前で支度しながらなので、読み返すとちょっと意味わかんないけど。

 

で、こうなって

すぐに検索出来て、

こうなる。

 

あれこれ済ませてから思い出して計算してみた。

 

で、こんなに合わないことってあるんだろうかと思って、もう一度ツイートに貼られているスクリーンショットを見てみた。2018年って書いてある。オレが上記ツイートで張ったのは令和元年データ、ということは2019年である。なぜ1年前のデータ使っているのかわからないが2018年データを探した。

 

二人以上世帯のデータはこのページからExcelファイルがダウンロードできる。

各種分類別データ(平成30年) ― 家計の金融行動に関する世論調査[二人以上世帯調査](平成19年以降)|知るぽると

同じように単身世帯のデータはこちら。

各種分類別データ(平成30年) ― 家計の金融行動に関する世論調査[単身世帯調査](平成19年以降)|知るぽると

 

するとなんということでしょう!。414万円は出てきたw。そりゃそうだ、TV屋が難しい計算をしているはずがない。二人以上世帯の中で(借入金がある世帯)ー(住宅ローン残高)だった。

f:id:shigeo-t:20200126084724p:plain

あと、二人以上世帯の中で(借入金がある世帯)ー(住宅ローン残高)だとしても回答数が異なるので、それぞれ回答数を掛けてから引き算をするとこうなる。550万円ですね。

f:id:shigeo-t:20200126091638p:plain

 

で、この平均414万円は統計的にどうなのか。50歳以上の世帯ということで言えば単身世帯も加えるべきだし、平均というなら借金が無い世帯も加えるべきでは?

元の統計には中央値も付いている。例えば二人以上世帯の項番29はこんなデータ。

f:id:shigeo-t:20200126085804p:plain

文字が小さくて見辛いので中を非表示にする。

f:id:shigeo-t:20200126085924p:plain

30歳代、40歳代は平均と中央値が近く、分布的に平均はこの統計データを代表するデータと言える。しかし、TVのテロップになっていた50歳代は平均1,488万円に対して中央値は995万円。これは平均を使う方がおかしい。平均を使うなら全世帯の項番30-項番31で179万円だろう。179万円じゃインパクト無いけど。

 

あと、これはニッポンのミカタ という番組の問題ではないが、借金はあるけど金額無回答12.6%はちょっと多過ぎないか?厳密な金額じゃなく幅のある選択肢なんだし。本来的には抜いて統計を作らないと金額には信憑性が無い。でも回答数364の中の12.6%を引いてしまうと300ちょっとになってしまう。元々全体で3,579世帯(項番28による)というのが少ないんじゃないか?

 

56%のほうも疑わしくなったので表にまとめてみた。やはりこれも二人以上世帯だけの56.2%が元だった。単身世帯を加えた総世帯なら43.2%である。

f:id:shigeo-t:20200126085540p:plain

 

ということで元の統計データもどうなのよって感じはあるが、それでも通常のTV局がやる統計よりは母数が大きいのでより実態に近いのではないかという気がする。ところがそういう統計を使っても、やっぱり正しい数字が出てるとは言えない。

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)