いろいろやってみるにっき

てきとーに生きている奴の日記

古いエントリのサムネイル画像がリンク切れになってたりするけど、チマチマ修正中


内閣官房のITダッシュボードから分かる、(本当の意味での)オープンデータ化の遅れ

昨日の夕方このようなツイートが流れていたので、早速見てみた。 

 

大きくは4つの大項目に分かれている。

  1. IT投資の状況
  2. 各種施策の状況
  3. データ取得
  4. 政府のオープンデータ

ミーティング開始予定時刻だったので、ちょっと政府のオープンデータだけ見てみた。

政府のデータは色々データが公開されているので、過去のエントリなどにも使っている。

でも使いたいデータの多くはhtmlやPDFだったりXLS(xlsx)だったりして、データとして活用するためには手間が掛かる。


そしてITダッシュボードの政府のオープンデータでは、これまで持っていた印象通りのデータが。マウスオーバーで情報が表示されるグラフである。PDFのところにマウスを合わせたが、次のピンクはhtml、その次の歌丸師匠カラーはXLS。ほとんどは使いにくいデータフォーマットである。文書がPDF/htmlというのは仕方ないが、ここにデータも含まれるから困る。

f:id:shigeo-t:20160622033022p:plain

そして、上記データはデータ取得のCSVダウンロードからCSVで取得できる。でもこのCSV(OneDriveに入れておいた)のデータ、そのままグラフを書いても上記のグラフにならない。OneDriveのリンクを貼っておいたのでヒマなら見ていただきたい。せっかくのCSVだが使えねえ。

使えねえけど頑張って集計した。頑張ったのはExcelだけど。オレの割と速いPCでも数分かかった。

f:id:shigeo-t:20160622043608p:plain

これもOneDriveに入れたのでダウンロード可能。集計機能使ったのでxlsxである。あと、これを見て分かるようにexeとかZIPとかLZHは中身の拡張子が重要であって、このままデータ化されても困るんですけど。

 

そして実は先の経済産業省のツイートの前に、こんなツイートをしていたのだった。

 某がまるで隠れていないし、隠しても仕方ないのではっきり書くと、下記である。

  日本食品標準成分表2015年版(七訂)について:文部科学省

データとして必要だったので必要な分を全部ダウンロードしたのだが、101ファイルあった。単に見た目の成形のためにExcelファイル化されている。 これを政府のオープンデータ文部科学省に絞ってデータ形式を見てみると下記の通りである。

f:id:shigeo-t:20160622034605p:plain

さきほどと同じで歌丸師匠カラーはマウスオーバーで分かる通り、XLSである。ほぼ半分がXLSである。

そしてマウスオーバーしていないデータだが、最初の8.5%がxlsx、22.3%はPDF、18.5%はhtml、数字が見えない細いデータ部分は「未設定」で0.6%。XLSとxlsxを足すと、過半数である。CSV/TSVとかRDFとかのように、機械判読性が高いデータ形式は1つも無い。これはひどい。ひどいよ文部科学省

府省全体を再掲するが、マウスオーバーで見える昔の歌丸師匠カラーのCSVは3.3%しかない。XMLは何とか見えて0.9%、RDFに至ってはどの程度あるのかグラフからは分からない。

 

f:id:shigeo-t:20160622040703p:plain

 

この政府のオープンデータも、RESASみたいに絞り込んで作ったグラフのデータをダウンロードできればよかったのに。

 

これはオープンガバメントの観点から見て大問題である。

政府や公的機関ではそれぞれのが保持するデータは原則オープンとして積極的な公開を進めています。具体的にはデータの2次利用を妨げないライセンスを基本とし、機械判読式データやAPIの整備などウェブを通じて手軽にデータのダウンロードや利用ができるような環境を目指しています。

全然じゃん。RESASなどのようにアプリという形での提供もいいが、まずは一番簡単なCSVでもいいんじゃないだろうか。データを公開する側も成形のためにXLS(xlsx)化する手間もいらないし、使う側としても機械判読性も高く使いやすい。RDFXMLにしてくれっていう贅沢は言わない。頼むからせめてCSVでお願いしたい。

 

今のオープンデータ界隈って、ハッカソンとかやってオープンデータを普及しようとか、そういう動きは見える。でも、オープンデータが必要だということが分かっている意識高い系が集まってわいわいやっているだけで、「オープンデータなにそれ」の人たち(政府内もそうだし地方公共団体もそう、利用者もそう)への普及には全く寄与しない動きである。

今の日本におけるオープンデータ化が進まないという問題は、オープンデータとはなんぞや、オープンデータ化が進むとこういうメリットがあるよという啓蒙が無いことと、もう一つは何といっても(対オープンデータの)意識高い系用のツールや仕組みしかなく、意識高くない系の普通の府省、都道府県、市町村には全く使いこなせない。CSVでもいいんだよという啓蒙さえ足りない。

 

ハッカソンとかアイディアコンテストやって、内輪(オープンデータに対して意識高い系)で盛り上がっている場合じゃないと思うよ。

 

長くなったのでここまでとするが、そういう状況を打破するネタは持っている。お金が付かなかったので別の課題(下記)を先行することにした。

 

弱小零細企業としては人も金も無く、このままだとオープンデータ系は数年先にリトライできるかどうか。もしオレのネタを知りたいというならパブリックドメイン化してもいい。人とお金をくれるんでもいい。今日は時間が無いので書かない。要お問い合わせ。

 こんな本があるのかww。タイトル長いわ。

お時間あったら、他のエントリもクリックして頂ければ幸いです。