いろいろやってみるにっき

なんとか自分の会社を立ち上げるところまで漕ぎ着けた、てきとーに生きている奴の日記

https化に伴い、表示できなくなっているリンクについて修復中。
2018年から遡って修正し、2015年分まで修正完了。


報道機関が意味が定まっている単語を、異なる意味で用いるのはとても困る。

TLで流れた時は記事タイトルを見てふ~んと見過ごしてしまったが、動いたって話聞いたことないぞと思い、記事を読んで呆れた。

 みずほ銀が刷新するのは入出金や銀行口座の管理を担う勘定系システム。接続テストや移行への予行を経て、2018年度から段階的に切り替える予定だ。

みずほのシステム完成、金融界にも安堵 :日本経済新聞

『接続テストや移行への予行を経て、2018年度から段階的に切り替え』 ってやっぱり動いていないじゃないか。テストさえ終わっていないのは「完成」とは言えないだろ。いつから言葉の定義が変わったんだろう。

 

システムとか建造物とかの場合、工場で製造するようプロダクトとは異なる。検査前のものを「完成品」と呼んで「完成品検査」を経て出荷をするわけではない。

 

そもそも一行目から完成していないことを示唆している。

みずほ銀行が新たな勘定系システムの完成にめどをつけ、

みずほのシステム完成、金融界にも安堵 :日本経済新聞

『めどをつけ、』。うん、これは完成していませんね。

 

続いてはNHK。開票特番でも見たこちら。

それに立憲民主党の枝野代表が演説で語った言葉について、使われた単語の回数を数える「テキスト・マイニング」という手法で徹底分析。

 

『マイニング』の意味に「回数を数える」は無い。今だとマイニング単独で使用するときはビットコイン等の仮想通貨の採掘などに使用される通り、「採掘」が第一に来る。

 

テキストマイニングは元々先にデータマイニングがあって、テキストでも同じように有用な情報を「採掘」することを目的としている。

 

そういうわけで英語などのように「わかち書き」しない日本語の場合は、単語単位に区切る形態素解析も処理に加わるが、頻度の調査だけではなく係り受け解析、単語間の関連をクラスタ化するクラスタ解析などがある。

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

 
入門 自然言語処理

入門 自然言語処理

 
言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

 

 

NHKみたいに『使われた単語の回数を数える「テキスト・マイニング」という手法で徹底分析』と言われると「何言っているんだこの人は」としか言えない。徹底していないですやん。いや、形態素解析して頻度を調べるのもテキストマイニングの一要素ではあるが。こういう風にカバーする範囲が広い単語の一部だけを取り出して、狭い意味で使用されるのが一番厄介である。

 

さらに選挙特番でも似たようなものを見たコレである。 

http://www3.nhk.or.jp/news/web_tokushu/still/web_tokushu_2017_1024_2_02_abe_words.jpg

党首演説「言葉」に見る戦略|NHK NEWS WEB

どうやらNHKは本当に形態素解析をして頻度を見ただけのようだ。通常このようなインフォグラフィック(infographics)を作成する場合、単語の大きさで頻度、単語間の関連の強さを単語の距離で表す。そうすることによってテキストマイニングによって「採掘」された意味を視覚的に表示することができる。

 

特に注目したいのが、「北朝鮮」という言葉です。
安倍総理大臣は選挙期間を通して常に多用し、「緊迫した情勢に対応するため、安定した政権の継続が必要だ」と訴えました。これに関連して、「ミサイル」(48回)、「圧力」(42回)、「脅威」(40回)という言葉も多く使い、国家の危機であると強調しました。

党首演説「言葉」に見る戦略|NHK NEWS WEB

多く使われたという割には「ミサイル」「圧力」「脅威」は文字が小さく、しかも「北朝鮮」の近傍には無い。いや、「脅威」なんて探すのに苦労した。なんで「中小企業」の右肩の位置にあるんだろう。これではなんとなくそれっぽいものを作りました感が否めない。頻度は少ないかもしれないが「拉致問題」「めぐみさん」も「北朝鮮」から離れているうえ、「北朝鮮」の上には「いま」「投資」「個人」「子ども」が並び、「北朝鮮」の下には「世界」「年金」である。どう見てもいい加減に作っている。

 

これを書いたときにも記載した通り、頻度を調べただけで分析してないw

 

機械学習・深層学習を使えるようになって、テキストマイニングは身近になっている。上に挙げたような書籍でもいいし、論文でもいいので興味がある方は読んでみてほしい。また探せばツールもある。

https://scholar.google.co.jp/scholar?hl=ja&as_sdt=0%2C5&q=%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0&btnG=

 

そういえばNHKには似たような前科がある。AIである。AIと名乗るAIではない何かを使って炎上した。

番組の問題点が分かりやすいツイートだとここらへん。

  

東洋経済週刊ダイヤモンドとライバル誌同士でも取り上げている。ダイヤモンドのほうがコンパクトで分かりやすいかも。


なんかこういう「自分たちが考えた結論」ありきの報道とか、学術的に定まっている単語の誤用とか、面倒ごとが増えるのでやめてほしい。