報道機関が意味が定まっている単語を、異なる意味で用いるのはとても困る。

TLで流れた時は記事タイトルを見てふ～んと見過ごしてしまったが、動いたって話聞いたことないぞと思い、記事を読んで呆れた。

みずほ銀が刷新するのは入出金や銀行口座の管理を担う勘定系システム。接続テストや移行への予行を経て、2018年度から段階的に切り替える予定だ。

みずほのシステム完成、金融界にも安堵：日本経済新聞

『接続テストや移行への予行を経て、2018年度から段階的に切り替え』ってやっぱり動いていないじゃないか。テストさえ終わっていないのは「完成」とは言えないだろ。いつから言葉の定義が変わったんだろう。

システムとか建造物とかの場合、工場で製造するようプロダクトとは異なる。検査前のものを「完成品」と呼んで「完成品検査」を経て出荷をするわけではない。

そもそも一行目から完成していないことを示唆している。

みずほ銀行が新たな勘定系システムの完成にめどをつけ、

みずほのシステム完成、金融界にも安堵：日本経済新聞

『めどをつけ、』。うん、これは完成していませんね。

続いてはNHK。開票特番でも見たこちら。

それに立憲民主党の枝野代表が演説で語った言葉について、使われた単語の回数を数える「テキスト・マイニング」という手法で徹底分析。

『マイニング』の意味に「回数を数える」は無い。今だとマイニング単独で使用するときはビットコイン等の仮想通貨の採掘などに使用される通り、「採掘」が第一に来る。

テキストマイニングは元々先にデータマイニングがあって、テキストでも同じように有用な情報を「採掘」することを目的としている。

そういうわけで英語などのように「わかち書き」しない日本語の場合は、単語単位に区切る形態素解析も処理に加わるが、頻度の調査だけではなく係り受け解析、単語間の関連をクラスタ化するクラスタ解析などがある。

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

作者: 坪井祐太,海野裕也,鈴木潤
出版社/メーカー: 講談社
発売日: 2017/05/25
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

入門自然言語処理

作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
出版社/メーカー: オライリージャパン
発売日: 2010/11/11
メディア: 大型本
購入: 20人クリック: 639回
この商品を含むブログ (44件) を見る

言語処理のための機械学習入門 (自然言語処理シリーズ)

作者: 高村大也,奥村学
出版社/メーカー: コロナ社
発売日: 2010/07/01
メディア: 単行本
購入: 13人クリック: 235回
この商品を含むブログ (42件) を見る

NHKみたいに『使われた単語の回数を数える「テキスト・マイニング」という手法で徹底分析』と言われると「何言っているんだこの人は」としか言えない。徹底していないですやん。いや、形態素解析して頻度を調べるのもテキストマイニングの一要素ではあるが。こういう風にカバーする範囲が広い単語の一部だけを取り出して、狭い意味で使用されるのが一番厄介である。

さらに選挙特番でも似たようなものを見たコレである。

党首演説「言葉」に見る戦略｜NHK NEWS WEB

どうやらNHKは本当に形態素解析をして頻度を見ただけのようだ。通常このようなインフォグラフィック(infographics)を作成する場合、単語の大きさで頻度、単語間の関連の強さを単語の距離で表す。そうすることによってテキストマイニングによって「採掘」された意味を視覚的に表示することができる。

特に注目したいのが、「北朝鮮」という言葉です。
安倍総理大臣は選挙期間を通して常に多用し、「緊迫した情勢に対応するため、安定した政権の継続が必要だ」と訴えました。これに関連して、「ミサイル」（４８回）、「圧力」（４２回）、「脅威」（４０回）という言葉も多く使い、国家の危機であると強調しました。

党首演説「言葉」に見る戦略｜NHK NEWS WEB

多く使われたという割には「ミサイル」「圧力」「脅威」は文字が小さく、しかも「北朝鮮」の近傍には無い。いや、「脅威」なんて探すのに苦労した。なんで「中小企業」の右肩の位置にあるんだろう。これではなんとなくそれっぽいものを作りました感が否めない。頻度は少ないかもしれないが「拉致問題」「めぐみさん」も「北朝鮮」から離れているうえ、「北朝鮮」の上には「いま」「投資」「個人」「子ども」が並び、「北朝鮮」の下には「世界」「年金」である。どう見てもいい加減に作っている。

これを書いたときにも記載した通り、頻度を調べただけで分析してないｗ

機械学習・深層学習を使えるようになって、テキストマイニングは身近になっている。上に挙げたような書籍でもいいし、論文でもいいので興味がある方は読んでみてほしい。また探せばツールもある。

https://scholar.google.co.jp/scholar?hl=ja&as_sdt=0%2C5&q=%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0&btnG=

そういえばNHKには似たような前科がある。AIである。AIと名乗るAIではない何かを使って炎上した。

番組の問題点が分かりやすいツイートだとここらへん。

やはり「AI」は占い文生成おもちゃにされてしまった．　／　AIに聞いてみたどうすんのよ！？ニッポンＮＨＫスペシャルの番組公式サイトです。 https://t.co/DHOGaJSIT7
— Toyoaki Nishida (@toyoakinishida) 2017年7月22日

素晴らしい番組でしたね！弊社でも上司からAI活用とか言われているんですが、「あのNHKの番組見ました？疑似相関と因果関係の区別できないんですよ?AIはカネの無駄！」って説明しやすくなりました！https://t.co/EwTXpITq0b
— ytb (@ytb_at_twt) 2017年7月22日