9/12の日中、はてなハイクのトップ画面からスパムが消えてきれいになったというツイートを見た。早速はてなハイクのトップページを見に行ってみた。
確かにスパムに占拠されている状況ではないが、キリル文字はいないけど、英語のスパムはまだいるじゃん。国単位でリジェクトか?と思った。
はてなからは公式には何もアナウンスされていない。
新着情報 - 株式会社はてな (archive.isによる魚拓)
日本のみんなが寝ている時間なら、もう少し傾向が明らかになるだろうと思って見てみると、やはりキリル文字のスパムはいないけど、英語のスパムだらけだった。iPhoneを縦にしてバーっとスクロールしてみた。もうスパムだらけ。
そんなわけで、多分株式会社はてなはやればできる子ではなく、たまたま向こう側のトラブルか、国/TLD単位でリジェクトをやってみているレベルなんじゃないかと。で、国やTLD単位でリジェクトしてみたはいいけど、comは日本のユーザも使っている人がいるからリジェクトできないよねえという感じかな。
リジェクト周りをもう少し詳しく書いておく。
Webエントリのほうは、国単位でIPアドレスの範囲が決まっているので、その範囲でブロックできる。串を刺したら(後述)意味ないけど。
串はプロキシ(Proxy)の隠語で、「串を刺す」=プロキシ≒代理サーバ経由でのWebアクセスをすることである。プロキシが別の国にあると、ブロックしている国じゃないと判断され、アクセスできてしまう。
mailエントリのほうは、メールアドレスのTLDを見れば(日本だとjp、英国だと.uk)というccTLD(国別コード)単位でブロックできる。ただしgTLD(ジェネリック)の.comとか.netだと国が分からないし、日本国内にも利用者が多いのでリジェクトしちゃうと大問題。わかりやすい例だと、メールエントリに使っているアドレスがGmailだと、 ほにゃらら@gmail.com なので、.comのメールをリジェクトすると、オレみたいにGmailでメールエントリするとリジェクトされてしまう。英語圏というか米語圏のスパムには無力。
というわけで、たまたまキリル文字(ロシア語圏)のスパマー側のトラブルなのか、はてな側でロシア語圏をリジェクトしているのかは分からないが、もしリジェクトしているならgTLDには全く無力で無駄な努力なのでアキラメロン。
前にも書いたように、機械学習を使ってスパム対策をするか、TweetDeckクローンのブラウザで動作するクライアントを作るか、早くどっちかをやるんだはてな。
来年2~3月くらいなら多分余裕ができるので、ウチの会社でも有償でハイクのスパム対策を受け付けますけど。機械学習のほう。今はそんなことやっている余裕が無い。
どっちの案も、新人の練習としてはちょうどいいと思うんだけどな。