« お詫び? | トップページ | ヤフー、API公開スタート »

2005.12.01

TBスパム避けの方法

昨日に引き続きですが、古河社長のblogに「ココログの性能問題への対応状況」というのが出ていました。

トラックバックスパム(以下TBスパム)対策として

現在、スパムのブラックリスト生成、サーバ増設、トラックバック処理の性能改善、等を行なっています。
というのが書かれていますが、コレってあんまり有効ではないような気が(^^;
ブラックリストをどうやって作ってるかはわかりませんが、多分TBスパムを投げてくる人というのは動的IPのアドレスで大量にブチ撒けて(^^;、また新しくIPアドレスを取り直して次に・・・という感じでやってるのではないかと。
そういうやり方であれば、自動的にIPアドレスを収集して速攻でブラックリストを構築して行くようにしなきゃ効果は無いんじゃないでしょうか。
少なくとも、人手でやってるんじゃ無意味。
無意味なリストを作るために月月火水木金金毎日深夜帰宅週に何日かは必ず会社に泊まりこみな生活をさせたのではスタッフが可哀想というモノです。

# ↑何かこのフレーズ気に入ってるらしい>σ(^^;

TBスパムの送り先としては、一つには絨毯爆撃系(謎)で最後の番号部分を順に増やして・・・という方法が考えられる。
もう一つは新着記事一覧とかからURLを拾ってパースという方法も考えられる。

最初の絨毯爆撃系への対処としては、最後の番号部分が連番になってるのが元凶(?)なんだから、何文字か追加して、飛び飛びの番号(記号含めてもいいけど)にして、無効なトラックバックURLが多数存在するようにしておき、無効なトラックバックを一定数以上送ってきたIPアドレスは自動的にブラックリストに追加するというのが良いのではないだろうか?
最初のいくつかは被弾(^^;してしまうだろうが、かなり有効なブラックリストが生成できるような気がする。
ただし、この場合、別のblogサービスをしている所からわざと無効なトラックバックを送って、そのblogサービスからココログへトラックバックを送れなくしてしまうというDoS攻撃(^^;も可能になってしまうので、別途主要なblogサービスのホワイトリストは作っておく必要があるかもしれない。

次の新着一覧等から拾ってくるヤツへの対策としては、トラックバックURLの全部、または一部をグラフィックにしてしまうという手があるだろう。
これでも人手でやられるとダメだけど、自動的に収集されるのは防げる。
トラックバックURL全部をイメージにしてしまうとマットウな(?)トラックバックを送る時に面倒なので、テキスト+何文字かというのが良いかも。
上の対策と合わせて、現在のトラックバックURLの後に数文字の英数字をイメージで表示して、それを合わせて正規のトラックバックURLとするようにすれば良い。

まぁ、来年3月にはバージョンアップするらしいので、あんまりシステム自体を弄りたくないというのもあるかもしれないけど(^^;、それであればいっそ1IPアドレス、あるいはトラックバックのリンク先URLからの大量のトラックバックは処理を後回しにするという消極的な(?)方法もあるかもしれない。
一定時間内に一定個数を越えたトラックバックがあれば、そのトラックバックは積滞させておくという方法。
まっとうな(?)利用であれば、トラックバックなんてせいぜい数個という所だろうし、昨日の私の記事に付いてるトラックバックもある意味TBスパムだし(^^;

TBスパムを厳格に考えている人は、本文中にリンクの無いトラックバックはTBスパムと考えている人も少なくない。
私もそれに近い考えを持っているけど、とりあえずアフィリエイト系サイト(謎)とかでなければ、あまり厳格に考えない(=気分によって残したり消したり(^^;)という感じ。

まぁ、色々書いたけど、もうちょっと有効なTBスパム対策の方法はあるんじゃない?という事で・・・

|

« お詫び? | トップページ | ヤフー、API公開スタート »

ウェブログ・ココログ関連」カテゴリの記事

コメント

ちょっと誤解(?)を招きそうな部分があるので補足

>コレってあんまり有効ではないような気が(^^;
と書いていますが、現在の対策が有効でないと判断したのは、現在のココログの運用では、自動的にTBスパムだと判断できるようになっていないためです。
まぁ、TB先のページを取得してベイズフィルターで判定して・・・という感じで自動処理する事も可能ではありますが、リンク先ページの内容でスパムか否かを判断するというのは、またコレ別の問題(検閲問題?(^^;)にもなりかねないので、そういうのはやってないだろうなという予想

自動的にブラックリストを生成する処理を行うのであれば、何らかの具体的な判断基準が存在する必要があり、一番わかりやすい(他人に説明しやすい)のは無効URLへのトラックバックかな?と
いくつ以上がクロという数字は「別途定める一定数(^^;」で「セキュリティ上お答えできません」でも良いでしょうが、その形式に付いてはちゃんと説明可能なはっきりとした基準を用意する必要があると思います。

ベイズフィルターでとなると、その内容が関連してくる事になりますが、たとえばエロ系(^^;のサイトをクロと判断してしまうと、ココログ内のエロ系(ってあるの?)のページに対して一つだけTBしてもフィルターされてしまう訳で、ソレは流石に許されないんじゃないかなぁ?という気もする。
スパム問題を扱ったblogがスパム先の内容を引用してたりすると、それが引っかかってしまう可能性もあるから、そういうblogから別のスパム問題を扱ったblogへトラックバックできないのも困るかもしれないし。

私もメールでスパム分類にベイズフィルターを使っていて、かなり有効であることは認識していますが、誤認識は0ではないので、ココログでシステムワイドに利用するのはちょっと難しいかな?という気はします。

投稿: <セルダン> | 2005.12.01 20:49

ココログスタッフルームに「トラックバックスパムとレスポンス対策について」というのが記載されてますね。
読んでみると、私が上で書いた「いっそ1IPアドレス、あるいはトラックバックのリンク先URLからの大量のトラックバックは・・・」というあたりの条件で自動ブラックリスト入り程度の処理はされているようで、自動処理してないんじゃない?というのは杞憂だったようです。失礼しました。

しかし、この記事、これまでになく詳細な説明ですねぇ
私が古河社長のblogにトラックバックしたのが07:53 PM、スタッフルームの記事が08:39 PMという事は、トラックバック見て「ちゃんと考えてんだよ!角度とか」という事で詳しく書いたのかなぁ?
それとも単なるシンクロニシティ?(^^;

まぁ、何にせよ、根本的な対処となるとやはりトラックバックURLの一部イメージ化とか、そういうシステム自体を弄るような形でないと難しいのかもしれませんね。
あるいはトラックバックだけ別ページにして、記事からはトラックバックページへリンクするような形で分離するとか。

投稿: <セルダン> | 2005.12.01 23:37

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: TBスパム避けの方法:

« お詫び? | トップページ | ヤフー、API公開スタート »