ClockRoom

ベイズの定理 | 運営ノート

ベイズの定理

以前に学習型コメントスパム対策を実装しましたが、早くも作りなおしてしまいました。 従来仕様でも特に問題はなかったのですが、やはり、学習アルゴリズムが大雑把というか知性がないので(汗)

というわけで、トークンの傾向と対策に定評のあるベイズ理論を・・・ 残念ながら「ベイズ理論」という理論はよく知らないので「ベイズの定理」を応用しました(笑)

「ベイズの定理」など言葉だけで頭が痛くなりそうなイメージですが、実は超簡単。 至極当然なことを「小難しい理屈」と「小難しい数式」で体系化しているだけ(爆)

P(B|A)=P(A|B)P(B)/P(A)

小難しいですねぇ。 てゆーか、意味不明ですねぇ(^^; この数式の具体的な意味は ────

  1. “でっかい”を含むメールが10通ある
  2. そのうち4通はスパムメールだった
  3. “でっかい”を含む新着メールがスパムメールである確率は40%である

ね? 簡単でしょ? これが本当に「至極当然」かどうかは議論が尽くされておりませんが、経験的、直感的にはなんら疑問はないと思います。 このとおり、ベイズの定理は超簡単なのです。 それよりも、本当の難題は複数のトークン(メールなら単語)からベイズの定理で得た複数の確率の調理法(ry

話を戻して、割と利口になりましたが、誤検知は回避できません。 巻き込まれたらご連絡ください。

コメント

”でっかい”は、これからあまり使わないようにしよう(違

coho | 2009/02/10 11:57

♪ でっかい でっかい でっかい でっかい でっかい でっかい でっかい でっかいシアワセです。

Y.Kumagai | 2009/02/10 23:40

上のコメントにおける”でっかい”の40%がスパムれす(大違

coho | 2009/02/11 04:57

まあ、そもそも投稿内容は見てないんだけどねw 投稿以前にフォームを隠して投稿できなくする仕組みだから。

Y.Kumagai | 2009/02/11 12:59
名前
内容
送信

※URLを含むコメントはできません。