ベイズの定理
以前に学習型コメントスパム対策を実装しましたが、早くも作りなおしてしまいました。 従来仕様でも特に問題はなかったのですが、やはり、学習アルゴリズムが大雑把というか知性がないので(汗)
というわけで、トークンの傾向と対策に定評のあるベイズ理論を・・・ 残念ながら「ベイズ理論」という理論はよく知らないので「ベイズの定理」を応用しました(笑)
「ベイズの定理」など言葉だけで頭が痛くなりそうなイメージですが、実は超簡単。 至極当然なことを「小難しい理屈」と「小難しい数式」で体系化しているだけ(爆)
P(B|A)=P(A|B)P(B)/P(A)
小難しいですねぇ。 てゆーか、意味不明ですねぇ(^^; この数式の具体的な意味は ────
- “でっかい”を含むメールが10通ある
- そのうち4通はスパムメールだった
- “でっかい”を含む新着メールがスパムメールである確率は40%である
ね? 簡単でしょ? これが本当に「至極当然」かどうかは議論が尽くされておりませんが、経験的、直感的にはなんら疑問はないと思います。 このとおり、ベイズの定理は超簡単なのです。 それよりも、本当の難題は複数のトークン(メールなら単語)からベイズの定理で得た複数の確率の調理法(ry
話を戻して、割と利口になりましたが、誤検知は回避できません。 巻き込まれたらご連絡ください。