2018.01.18 |
---|
ベイズ理論を応用した迷惑メールフィルターとは?
ベイズ理論を応用した迷惑メールフィルターとはどのようなものでしょうか。
・・・昨日のブログで書けなかったので自分の理解のためにも今日少し書いてみます。
すでにあちこち文献は散見されますが。
迷惑メールフィルターの仕組みは以下のようなものです。
まず迷惑メールを調べ、迷惑メールの特徴をリストアップします。
例えばURLが書いてある、〇〇という単語がよく使われている、などなどです。
そのデータを元に「迷惑メールデータベース」を作成しておきます。
そして新しいメールが届いた際に、作成したデータベースと比較します。
データベースの特徴と新しいメールを比較して、データベースにある特徴が頻出されたらそのメールは迷惑メールと判定されます。
さらに新しい特徴が発見されればデータベースの情報をアップデートします。
逆に、迷惑メールフィルターが迷惑メール判定をしても、人間の手によって「迷惑メールではない」と否定されればデータベースの見直しを行い、その情報もアップデートします。
つまり、メール情報が蓄積されればされる程「迷惑メール判定」の精度(正確さ)が上がっていくという仕組みです。
判定結果もデータベースにフィードバックして取り込み、さらに新たな予測を計算していくことができるというところがベイズ理論の応用ですね。
創業してから何十年、といううなぎ屋さんの「うなぎのタレ」のようですね!(ちょっと違う?)
(記:藤井)