Bayes Autolearn Problem

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

Bayes Autolearn Problem

Hoyer-Reuther, Christian
Hallo,

ich habe mal eine Frage zu Bayes Autolearn.

SpamAssassin 3.4.0 wird durch Amavisd-new 2.10.1 verwendet. Bayes ist inkl. Autolearn aktiviert, manuelles Training mittels sa-learn wird _nicht_ durchgeführt. Das sind die verwendeten Parameter:

loadplugin Mail::SpamAssassin::Plugin::AutoLearnThreshold
use_bayes 1
bayes_auto_learn 1
bayes_auto_learn_threshold_nonspam 0.1 (Default)
bayes_auto_learn_threshold_spam 12.0 (Default)

Wenn ich im Logfile suche bzw. die Bayes-DB abfrage, sehe ich folgendes:

root@mail:~# grep -c 'amavis.*spam_scan.*autolearn=spam' /var/log/mail.log
1593
root@mail:~# grep -c 'amavis.*spam_scan.*autolearn=ham' /var/log/mail.log
39622
root@mail:~# sa-learn --dbpath /var/lib/amavis/.spamassassin/ --dump magic
0.000          0          3          0  non-token data: bayes db version
0.000          0       1626          0  non-token data: nspam
0.000          0      43672          0  non-token data: nham
0.000          0     149580          0  non-token data: ntokens
0.000          0 1481156672          0  non-token data: oldest atime
0.000          0 1481273120          0  non-token data: newest atime
0.000          0 1481272929          0  non-token data: last journal sync atime
0.000          0 1481243059          0  non-token data: last expiry atime
0.000          0      86400          0  non-token data: last expire atime delta
0.000          0      79532          0  non-token data: last expire reduction count

Hier noch 2 Beispielzeilen für Spam und Ham aus dem Log:

Dec  9 08:54:35 mail amavis[20350]: (20350-08) spam_scan: score=20.36 autolearn=spam autolearn_force=no tests=[BAYES_60=1.5,BODY_SINGLE_WORD=0.961,BODY_URI_ONLY=0.927,FSL_HELO_BARE_IP_1=2.347,MISSING_DATE=1.36,MISSING_MID=0.497,RCVD_IN_BRBL_LASTEXT=1.449,RCVD_IN_PBL=3.335,RCVD_IN_PSBL=2.7,RCVD_IN_XBL=0.375,RCVD_NUMERIC_HELO=1.164,RDNS_NONE=0.793,TVD_RCVD_IP=0.001,TVD_RCVD_IP4=0.001,URIBL_ABUSE_SURBL=1.25,URIBL_BLACK=1.7] recips=0

Dec  9 08:56:10 mail amavis[20858]: (20858-09) spam_scan: score=-4.785 autolearn=ham autolearn_force=no tests=[BAYES_00=-1.9,HTML_MESSAGE=0.001,RP_MATCHES_RCVD=-2.896,T_FILL_THIS_FORM_SHORT=0.01] recips=0

Best Practice beim manuellen Anlernen (was ich wie gesagt nicht mache) ist ja, dass ungefähr die gleiche Anzahl Spam- und Ham-Mails dafür verwendet werden sollten, ansonsten verschlechtert sich die Erkennungsleistung. Genau das scheint aber hier durch das Autolearn schief zu laufen, da deutlich mehr Ham- als Spam-Mails trainiert wurden.

In den letzten Wochen gab es mehrmals den Fall, dass einzelne User ein paar Tage lang ungewöhnlich viel Spam (alles z.T. deutlich unter 5.0) erhalten haben, so ca. 30-50 pro Tag. Ich habe nun den Verdacht, dass das mit Bayes zusammenhängt.

Hat noch jemand Bayes Autolearn aktiv und kann ähnliches beobachten?

Viele Grüße.

Christian