UTF-8 Problem mit HEINLEIN Spamassassin Rules?

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

UTF-8 Problem mit HEINLEIN Spamassassin Rules?

Matthias Egger-2
Hallo Liste, Hallo Peer

Wir kriegen seit einigen Tagen (genauer seit dem 10.3.2019) jeweils beim
kompilieren der Rules mittels sa-compile eine Fehlermeldung:

---
Wide character in print at /usr/bin/sa-compile line 433, <$fh> line 2408.
---

Schuld daran scheint die folgende Heinlein Datei zu sein:

---
spamassassin_heinlein-support_de/70_HS_body.cf
---

Es gab da anscheinend schon einmal Probleme mit der Heinlein Liste im
letzten November. Im damaligen Bug schrieb diesen Februar Henrik Krohns:

"Well if Heinlein is reading this, do not use UTF8 in rule files. That's
the most simple fix."

https://bz.apache.org/SpamAssassin/show_bug.cgi?id=7645#c12

Wenn man bei den normalen SA Rules schaut sind die meisten Files
entweder "ASCII" oder "ISO-8859":

     58 ASCII
      1 data
      2 empty
      1 HTML
      6 ISO-8859

Bei Heinlein:
     2 ASCII
     2 UTF-8

So auch eben die:

spamassassin_heinlein-support_de/70_HS_body.cf: UTF-8 Unicode text, with
overstriking

gibt es irgend einen Workaround den man machen kann bis heinlein die
Listen fixen (wenn überhaupt?)?

An einer veralteten SA Version unsererseits kann es eigentlich auch
nicht liegen:

---
SpamAssassin version 3.4.2
  running on Perl version 5.24.1
---

Lieber Gruss
Matthias

--
Matthias Egger
ETH Zurich
Department of Information Technology          [hidden email]
and Electrical Engineering
IT Support Group (ISG.EE), ETF/D/102          Phone +41 (0)44 632 03 90
Sternwartstrasse 7, CH-8092 Zurich            Fax   +41 (0)44 632 11 95


smime.p7s (5K) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: UTF-8 Problem mit HEINLEIN Spamassassin Rules?

Thomas Wagner
At least this patch eliminates the warning.
To be checked is now, do the resulting files written still work
propperly?
If someone wants to do a run without and then with the patch.
Then check the diff of the files "scanner<number>.re"

======
inspired by
https://stackoverflow.com/questions/47940662/how-to-get-rid-of-wide-character-in-print-at


--- /usr/bin/sa-compile.old    Fr. Okt  5 20:20:25 2018
+++ /usr/bin/sa-compile Do. Mär 14 16:40:41 2019
@@ -394,6 +394,8 @@
     open(my $re, ">scanner${numscans}.re")
       or die "cannot create scanner${numscans}.re: $!";

+    binmode($re, "encoding(UTF-8)");
+
     print $re <<EOT  or die "error writing: $!";
 #define NULL            ((char*) 0)
 #define YYCTYPE         unsigned char
======

Thomas

On Thu, Mar 14, 2019 at 10:38:53AM +0100, Matthias Egger wrote:

> Hallo Liste, Hallo Peer
>
> Wir kriegen seit einigen Tagen (genauer seit dem 10.3.2019) jeweils beim
> kompilieren der Rules mittels sa-compile eine Fehlermeldung:
>
> ---
> Wide character in print at /usr/bin/sa-compile line 433, <$fh> line 2408.
> ---
>
> Schuld daran scheint die folgende Heinlein Datei zu sein:
>
> ---
> spamassassin_heinlein-support_de/70_HS_body.cf
> ---
>
> Es gab da anscheinend schon einmal Probleme mit der Heinlein Liste im
> letzten November. Im damaligen Bug schrieb diesen Februar Henrik Krohns:
>
> "Well if Heinlein is reading this, do not use UTF8 in rule files. That's
> the most simple fix."
>
> https://bz.apache.org/SpamAssassin/show_bug.cgi?id=7645#c12
>
> Wenn man bei den normalen SA Rules schaut sind die meisten Files
> entweder "ASCII" oder "ISO-8859":
>
>      58 ASCII
>       1 data
>       2 empty
>       1 HTML
>       6 ISO-8859
>
> Bei Heinlein:
>      2 ASCII
>      2 UTF-8
>
> So auch eben die:
>
> spamassassin_heinlein-support_de/70_HS_body.cf: UTF-8 Unicode text, with
> overstriking
>
> gibt es irgend einen Workaround den man machen kann bis heinlein die
> Listen fixen (wenn überhaupt?)?
>
> An einer veralteten SA Version unsererseits kann es eigentlich auch
> nicht liegen:
>
> ---
> SpamAssassin version 3.4.2
>   running on Perl version 5.24.1
> ---
>
> Lieber Gruss
> Matthias
>
> --
> Matthias Egger
> ETH Zurich
> Department of Information Technology          [hidden email]
> and Electrical Engineering
> IT Support Group (ISG.EE), ETF/D/102          Phone +41 (0)44 632 03 90
> Sternwartstrasse 7, CH-8092 Zurich            Fax   +41 (0)44 632 11 95
>



--

------------------------------------------------------------------------
New Work!
Service rund um UNIX(TM),     Wagner Network Services, Thomas Wagner
Solaris(TM), Linux(TM)        Eschenweg 21, 89174 Altheim, Germany
Windows(TM)                   TEL: +49-7340-919196, FAX: +49-731-9807711
VoIP, Netzwerke,              MOBILE/CELL: +49-175-2926064
Internet-Security             EMAIL: [hidden email]
Reply | Threaded
Open this post in threaded view
|

Re: UTF-8 Problem mit HEINLEIN Spamassassin Rules?

Peer Heinlein
In reply to this post by Matthias Egger-2
Am 14.03.19 um 10:38 schrieb Matthias Egger:
> "Well if Heinlein is reading this, do not use UTF8 in rule files. That's
> the most simple fix."

Ich habe die Regel eben wieder rausgenommen.


Aber: Die Spam-Mails HATTEN eben UTF-8 hier im Subject. Hatten sie halt.
"Isso".


Ich muß mal rauskriegen, wie SA sich vorstellt, daß man das dann filtern
können sollund/oder ob das dann am Ende nicht geht soll?


Peer


Reply | Threaded
Open this post in threaded view
|

Re: UTF-8 Problem mit HEINLEIN Spamassassin Rules?

Matthias Egger-2
In reply to this post by Thomas Wagner
Hallo Thomas,

On 14.03.19 19:12, Thomas Wagner wrote:

> At least this patch eliminates the warning.
> To be checked is now, do the resulting files written still work
> propperly?
> If someone wants to do a run without and then with the patch.
> Then check the diff of the files "scanner<number>.re"
>
> ======
> inspired by
> https://stackoverflow.com/questions/47940662/how-to-get-rid-of-wide-character-in-print-at
>
>
> --- /usr/bin/sa-compile.old    Fr. Okt  5 20:20:25 2018
> +++ /usr/bin/sa-compile Do. Mär 14 16:40:41 2019
> @@ -394,6 +394,8 @@
>      open(my $re, ">scanner${numscans}.re")
>        or die "cannot create scanner${numscans}.re: $!";
>
> +    binmode($re, "encoding(UTF-8)");
> +
>      print $re <<EOT  or die "error writing: $!";
>  #define NULL            ((char*) 0)
>  #define YYCTYPE         unsigned char
> ======
Danke! Muss nächste Woche mal schauen, wie ich das am gescheitesten
mache um Debian nicht aus dem Tritt zu bringen, falls es updates gibt.

Aber werde ich definitiv mal anschauen:

Lieber Gruss
Matthias

--
Matthias Egger
ETH Zurich
Department of Information Technology          [hidden email]
and Electrical Engineering
IT Support Group (ISG.EE), ETF/D/102          Phone +41 (0)44 632 03 90
Sternwartstrasse 7, CH-8092 Zurich            Fax   +41 (0)44 632 11 95


smime.p7s (5K) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: UTF-8 Problem mit HEINLEIN Spamassassin Rules?

Matthias Egger-2
In reply to this post by Peer Heinlein
Hallo Peer,

On 15.03.19 08:47, Peer Heinlein wrote:
> Am 14.03.19 um 10:38 schrieb Matthias Egger:
>> "Well if Heinlein is reading this, do not use UTF8 in rule files. That's
>> the most simple fix."
>
> Ich habe die Regel eben wieder rausgenommen.
Danke.. aber.. hmm:

# UPDATE version 1617

[...]
cd /tmp/.spamassassin158408w1LyOgtmp
reading bases_body_0.in
cd Mail-SpamAssassin-CompiledRegexps-body_0
Wide character in print at /usr/bin/sa-compile line 433, <$fh> line 2408.
[...]

Ist das in einer neueren Version herausgelöscht?

Wenn ich kurzfristig in der "spamassassin_heinlein-support_de.cf" den
70_HS_body.cf auskommentiere:

---
# UPDATE version 1617
include spamassassin_heinlein-support_de/20_blatspammer.cf
#include spamassassin_heinlein-support_de/70_HS_body.cf
include spamassassin_heinlein-support_de/70_HS_header.cf
---

dann rennt das ganze durch...
[...]
cd /tmp/.spamassassin159154pAe3wttmp
reading bases_body_0.in
cd Mail-SpamAssassin-CompiledRegexps-body_0
re2c -i -b -o scanner1.c scanner1.re
[...]


> Aber: Die Spam-Mails HATTEN eben UTF-8 hier im Subject. Hatten sie halt.
> "Isso".
>
> Ich muß mal rauskriegen, wie SA sich vorstellt, daß man das dann filtern
> können sollund/oder ob das dann am Ende nicht geht soll?
Müsste eigentlich... was machen denn all die Polen etc. mit diesen
Sonderzeichen... dürfen die dann nicht filtern?

http://spamassassin.1065346.n5.nabble.com/UTF8-character-in-doesn-t-match-td154199.html

Hast du vielleicht einen Tipp wie man rausfindet WELCHE Rule denn
überhaupt der Täter ist?

Lieber Gruss
Matthias

--
Matthias Egger
ETH Zurich
Department of Information Technology          [hidden email]
and Electrical Engineering
IT Support Group (ISG.EE), ETF/D/102          Phone +41 (0)44 632 03 90
Sternwartstrasse 7, CH-8092 Zurich            Fax   +41 (0)44 632 11 95


smime.p7s (5K) Download Attachment