Problem ze spamem pdf i spamassassinem |
Autor |
Wiadomość |
michal [Usunięty]
|
Wysłany: 2007-08-14, 17:18 Problem ze spamem pdf i spamassassinem
|
|
|
Jak zapewne większość użytkowników e-maili zauważyła, ostatnio pojawiło się sporo spamu w formacie pdf. Słyszał ktoś o jakimś skutecznym sposobie odfiltrowywania tego?
Pomysł na pozbycie się spamu wydaje się prosty - przemielić załącznik pdf przez pdftotext (wersja bez zabezpieczeń). Jednak dochodzimy do problemu z wydajnością rozwiązania - wielokrotne skanowanie tej samej wiadomości idącej na różne konta. Z tego co się orientuje, to można ustawić sobie Cache SpamAssassin Results = yes, jednak to nie jest skuteczne rozwiązanie, ponieważ wystarczy wysłać jakąś wiadomość, która niezostanie zakwalifikowana jako spam a następnie korzystając z jej id-u wysyłać dowolną ilość maili, które nie będą sprawdzane. Zna ktoś jakiegoś plugina do SA umożliwiającego inteligentniejsze cacheowanie? |
|
|
|
 |
Maciek_Rutecki
Administrator
JID: [email protected]
Pomógł: 39 razy Dołączył: 07 Cze 2005 Posty: 2959
|
Wysłany: 2007-08-14, 19:21
|
|
|
michal napisał/a: | przemielić załącznik pdf przez pdftotext |
A ten pdf nie zawiera obrazka?
Nie zam sie na tym, ale pdf, który nie zawiera normalnego tekstu, tylko gif to na 99% spam. |
_________________ Maciek
http://www.maciek.unixy.pl |
|
|
|
 |
michal [Usunięty]
|
Wysłany: 2007-08-14, 19:52
|
|
|
Akurat te zawierają tekst - no i tylko pierwsza strona to coś sensownego, reszta wygląda jak /dev/random.
Jeśli pojawią się z obrazkami, to będę musiał jednak pobawić się pdf2html (oparte na pdftotext). Problemem są głównie zasoby potrzebne na obróbkę tych pdf'ów - po włączeniu na 10 minut odrzucania maili z pdf'ami, zostało odrzuconych ponad 7000 listów... Ile wśród nich było faktór i tego typu ważnych spraw to nie wiem... |
|
|
|
 |
Maciek_Rutecki
Administrator
JID: [email protected]
Pomógł: 39 razy Dołączył: 07 Cze 2005 Posty: 2959
|
Wysłany: 2007-08-14, 20:22
|
|
|
Nie mam tego śmiecia pod ręką[1], ale co zawierają nagłówki author, title itp tego pdfa?
[1] ale za to mam txt spakowany zipem |
_________________ Maciek
http://www.maciek.unixy.pl |
|
|
|
 |
michal [Usunięty]
|
Wysłany: 2007-08-14, 21:03
|
|
|
Nic nie ma, jest tylko pdf w załączniku - dlatego jest to trudno odfiltrować. |
|
|
|
 |
grzes

JID: [email protected]
Pomógł: 11 razy Dołączył: 07 Cze 2005 Posty: 1317
|
|
|
|
 |
Maciek_Rutecki
Administrator
JID: [email protected]
Pomógł: 39 razy Dołączył: 07 Cze 2005 Posty: 2959
|
Wysłany: 2007-08-14, 22:27
|
|
|
Hmm, jakby poszukać coś wspólnego w tych pdfach. Jedyne na co zwróciłem uwagę, że nie jest możliwa edycja, a nawet drukowanie (właściwości dokumentu). No i są zabezpieczone hasłem. |
_________________ Maciek
http://www.maciek.unixy.pl |
|
|
|
 |
michal [Usunięty]
|
Wysłany: 2007-08-15, 11:24
|
|
|
No tak, ale zawsze można to obejść - łatka poniżej umożliwia przerobienie tego na tekst przy pomocy 'pdftotext -l 1'
http://www.stardust.webpa...crap/xpdf.patch
Cholera, wczoraj chyba trochę narozrabiałem... |
|
|
|
 |
lofix
Windows addicted

JID: karol (na) satanbsd.org
Dołączył: 14 Cze 2006 Posty: 78
|
Wysłany: 2007-08-23, 07:43
|
|
|
podepnij se do MTA greylist
działa na 99% spamów (z autopsji) |
_________________ jid: karol// 4programmers.net (i/lub) karol//SatanBSD.org
poczta: taka sama jak JID`y |
|
|
|
 |
|