
Blokuje blogowy spam
↓ Przejdź prosto do tabeli technik w Sblam!
Nie ma idealnego, stuprocentowo skutecznego sposobu na spamerów. Wszystkie „genialne wynalazki” można podzielić na kategorie:
czyli poleganie na oczywistych niedoróbkach w botach i technikach spamowania, np. nieprawidłowym odczytywaniu HTML albo idiotycznym wypełnianiu pól w formularzach. Te techniki przestaną działać jak tylko spamerzy zauważą swoje błędy.
czyli bardziej techniczne rozwinięcie poprzedniego wykorzystujące fakt, że boty jeszcze czegoś nie potrafią, np. nie obsługują jakiejś machinacji w CSS i JS. Boty nie obsługują tych technologii nie dlatego, że to jest niemożliwe, a dlatego, że bez nich da się wystarczająco dobrze spamować. Jeśli jakaś techniczna sztuczka stanie się popularna, to spamerzy nauczą boty sobie z nią radzić, aż dojdziemy do sytuacji, że nie będzie się dało korzystać z Sieci bez najnajnajnowszej przeglądarki z włączonymi wszystkimi możliwymi wtyczkami naraz.
Szczególnym przypadkiem wyścigu zbrojeń jest CAPTCHA, które drażni użytkowników, dyskryminuje niewidomych. Choć technicznie odczytanie liter z obrazka jest bardzo trudne, to nie jest niemożliwe — słabe, a popularne CAPTCHA (np. to w PHPbb) są już regularnie łamane. W efekcie użytkownicy mają coraz więcej coraz bardziej nieczytelnych wygibasów do przepisywania.
Wszystkie zabezpieczenia skuteczne na dłuższą metę muszą spamerów kosztować, czyli blokować to, co im przynosi zysk albo za co płacą. Spamerom do zarobienia potrzeba linków i słów kluczowych. Ponoszą koszty na pozyskanie domen, łączy i (w mniejszym stopniu) rozwój botów.
Pobierz skrypt skrypt jest darmowy — licencja
Sblam! używa tych wszystkich niżej wymienionych filtrów naraz i ostateczną decyzję podejmuje na podstawie sumy ocen wszystkich filtrów, więc nawet jak niektóre się pomylą, to pozostałe mogą uratować sytuację.
| Opis techniki | Zalety | Wady | Koszt obejścia |
|---|---|---|---|
| Filtr statystyczny do słów | |||
| Bayesowski filtr, który dysponuje bazą ok. 8 milionów słów i fraz z określonym prawdopodobieństwem bycia spamem/hamem. | Uczy się wszystkich spamowatych fraz i to w najróżniejszych językach — nie tylko amerykańskich farmaceutyków, ale też hiszpańskich okazyjnych kredytów i ruskich wyprzedaży komórek. | Daje sensowne wyniki tylko dla ok. 90% postów — reszta ma za mało treści albo nafaszerowana jest losowymi ciągami znaków. | Obejście zmniejsza opłacalność. W spamie e–mailowym spamerzy zaczęli omijać takie filtry przekręcając słowa i wklejając fragmenty książek. Na WWW to się nie opłaca — potrzebne są słowa kluczowe dla Googla i unikanie ich albo doklejanie niewinnego tekstu zmniejsza skuteczność spamu. |
| Filtr statystyczny do URL-i | |||
| To samo jak wyżej, ale zastosowane specyficznie do URL-i z uwzględnieniem domen. Dzięki temu filtr automatycznie robi czarne i białe listy domen i poddomen. | Uczy się i to lepiej, niż prosta czarna lista, bo odpowiednio wyważa ocenę stron wykorzystywanych jednocześnie przez użytkowników i spamerów (np. tinyurl.com) | Złośliwy spamer może psuć reputację innym domenom. Filtr nie pomoże na domeny, których jeszcze nie widział. | Obejście zmniejsza opłacalność. Żeby ominąć blokadę spamer musi zdobyć i „wypromować” nową domenę. |
| Czarna lista domen | |||
| Banowanie na podstawie ręcznie budowanych czarnych list, głównie chongqed.org (używane przez Wikipedię). | Chongqed specjalizuje się w spamie na Wiki, więc ma ładną kolekcję spamerskich adresów. | Baza to tylko kropla w morzu spamerów. | |
| Banowanie po IP i klasach IP | |||
| Spamerskie adresy IP są automatycznie wpisywane na czarną listę. Kilka spamów z tej samej podsieci doprowadza do zbanowania całej podsieci. Zaakceptowane posty zdejmują bany. Bany po jakimś czasie wygasają. | Rozwiązuje problem upartych spamerów, nawet ze zmiennym IP. Automatyczne zdejmowanie i wygasanie banów pozwala uniknąć blokowania zawirusowanych Neostrad. | Masz pecha, jeśli twój (sieciowy) sąsiad jest spamerem albo korzystasz z publicznego proxy. | Obejście zmniejsza opłacalność. Wymaga od spamerów znajdowania większej ilości niekompetentnych ISP oraz rozbudowywania i ulepszania botnetów. Najwięksi spamerzy mogą sobie na to pozwolić — dla nich każda luka w IE/Outlook to kolejne miliony darmowych adresów IP pod kontrolą. |
| Project Honeypot http:BL, Spamhaus, SURBL i inne DNSRBL-e | |||
| Sprawdza nadawcę i linki w DNSowych czarnych listach. | Są to olbrzymie czarne listy IP utrzymywane przez duże organizacje zbierające zgłoszenia, monitorujące ISP, stawiające pułapki (honeypots), itp. | RBL-e (z wyjątkiem Project Honeypot) są nastawione na spam e–mailowy, więc boty blokowane są najwyżej „przy okazji”. Spam słany przez zawirusowane Windowsy powoduje blokowanie IP niewinnych użytkowników. | |
| Spamowe kraje i ISP | |||
| Podejrzliwie patrzy na posty wysłane ze znanych „spamowych rajów”, gdzie są tanie szybkie łącza i brak nadzoru. | Pomaga wyłapać spamy niezależnie od ich treści. | Dyskryminuje mieszkańców Malezji, Koreii, itp. | |
| Czarna lista słów | |||
| PMWiki ma wtyczkę blocklist2 zawierającą spamerskie frazy z wiki. | Najmodniejsze spamerskie frazy nie zginą w tłumie filtru statystycznego. | Kropla w morzu. | Obejście zmniejsza opłacalność. Wymaga przerzucania się na mniej lukratywne słowa kluczowe. |
| Exploity na mail() | |||
| PHPowa funkcja mail() jest niezbyt przemyślana i w rękach amatorskiego klepacza (a tych jest mnóstwo) pozwala rozsyłać spam po całym internecie z „prywatnego” formularza kontaktowego. | Spamerzy nie mają jak bronić się przed wykryciem — muszą użyć charakterystycznego fragmentu kodu. | Ten typ spamu staje się coraz mniej popularny. | Niemożliwe do obejścia. |
| LinkSleeve | |||
| Serwis linksleeve.org monitoruje nadesłane do nich linki i zgłasza, które wydają się być sztucznie popularne. | Pomaga walczyć z botnetami, które spamują tym samym linkiem w setkach tysięcy miejsc. | LinkSleeve nie jest nieomylny. Spamerzy czasem złośliwie spamują linkami do cudzych stron. | Obejście zmniejsza opłacalność lub prędkość. Wymaga zmniejszenia tempa albo zwiększenia ilości spamowanych domen. |
| Godzina wysłania postu | |||
| Bardziej sceptycznie podchodzi do postów wysłanych w środku nocy — poza „godzinami szczytu” w Internecie pracują głównie boty. | „Chroni Cię przed spamem, kiedy śpisz!” | Nocne marki muszą poczekać do rana z wrzucaniem linków do kasyn. | Obejście zmniejsza prędkość spamowania. Wymaga zrezygnowania ze spamowania całą dobę. |
| Obecność JavaScript | |||
| Kawałek zamotanego skryptu doczepianego do strony. | Jest niewiele botów obsługujących JavaScript, więc (jeszcze) to jest dobry sposób rozpoznawania zwykłych użytkowników. | Nie może to być jedyna metoda, bo użytkownicy mają prawo nie mieć (włączonego) JS, a boty z obsługą JS mogły by hulać do woli. | Wyścig zbrojeń. Boty z obsługą JavaScript można napisać jako wtyczkę do przeglądarki, jednak prędkość takich botów jest stosunkowo niewielka. |
| Poprawność wypełnienia pól | |||
| Sprawdza, czy bot nie powrzucał linków w pole od e–mail, treści w podpis, itp. | Mała szansa, żeby człowiek się tak kompletnie pomylił, a botom się zdarza. | Mało jest aż tak głupich botów. | Wyścig zbrojeń. Wystarczy poprawnie parsować HTML i dodać trochę sztucznej inteligencji do bota. |
| Czas pisania wiadomości | |||
| Mierzy czas od wyświetlenia formularza do wysłania wiadomości. | Sporo botów wysyłą post natychmiast. | Użytkownicy też mogą szybko wysłać wiadomość — np. wkleić link albo odpisać „ok”. | Działa tylko fartem. Można to łatwo obejść zwiększając ilość równolegle spamowanych stron. |
| Formatowanie HTML+BBCode | |||
| Leniwi spamerzy wrzucają linki zarówno w formacie BBCode jak i HTML, mając nadzieję, że któryś zadziała. | Proste i (póki co) skuteczne. | Jak zwykle — istnieje szansa pomyłki. | Działa tylko fartem. Wystarczy rozpoznać system blogowy/forum albo wyszukać podpowiedzi w kodzie strony. |
| Unikalne identyfikatory w wiadomościach | |||
| Niektórzy spamerzy żądni statystyk swoich działań dołączają do wiadomości unikalne identyfikatory. | Proste do złapania. | Działa tylko na najgłupszych spamerów. | Działa tylko fartem. |
| Ilość linków | |||
| Podejrzliwie traktuje posty ze sporą ilością linków. | Blokuje najbardziej chamski spam nafaszerowany linkami. Ten typ jest wciąż popularny. | Czasem użytkownicy wklejają listę linków. | Działa tylko fartem. Spamerzy już uczą się używania tylko jednego linku i to nie w treści postu, a w polu na stronę WWW autora. |
| Błędne nagłówki HTTP | |||
| Niektóre boty używają nędznych implementacji HTTP (szczególnie popularny jest Microsoft .Net :D) albo dziurawych proxy, które da się wykryć i przyblokować. | Na szczęście sporo botów się podkłada, dzięki czemu można blokować posty niezależnie od tego, jak przebiegle zamaskowana jest ich treść. | Nie można na tym w pełni polegać, bo użytkownicy miewają zbugowane przeglądarki i proxy. | Działa tylko fartem. Jak ktoś by chciał, mógłby kompletnie ominąć ten filtr. |