Popularny sposób blokowania spambotów to wymaganie, aby wszyscy użytkownicy przepisywali powykrzywiane litery z CAPTCHA. Niestety ten sposób zniechęca normalnych użytkowników. Zamiast tego Sblam! używa kombinacji wielu innych technik antyspamowych, które działają automatycznie, bez fatygowania użytkowników.
Sblam! jest używany przez tysiące róznych stron na raz, dzięki czemu rozpoznaje więcej spamów i szybciej uczy się nowych, niż to możliwe na pojedynczej stronie.
Strony WWW czasem są zabezpieczane prostymi sztuczkami, np. ukrytymi polami formularza, wymaganiem użycia JavaScript lub prostymi pytaniami „ile to 3+7”. Spamerzy mogą łatwo obejść takie zabezpieczenia, dlatego Sblam! skupia się na technikach, których spamerzy nie mogą obejść bez zmniejszania opłacalności spamu.
Opis techniki | Zalety | Wady | Koszt obejścia |
---|---|---|---|
Filtr statystyczny do słów | |||
Bayesowski klasyfikator, który dysponuje bazą kilkunastu milionów słów i fraz z określonym prawdopodobieństwem występowania w spamie i nie-spamie. | Uczy się wszystkich spamowatych fraz i to w najróżniejszych językach — nie tylko amerykańskich farmaceutyków, ale też hiszpańskich okazyjnych kredytów i ruskich wyprzedaży komórek. | Daje sensowne wyniki tylko dla ok. 90% postów — reszta ma za mało treści albo nafaszerowana jest losowymi ciągami znaków. | Obejście zmniejsza opłacalność. W spamie e–mailowym spamerzy zaczęli omijać takie filtry przekręcając słowa i wklejając fragmenty książek. Na WWW to się nie opłaca: czytelne słowa kluczowe są niezbędne dla Google i unikanie ich zmniejsza skuteczność spamu. |
Filtr statystyczny do URL-i | |||
To samo jak wyżej, ale zastosowane specyficznie do URL-i z uwzględnieniem domen. Dzięki temu filtr automatycznie robi czarne i białe listy domen i poddomen. | Uczy się i to lepiej, niż prosta czarna lista, bo odpowiednio wyważa ocenę stron wykorzystywanych jednocześnie przez użytkowników i spamerów (np. tinyurl.com) | Złośliwy spamer może psuć reputację innym domenom. Filtr nie pomoże na domeny, których jeszcze nie widział. | Obejście zmniejsza opłacalność. Żeby ominąć blokadę spamer musi zdobyć i „wypromować” nową domenę. |
Czarna lista domen | |||
Banowanie na podstawie ręcznie budowanych czarnych list, głównie chongqed.org (używane przez Wikipedię). | Chongqed specjalizuje się w spamie na Wiki, więc ma ładną kolekcję spamerskich adresów. | Baza to tylko kropla w morzu spamerów. | |
Banowanie po IP i klasach IP | |||
Spamerskie adresy IP są automatycznie wpisywane na czarną listę. Kilka spamów z tej samej podsieci doprowadza do zbanowania całej podsieci. Zaakceptowane posty zdejmują bany. Bany po jakimś czasie wygasają. | Rozwiązuje problem upartych spamerów, nawet ze zmiennym IP. Automatyczne zdejmowanie i wygasanie banów pozwala uniknąć blokowania zawirusowanych Neostrad. | Masz pecha, jeśli twój (sieciowy) sąsiad jest spamerem. | Obejście zmniejsza opłacalność. Wymaga od spamerów wykupywania nowych serwerów i znajdowania nowych komputerów podatnych na wirusy. Ilość zawirusowanych komputerów w tzw. botnetach jest duża, ale nie jest nieskończona. |
Project Honeypot http:BL, Spamhaus, SURBL i inne DNSRBL-e | |||
Sprawdza nadawcę i linki w DNSowych czarnych listach. | Są to olbrzymie czarne listy IP utrzymywane przez duże organizacje zbierające zgłoszenia, monitorujące ISP, stawiające pułapki (honeypots), itp. | RBL-e (z wyjątkiem Project Honeypot) są nastawione na spam e–mailowy, więc boty blokowane są najwyżej „przy okazji”. Spam słany przez zawirusowane Windowsy powoduje blokowanie IP niewinnych użytkowników. | |
Spamowe kraje i ISP | |||
Podejrzliwie patrzy na posty wysłane ze znanych „spamowych rajów”, gdzie są tanie szybkie łącza i brak nadzoru. | Pomaga wyłapać spamy niezależnie od ich treści. | Dyskryminuje mieszkańców Chin, Malezji, Koreii, itp. | |
Czarna lista słów | |||
PMWiki ma wtyczkę blocklist2 zawierającą spamerskie frazy z wiki. | Najmodniejsze spamerskie frazy nie zginą w tłumie filtru statystycznego. | Kropla w morzu. | Obejście zmniejsza opłacalność. Wymaga przerzucania się na mniej lukratywne słowa kluczowe. |
LinkSleeve | |||
Serwis linksleeve.org monitoruje nadesłane do nich linki i zgłasza, które wydają się być sztucznie popularne. | Pomaga walczyć z botnetami, które spamują tym samym linkiem w setkach tysięcy miejsc. | LinkSleeve nie jest nieomylny. Spamerzy czasem złośliwie spamują linkami do cudzych stron. | Obejście zmniejsza opłacalność lub prędkość. Wymaga zmniejszenia tempa albo zwiększenia ilości spamowanych domen. |
Godzina wysłania postu | |||
Bardziej sceptycznie podchodzi do postów wysłanych w środku nocy — poza „godzinami szczytu” w Internecie pracują głównie boty. | „Chroni Cię przed spamem, kiedy śpisz!” | Nocne marki muszą poczekać do rana z wrzucaniem linków do kasyn. | Obejście zmniejsza prędkość spamowania. Wymaga zrezygnowania ze spamowania całą dobę. |
Obecność JavaScript | |||
Kawałek zamotanego skryptu doczepianego do strony. | Jest niewiele botów obsługujących JavaScript, więc (jeszcze) to jest dobry sposób rozpoznawania zwykłych użytkowników. | Nie może to być jedyna metoda, bo użytkownicy mają prawo nie mieć (włączonego) JS, a boty z obsługą JS mogły by hulać do woli. | Obejście zmniejsza prędkość spamowania. Boty z obsługą JavaScript można napisać jako wtyczkę do przeglądarki, jednak prędkość takich botów jest stosunkowo niewielka. |
Poprawność wypełnienia pól | |||
Sprawdza, czy bot nie powrzucał linków w pole od e–mail, treści w podpis, itp. | Mała szansa, żeby człowiek się tak kompletnie pomylił, a botom się zdarza. | Mało jest aż tak głupich botów. | Wystarczy poprawnie parsować HTML i dodać trochę sztucznej inteligencji do bota. |
Czas pisania wiadomości | |||
Mierzy czas od wyświetlenia formularza do wysłania wiadomości. | Sporo botów wysyłą post natychmiast. | Użytkownicy też mogą szybko wysłać wiadomość — np. wkleić link albo odpisać „ok”. | Można to łatwo obejść zwiększając ilość równolegle spamowanych stron. |
Formatowanie HTML+BBCode | |||
Leniwi spamerzy wrzucają linki zarówno w formacie BBCode jak i HTML, mając nadzieję, że któryś zadziała. | Proste i (póki co) skuteczne. | Jak zwykle — istnieje szansa pomyłki. | Wystarczy rozpoznać system blogowy/forum albo wyszukać podpowiedzi w kodzie strony. |
Ilość linków | |||
Podejrzliwie traktuje posty ze sporą ilością linków. | Blokuje najbardziej chamski spam nafaszerowany linkami. Ten typ jest wciąż popularny. | Czasem użytkownicy wklejają listę linków. | Spamerzy już uczą się używania tylko jednego linku i to nie w treści postu, a w polu na stronę WWW autora. |
Błędne nagłówki HTTP | |||
Niektóre boty używają słabych implementacji HTTP albo dziurawych proxy, które da się wykryć i zablokować. | Na szczęście sporo botów się podkłada, dzięki czemu można blokować posty niezależnie od tego, jak przebiegle zamaskowana jest ich treść. | Nie można na tym w pełni polegać, bo użytkownicy miewają zbugowane przeglądarki i proxy. | Da się kompletnie ominąć ten filtr, tylko trzeba się znać na rzeczy. |
Ponadto do Sblam! dodawane są różne eksperymentalne i tymczasowe sposoby wykrywania spamu, które blokują specyficzne, nowe rodzaje spamu. Aby skorzystać z nich wszystkich — zainstaluj Sblam!