Sblam!

Zabezpiecza formularze przed spamem

Popularny sposób blokowania spambotów to wymaganie, aby wszyscy użytkownicy przepisywali powykrzywiane litery z CAPTCHA. Niestety ten sposób zniechęca normalnych użytkowników. Zamiast tego Sblam! używa kombinacji wielu innych technik antyspamowych, które działają automatycznie, bez fatygowania użytkowników.

Jak działa Sblam?

  1. Strona WWW korzystająca ze Sblam! wysyła kopię wiadomości odebranej przez formularz do centralnych serwerów Sblam!.
  2. Sblam! analizuje wiadomość oraz reputację użytkownika używając wielu kombinacji technik antyspamowych i czarnych list.
  3. Sblam! odpowiada, czy wiadomość została zidentyfikowana jako niechciany spam (co liczy się jako niechciane?)
  4. Strona WWW może odrzucić niechcianą wiadomość albo zrobić coś innego, np. dać drugą szansę.

Sblam! jest używany przez tysiące róznych stron na raz, dzięki czemu rozpoznaje więcej spamów i szybciej uczy się nowych, niż to możliwe na pojedynczej stronie.

Techniki używane przez Sblam!

Strony WWW czasem są zabezpieczane prostymi sztuczkami, np. ukrytymi polami formularza, wymaganiem użycia JavaScript lub prostymi pytaniami „ile to 3+7”. Spamerzy mogą łatwo obejść takie zabezpieczenia, dlatego Sblam! skupia się na technikach, których spamerzy nie mogą obejść bez zmniejszania opłacalności spamu.

Opis technikiZaletyWadyKoszt obejścia
Filtr statystyczny do słów
Bayesowski klasyfikator, który dysponuje bazą kilkunastu milionów słów i fraz z okreś­lo­nym prawdo­podo­bień­stwem występowania w spamie i nie-spamie.Uczy się wszys­tkich spa­mo­wa­tych fraz i to w naj­róż­niej­szych języ­kach — nie tylko amery­kańskich farma­ceutyków, ale też hiszpańs­kich oka­zyj­nych kredytów i ruskich wyprze­daży komórek.Daje sensowne wyniki tylko dla ok. 90% pos­tów — reszta ma za mało treści albo nafaszerowana jest losowymi ciągami znaków.Obejście zmniejsza opła­cal­ność. W spa­mie e–mail­owym spa­me­rzy zaczęli omijać takie filtry prze­kręca­jąc słowa i wkle­jając frag­menty ksią­żek. Na WWW to się nie opłaca: czytelne słowa kluczowe są niezbędne dla Google i unikanie ich zmniej­sza skutecz­ność spamu.
Filtr statystyczny do URL-i
To samo jak wyżej, ale zastosowane specyficznie do URL-i z uwzglę­dnie­niem domen. Dzięki temu filtr auto­ma­tycznie robi czarne i białe listy domen i poddomen.Uczy się i to lepiej, niż prosta czar­na lista, bo odpo­wiednio wy­waża ocenę stron wyko­rzys­ty­wa­nych jed­no­cześ­nie przez użytkow­ników i spa­me­rów (np. tinyurl.com)Złośliwy spamer może psuć repu­tac­ję innym domenom. Filtr nie po­może na domeny, których jeszcze nie widział.Obejście zmniejsza opła­cal­ność. Żeby ominąć blokadę spamer musi zdobyć i „wypro­mować” nową domenę.
Czarna lista domen
Banowanie na podstawie ręcznie budo­wa­nych czarnych list, głównie chongqed.org (używane przez Wiki­pedię).Chongqed specjalizuje się w spa­mie na Wiki, więc ma ładną kolekcję spa­mer­skich adresów.Baza to tylko kropla w morzu spa­me­rów.
Banowanie po IP i klasach IP
Spamerskie adresy IP są auto­ma­tycznie wpi­sy­wane na czar­ną listę. Kilka spamów z tej samej pod­sieci do­pro­wadza do zba­nowania całej pod­sieci. Zaakcep­to­wane posty zdej­mują bany. Bany po jakimś czasie wygasają.Rozwiązuje problem upartych spa­me­rów, nawet ze zmiennym IP. Auto­ma­tyczne zdej­mowanie i wyga­sanie banów pozwala uniknąć blo­ko­wania zawi­ruso­wanych Neo­strad.Masz pecha, jeśli twój (sie­ciowy) sąsiad jest spa­me­rem.Obejście zmniejsza opła­cal­ność. Wy­ma­ga od spa­me­rów wykupywania nowych serwerów i znajdowania nowych komputerów podatnych na wirusy.

Ilość zawirusowanych komputerów w tzw. botnetach jest duża, ale nie jest nieskończona.

Project Honeypot http:BL, Spamhaus, SURBL i inne DNSRBL-e
Sprawdza nadawcę i linki w DNSowych czarnych listach.Są to olbrzymie czarne listy IP utrzymy­wane przez duże organi­zacje zbiera­jące zgło­szenia, moni­to­rujące ISP, stawia­jące pułapki (honey­pots), itp.RBL-e (z wyjątkiem Project Honeypot) są nastawione na spam e–mail­owy, więc boty blo­ko­wane są naj­wyżej „przy okazji”. Spam słany przez za­wi­ru­so­wane Win­dowsy powoduje blokowanie IP niewinnych użyt­kow­ników.
Spamowe kraje i ISP
Podejrzliwie patrzy na posty wysłane ze znanych „spamowych rajów”, gdzie są tanie szybkie łącza i brak nadzoru.Pomaga wyłapać spamy nieza­leżnie od ich treści.Dyskryminuje mieszkańców Chin, Malezji, Koreii, itp.
Czarna lista słów
PMWiki ma wtyczkę blocklist2 zawierającą spa­mer­skie frazy z wiki.Najmodniejsze spa­mer­skie frazy nie zginą w tłumie filtru statystycznego.Kropla w morzu.Obejście zmniejsza opła­cal­ność. Wymaga przerzucania się na mniej lukra­tywne słowa kluczowe.
LinkSleeve
Serwis linksleeve.org moni­to­ruje nades­łane do nich linki i zgłasza, które wydają się być sztucznie popularne.Pomaga walczyć z botnetami, które spamują tym samym linkiem w set­kach tysięcy miejsc.LinkSleeve nie jest nieomylny. Spamerzy czasem złośliwie spamują linkami do cudzych stron.Obejście zmniejsza opła­cal­ność lub prędkość. Wymaga zmniej­szenia tempa albo zwięk­sze­nia ilości spamo­wanych domen.
Godzina wysłania postu
Bardziej sceptycznie podchodzi do pos­tów wysłanych w środku nocy — poza „godzi­nami szczytu” w Internecie pracują głównie boty.„Chroni Cię przed spamem, kiedy śpisz!”Nocne marki muszą poczekać do rana z wrzu­ca­niem linków do kasyn.Obejście zmniejsza pręd­kość spa­mo­wa­nia. Wymaga zrezy­gno­wania ze spa­mo­wa­nia całą dobę.
Obecność JavaScript
Kawałek zamotanego skryptu docze­pia­nego do strony.Jest niewiele botów obsługujących Java­Script, więc (jeszcze) to jest dobry sposób rozpoznawania zwykłych użytkow­ników.Nie może to być jedyna metoda, bo użyt­kow­nicy mają prawo nie mieć (włączo­nego) JS, a boty z obsługą JS mogły by hulać do woli.Obejście zmniejsza pręd­kość spa­mo­wa­nia. Boty z obsługą JavaScript można napisać jako wtyczkę do przeglądarki, jednak prędkość takich botów jest stosunkowo niewielka.
Poprawność wypełnienia pól
Sprawdza, czy bot nie powrzucał linków w pole od e–mail, treści w podpis, itp.Mała szansa, żeby człowiek się tak kom­plet­nie pomylił, a botom się zdarza.Mało jest aż tak głupich botów.Wystarczy poprawnie parsować HTML i dodać trochę sztucznej inteli­gencji do bota.
Czas pisania wiadomości
Mierzy czas od wyświetlenia formularza do wysłania wiadomości.Sporo botów wysyłą post natychmiast.Użyt­kow­nicy też mogą szybko wysłać wia­do­mość — np. wkleić link albo odpisać „ok”.Można to łatwo obejść zwiększa­jąc ilość równo­legle spamo­wanych stron.
Formatowanie HTML+BBCode
Leniwi spamerzy wrzucają linki zarówno w formacie BBCode jak i HTML, mając nadzieję, że któryś zadziała.Proste i (póki co) skutecz­ne.Jak zwykle — istnieje szansa pomyłki.Wystarczy roz­poz­nać system blo­gowy/fo­rum albo wyszu­kać pod­po­wie­dzi w kodzie strony.
Ilość linków
Podejrzliwie traktuje posty ze sporą ilością linków.Blokuje najbardziej chamski spam nafa­szer­owany linkami. Ten typ jest wciąż popu­larny.Czasem użyt­kow­nicy wklejają listę linków.Spamerzy już uczą się używania tylko jednego linku i to nie w treści postu, a w polu na stronę WWW autora.
Błędne nagłówki HTTP
Niektóre boty używają słabych imple­men­tacji HTTP albo dziura­wych proxy, które da się wykryć i zablokować.Na szczęście sporo botów się pod­kła­da, dzięki czemu można blo­ko­wać posty nie­za­leż­nie od tego, jak prze­biegle zamas­kowana jest ich treść.Nie można na tym w pełni polegać, bo użyt­kow­nicy miewają zbu­go­wane prze­glą­darki i proxy.Da się kom­plet­nie ominąć ten filtr, tylko trzeba się znać na rzeczy.

Ponadto do Sblam! dodawane są różne eksperymentalne i tymczasowe sposoby wykrywania spamu, które blokują specyficzne, nowe rodzaje spamu. Aby skorzystać z nich wszystkich — zainstaluj Sblam!