Spambekämpfung

Aus Stadtwiki-Allmende
Wechseln zu: Navigation, Suche

Eine der größten Plagen für ein öffentliches und offenes Wiki sind Spam-Bots oder allgemein Spam. Dieser Artikel beschreibt das Problem und die im Rhein-Neckar-Wiki wirksame und gleichzeitig minimalinvasive Methode, um ein MediaWiki dagegen zu schützen.

Symptom

Sehr viele, vor allem auch kleinere Wikiprojekte von unerfahrenen Betreibern, sind durch massenhaften Spam in den vergangenen Jahren und Monaten unter die Räder gekommen, etwa weil die Betreiber in Notwehr das Wiki für die Mitarbeit komplett gesperrt haben oder aber gleich ganz eingestellt haben.

Dabei ist es gerade für kleinere Wiki-Projekte ohne große Bekanntheit sehr wichtig, auch für Besucher, die sich nicht (gleich) registrieren wollen, zum Bearbeiten offen zu halten. Ein Widerspruch?

Ursache und Herausforderung

Die Ursachen von Spam sind vielfältig, in alelr Regel kann man es allerdings auf eine Formel bringen: Massenhafte kommerzielle Werbung für Produkte oder andere Webseiten verteilt durch voll- oder halbautomatische Systeme.

Derartige automatische Systeme funktionieren auf eine Weise, dass zum Beispiel Gästebücher, Blogs, Foren oder eben Wikis systematisch gesucht und gefunden werden. Alle diese Webplattformen bieten häufig die Möglichkeit anonym oder nach einer nicht-aufwendigen Registrierungsprozedur Kommentare oder andere Inhalte zu hinterlassen, meist garniert mit Weblinks auf die zu bewerbenden Webseiten. Diese Inhalte sind meist in englischer Sprache und oft sehr fehlerhaft.

Halbautomatische Systeme funktionieren so, dass ein Mensch unterstützt von spezieller Software diese Inhalte plaziert. Menschen, die soetwas machen arbeiten im Akkord und verdienen oft nur wenige Cent pro plazierten Spam in einem Wiki oder einem Blog.

Die klassische Abwehr vor vollautomatischen Spam-Bots ("Spam-Roboter") wird implementiert durch grafische CAPTCHAs. CAPTCHAs sind grob vereinfach gesagt Aufgaben, die für Menschen einfach und für Maschinen nur schwer lösbar sind, etwa stark verzerrter Text, den man lesen und in ein Formular eingeben muss, um zum Beispiel einen Artikel im Wiki zu speichern. Diese CAPTCHA-Systeme werden daher oft durch Menschen gelöst, um dann unterstützt von weiterer Software halbautomatisch Werbenachrichten abladen zu können.

Manche Systeme erfordern eine E-Mail-Adresse zur Registrierung. Auch hier arbeiten Menschen im Akkord. Ein geübter Mensch kann in unter einer Minute sich einen Wiki-Account mit E-Mail-Adresse registrieren und verifizieren und dann seinen Spam mit Hilfe dieses Accounts abladen.

Gegenmaßnahmen

Zum Einen will man sein Wikiprojekt möglichst offen halten für Autoren, die ohne große Hürde wertvolle Inhalte zum Wiki beitragen wollen, zum anderen will man aber Werbung raushalten.

Ich persönlich (Raphael Eiselstein talk) betreibe das Rhein-Neckar-Wiki weiterhin offen für jedermann und habe nach einigen erfolglosen Versuchen und Strategien auf ein Verfahren umgestellt, bei dem selbst anonyme Benutzer im Wiki weitgehend ungestört editieren können.

Nur bei sehr wenigen Gelegenheiten wird dem Anwender eine Quizfrage gestellt, die so formuliert ist, dass diese nur ein Mensch mit Kenntnissen in der deutschen Sprache einfach lösen kann: Gefragt wird nach auf 5 Minuten gerundete Uhrzeiten, ausformuliert in Umgangssprache. Der Benutzer muss die umgangssprachlich formulierte Uhrzeit im Format HH:MM eintippen, um weiter zu kommen.

Beispiel
Frage: Wenn es mittags Fünf vor halb Drei ist, was steht dann auf einer Digitaluhr [HH:MM]?
Antwort: 14:25

Für lokale Wikis wäre hier auch der lokale Dialekt oder Ausdrucksformen eine gute Möglichkeit, sofern dieser Dialekt von signifikant vielen Autoren verstanden wird.

Bei diesem System sind alle vollautomatischen Bots ausgesperrt, weil diese die richtige Antwort nicht automatisch ermitteln können (und es gibt sehr viele Fragen/Antworten, die man hinterlegen kann), Menschen können diese Fragen auch nur einfach lösen, wenn sie die deutsche Sprache verstehen oder die Frage schnell übersetzen können (zum Beispiel mit http://translate.google.de/)

Übersetzt man das automatisch auf englisch, dann erhält man: When it is noon in front of five half-past two, which is then available on a digital clock [HH: MM]?. Dieser Satz ergibt für einen Leser keinen Sinn und wird nicht ohne Weiteres auf die (auf deutsch naheliegende) Antwort 14:25 hinweisen, ein deutschsprachiger Anwender wird die Antwort jedoch sehr leicht finden.

Technische Umsetzung

(folgt)

Weblinks

MediaWiki Erweiterungen
Aus dem Rhein-Neckar-Wiki-Blog
Rhein-Neckar-Wiki