Spambekämpfung
Eine der größten Plagen für ein öffentliches und offenes Wiki sind Spam-Bots oder allgemein Spam. Dieser Artikel beschreibt das Problem und die im Rhein-Neckar-Wiki wirksame und gleichzeitig minimalinvasive Methode, um ein MediaWiki dagegen zu schützen.
Inhaltsverzeichnis
Symptom
Sehr viele, vor allem auch kleinere Wikiprojekte von unerfahrenen Betreibern, sind durch massenhaften Spam in den vergangenen Jahren und Monaten unter die Räder gekommen, etwa weil die Betreiber in Notwehr das Wiki für die Mitarbeit komplett gesperrt haben oder aber gleich ganz eingestellt haben.
Dabei ist es gerade für kleinere Wiki-Projekte ohne große Bekanntheit sehr wichtig, auch für Besucher, die sich nicht (gleich) registrieren wollen, zum Bearbeiten offen zu halten. Ein Widerspruch?
Ursache und Herausforderung
Die Ursachen von Spam sind vielfältig, in alelr Regel kann man es allerdings auf eine Formel bringen: Massenhafte kommerzielle Werbung für Produkte oder andere Webseiten verteilt durch voll- oder halbautomatische Systeme.
Derartige automatische Systeme funktionieren auf eine Weise, dass zum Beispiel Gästebücher, Blogs, Foren oder eben Wikis systematisch gesucht und gefunden werden. Alle diese Webplattformen bieten häufig die Möglichkeit anonym oder nach einer nicht-aufwendigen Registrierungsprozedur Kommentare oder andere Inhalte zu hinterlassen, meist garniert mit Weblinks auf die zu bewerbenden Webseiten. Diese Inhalte sind meist in englischer Sprache und oft sehr fehlerhaft.
Halbautomatische Systeme funktionieren so, dass ein Mensch unterstützt von spezieller Software diese Inhalte plaziert. Menschen, die soetwas machen arbeiten im Akkord und verdienen oft nur wenige Cent pro plazierten Spam in einem Wiki oder einem Blog.
Die klassische Abwehr vor vollautomatischen Spam-Bots ("Spam-Roboter") wird implementiert durch grafische CAPTCHAs. CAPTCHAs sind grob vereinfach gesagt Aufgaben, die für Menschen einfach und für Maschinen nur schwer lösbar sind, etwa stark verzerrter Text, den man lesen und in ein Formular eingeben muss, um zum Beispiel einen Artikel im Wiki zu speichern. Diese CAPTCHA-Systeme werden daher oft durch Menschen gelöst, um dann unterstützt von weiterer Software halbautomatisch Werbenachrichten abladen zu können.
Manche Systeme erfordern eine E-Mail-Adresse zur Registrierung. Auch hier arbeiten Menschen im Akkord. Ein geübter Mensch kann in unter einer Minute sich einen Wiki-Account mit E-Mail-Adresse registrieren und verifizieren und dann seinen Spam mit Hilfe dieses Accounts abladen.
Gegenmaßnahmen
Zum Einen will man sein Wikiprojekt möglichst offen halten für Autoren, die ohne große Hürde wertvolle Inhalte zum Wiki beitragen wollen, zum anderen will man aber Werbung raushalten.
Ich persönlich (Raphael Eiselstein talk) betreibe das Rhein-Neckar-Wiki weiterhin offen für jedermann und habe nach einigen erfolglosen Versuchen und Strategien auf ein Verfahren umgestellt, bei dem selbst anonyme Benutzer im Wiki weitgehend ungestört editieren können.
Nur bei sehr wenigen Gelegenheiten wird dem Anwender eine Quizfrage gestellt, die so formuliert ist, dass diese nur ein Mensch mit Kenntnissen in der deutschen Sprache einfach lösen kann: Gefragt wird nach auf 5 Minuten gerundete Uhrzeiten, ausformuliert in Umgangssprache. Der Benutzer muss die umgangssprachlich formulierte Uhrzeit im Format HH:MM eintippen, um weiter zu kommen.
- Beispiel
- Frage: Wenn es mittags Fünf vor halb Drei ist, was steht dann auf einer Digitaluhr [HH:MM]?
- Antwort: 14:25
Für lokale Wikis wäre hier auch der lokale Dialekt oder Ausdrucksformen eine gute Möglichkeit, sofern dieser Dialekt von signifikant vielen Autoren verstanden wird.
Bei diesem System sind alle vollautomatischen Bots ausgesperrt, weil diese die richtige Antwort nicht automatisch ermitteln können (und es gibt sehr viele Fragen/Antworten, die man hinterlegen kann), Menschen können diese Fragen auch nur einfach lösen, wenn sie die deutsche Sprache verstehen oder die Frage schnell übersetzen können (zum Beispiel mit http://translate.google.de/)
Übersetzt man das automatisch auf englisch, dann erhält man: When it is noon in front of five half-past two, which is then available on a digital clock [HH: MM]?. Dieser Satz ergibt für einen Leser keinen Sinn und wird nicht ohne Weiteres auf die (auf deutsch naheliegende) Antwort 14:25 hinweisen, ein deutschsprachiger Anwender wird die Antwort jedoch sehr leicht finden.
Technische Umsetzung
(folgt)
Weblinks
- MediaWiki Erweiterungen
- Aus dem Rhein-Neckar-Wiki-Blog
-
- Spamschutz überarbeitet beschreibt die seit 24. Juni 2012 minimalinvasiven und dennoch wirksamen Maßnahmen basierend auf den Quizfragen / Uhrzeiten
- Quizfrage statt CAPTCHA im Rhein-Neckar-Wiki-Blog
- Alle Artikel zum Thema Spamschutz, vor allem auch interssant weil hier verschiedene Methoden getestet wurden.
- Rhein-Neckar-Wiki
-
- Spamschutz im Rhein-Neckar-Wiki
- Ausführlichere Diskussion zum Thema Spam, dieses Verfahren wird nicht mehr eingesetzt, da es für Wiki-Anwender unzumutbar war (Weblinks nicht mehr als Wiki-URL sondern nur noch über spezielle Vorlagen nutzbar).
- UUGRN-Admin Blog: Anonymes Editieren auf wiki.uugrn.org und Spamschutz
- Wikipedia zum Thema Spam