Captcha mit Tourette-Syndrom
“CAPTCHA ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das €žVollautomatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden€œ. CAPTCHAs werden verwendet, um zu entscheiden, ob das Gegenüber ein Mensch oder eine Maschine ist. Der Begriff wurde zum ersten Mal im Jahr 2000 von Luis von Ahn, Manuel Blum und Nicholas J. Hopper an der Carnegie Mellon University und von John Langford von IBM gebraucht.” (Wikipedia)
“Das Tourettesyndrom ist eine neurologisch-psychiatrische, ätiologisch noch ungeklärte Erkrankung, die durch das Auftreten von Tics charakterisiert ist. Bei den Tics handelt es sich um unwillkürliche, rasche, meistens plötzlich einschießende und mitunter sehr heftige Bewegungen, die immer wieder in gleicher Weise einzeln oder serienartig auftreten können. Verbale, ungewollte Äußerungen zählen mit dazu, sowie Ausrufe oder eigenartige Geräusche. “ (Wikipedia)
Captchas sind ein beliebtes Verfahren, um die Eingabe von Webformularen gegen automatische Spam-Bots abzusichern. Wir selbst setzten Captchas ebenfalls an verschiedene Stellen und Projekten ein. Bislang immer ohne Probleme. Bis wir heute im Kundensupport einen seltsamen Vorfall gemeldet bekamen.
Bitte geben Sie “Zicke” ein
Ein Captcha soll eine Kundin in einem online-Shop mit sexistischen, kriegsverherrlichenden und geschmacklosen Begriffen belästigt haben. Bitte geben Sie “Zicke” ein. Nein, das geht gar nicht
Auch “terror”, “stalin”, “bigamie”, “bordel”, “dachau”, “eichel”, “fummeln”, “furzes”, “gaddafi”, “galgen”, “glied”, “kastrat”, “Khmer”, “Kokain” und “Khomeini” sind nicht gerade Begriffe, die der political correctness entsprechen.
Ja, dieses Captcha war wohl tatsächlich an Tourette erkrankt und beschimpft Webbenutzer. Aber warum? Zuerst lag der Verdacht auf einen böswilligen Scherz. Das Captcha stammt aus dem öffentlichen TYPO3 Extension Repository. Hatte sich ein böser Programmierer den Dateien im Repository eine schmutzige Wortliste untergeschoben? Denkbar wäre es.
Wenn das Wörterbuch zum Verhängnis wird
Doch ich glaube die Erklärung ist viel einfacher. Das Captcha-Programm bezieht seine Wörter aus einer umfassenden Quelle: dem Wortlexikon aus Open Office. Die Wortliste ist daher mit über 19.800 Wörtern sehr umfassend. Ein Blick in die Wortliste zeigt: die überwiegende Mehrheit der aufgeführten Wörter sind harmlos: “Hydrant”, “Idee”, “Kultur” und viele mehr. Doch zwischen all den schönen Wörter tauchen auch immer wieder kritische Begriffe auf “Freibad”, “Freien”, “Freier”, “Freiern”, “Freimut”, “Freitag” und “Freitod” folgen ganz unschuldig Zeile für Zeile.
Eine Frage der Wahrscheinlichkeit
Das Grundübel liegt also darin, dass die Verfasser der deutschen Captcha Version einfach eine Wörterbuch-Datei als Quelle zum Erzeugen der Captcha-Bilder verwenden. Beim generieren eines Captchas sucht sich das Programm zufällig ein Wort aus dieser Liste und trifft mit einer ausreichend hohen statistischen Wahrscheinlichkeit ein negativ besetztes Wort. In diesem Fall hatte Kollege Zufall die Kundin des online Shops getroffen und belästigt. Autsch.
Fazit: nur die eigenes geprüfte Wortliste schützt vor ungemach
Das ganze erinnert mit etwas an dem Problem, mit der die populäre SMS-Software T9 vor einigen Jahren zu kämpfen hatte. Wer also die TYPO3-Extension freecap einsetzt, sollte einfach die enthaltene Wortliste .ht.de.freecap.word durch eine eigene geprüfte Liste ersetzten.