Author Archives: mirko

Captcha mit Tourette-Syndrom

CAPTCHA ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das €žVollautomatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden€œ. CAPTCHAs werden verwendet, um zu entscheiden, ob das Gegenüber ein Mensch oder eine Maschine ist. Der Begriff wurde zum ersten Mal im Jahr 2000 von Luis von Ahn, Manuel Blum und Nicholas J. Hopper an der Carnegie Mellon University und von John Langford von IBM gebraucht.” (Wikipedia)

“Das Tourettesyndrom ist eine neurologisch-psychiatrische, ätiologisch noch ungeklärte Erkrankung, die durch das Auftreten von Tics charakterisiert ist. Bei den Tics handelt es sich um unwillkürliche, rasche, meistens plötzlich einschießende und mitunter sehr heftige Bewegungen, die immer wieder in gleicher Weise einzeln oder serienartig auftreten können. Verbale, ungewollte Äußerungen zählen mit dazu, sowie Ausrufe oder eigenartige Geräusche. “ (Wikipedia)

Captchas sind ein beliebtes Verfahren, um die Eingabe von Webformularen gegen automatische Spam-Bots abzusichern. Wir selbst setzten Captchas ebenfalls an verschiedene Stellen und Projekten ein. Bislang immer ohne Probleme. Bis wir heute im Kundensupport einen seltsamen Vorfall gemeldet bekamen.

Bitte geben Sie “Zicke” ein

Ein Captcha soll eine Kundin in einem online-Shop mit sexistischen, kriegsverherrlichenden und geschmacklosen Begriffen belästigt haben. Bitte geben Sie “Zicke” ein. Nein, das  geht gar nicht

Auch “terror”, “stalin”, “bigamie”, “bordel”,  “dachau”, “eichel”, “fummeln”, “furzes”, “gaddafi”, “galgen”, “glied”, “kastrat”, “Khmer”, “Kokain” und “Khomeini” sind nicht gerade Begriffe, die der political correctness entsprechen.

Ja, dieses Captcha war wohl tatsächlich an Tourette erkrankt und beschimpft Webbenutzer. Aber warum? Zuerst lag der Verdacht auf einen böswilligen Scherz. Das Captcha stammt aus dem öffentlichen TYPO3 Extension Repository. Hatte sich ein böser Programmierer den Dateien im Repository eine schmutzige Wortliste untergeschoben? Denkbar wäre es.

Wenn das Wörterbuch zum Verhängnis wird

Doch ich glaube die Erklärung ist viel einfacher. Das Captcha-Programm bezieht seine Wörter aus einer umfassenden Quelle: dem Wortlexikon aus Open Office. Die Wortliste ist daher mit über 19.800 Wörtern sehr umfassend. Ein Blick in die Wortliste zeigt: die überwiegende Mehrheit der aufgeführten Wörter sind harmlos: “Hydrant”, “Idee”, “Kultur” und viele mehr. Doch zwischen all den schönen Wörter tauchen auch immer wieder kritische Begriffe auf “Freibad”, “Freien”, “Freier”, “Freiern”, “Freimut”, “Freitag” und “Freitod” folgen ganz unschuldig Zeile für Zeile.

Eine Frage der Wahrscheinlichkeit

Das Grundübel liegt also darin, dass die Verfasser der deutschen Captcha Version einfach eine Wörterbuch-Datei als Quelle zum Erzeugen der Captcha-Bilder verwenden. Beim generieren eines Captchas sucht sich das Programm zufällig ein Wort aus dieser Liste und trifft mit einer ausreichend hohen statistischen Wahrscheinlichkeit ein negativ besetztes Wort. In diesem Fall hatte Kollege Zufall die Kundin des online Shops getroffen und belästigt. Autsch.

Fazit: nur die eigenes geprüfte Wortliste schützt vor ungemach

Das ganze erinnert mit etwas an dem Problem, mit der die populäre SMS-Software T9 vor einigen Jahren zu kämpfen hatte. Wer also die TYPO3-Extension freecap einsetzt, sollte einfach die enthaltene Wortliste .ht.de.freecap.word durch eine eigene geprüfte Liste ersetzten.

Yigg vermisse ich nicht

Die letzten 4 Wochen war ich mit meinem besten, schönsten und anstrengendsten Projekt beschäftigt (dazu später mehr). So ist der Relaunch von Yigg.de vollkommen an mir vorüber gegangen.

Nun habe ich mir heute die neue Yigg-Seite angeschaut und… ja was soll man da sagen? Orange!

Mich wundert es nicht, dass der Relaunch zu einem Sturm von negativen Kommentaren geführt hat. Die neue GUI sieht wirklich unübersichtlich und unelegant aus. Auf den Punkt gebracht: einfach Scheiße. Oder wie der Blog Anwälte in Vulkane werfen so schön schreibt:

Führende deutsche Social News Community sucht arbeitslosen Bauschlosser zwecks Erstellung eines Templates. Erfahrungen im Sackhüpfen, Eierlauf und Seilspringen von Vorteil.

Schade, ich fand bislang, das Yigg ein wirklich gelungene Adaption der Idee von Digg war. Yigg hatte es geschafft sich mit eigenen Ideen aus dem Schatten des großen Vorbild zu lösen. Und nun das. Dieser Relaunch war kein großer Wurf, eher ein Desaster.

Die beste Analyse zum misratenen Yigg-Relaunch gibt es bei Selbständig im Netz.

Mit Open Source arbeiten, heisst nicht immer Open Source verstehen

Es gibt eine Vielfalt von Firmen die von Dienstleistungen und Services rund um Open Source Software existieren. Zahlreiche Unternehmen verwenden Open Source Software und zahlreiche Dienstleister arbeiten damit, ohne die eigentlichen lizenzrechtlichen Hintergründe zu kennen.

In der Regel ist dies nicht dramatisch. Allerdings sollten sich Software-Entwickler sehr genau mit dem Thema der Open Source Lizenz beschäftigen. Denn im Zusammenhang mit Open Source Software ist es gut zu wissen, ab wann eine entwickelte Software-Anwendung ein “eigenständiges” oder ein “abgeleitetes” Werk ist. Je nach dem hat dies lizenzrechtlich schwerwiegende Konsequenzen. Wenn der Copyleft-Effekt der GPL auf eine entwickelte Anwendung greift, haben Anwender und Softwareentwickler sehr genaue Vorgaben über den zukünftigen Gebrauch des Werkes.

Noch schwieriger ist es, wenn es in einer komplexen Anwendung zu einer Vermengung eigener Code-Sourcen und diverser Open Source Komponenten mit unterschiedlichen Lizenzen wie LGL, GPL oder BSD kommt. Eine solche lizenzrechtliche Gemengelage ist ohne Juristen nicht mehr überschaubar. Und es ist zu befürchten, das es in der juristischen Auslegung der angelsächsischen Lizenzen mit dem deutschen Urheberrecht nur so kracht.

Manche fatalen Dinge passieren auch schlicht aus Unwissenheit. Nur so kann ich den Lizenztext in dieser HTML-Source deuten:

 Copyright Medien Büro XYZ http://www.xyz.de
,,_
L ¯^N¸
__¸L_ ¯\
»~¯¯ ¯~¸ ¼
,´ _ J J
,¯ _M´¯L J ]
[ [ _¸Ã¦¯ Ñ
[ [ ¯ ¸¹
`_ ¯W¸___¸«€™¯
€™¸ ¯¯Ã‘¯
¯~«__ L
¯¯^

This website is powered by TYPO3 – inspiring people to share!
TYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.
TYPO3 is copyright 1998-2006 of Kasper Skaarhoj. Extensions are copyright of their respective owners.
Information and contribution at http://typo3.com/ and http://typo3.org/

Hier hat ein Dienstleister eine Webseite auf Basis des populären Open Source Redaktionssystem TYPO3 erstellt. Wahrscheinlich ohne tieferes Nachdenken wurde der Lizenzhinweis von TYPO3 erweitert. Der Zusatz “Copyright Medien Büro XYZ http://www.xyz.de”ist allerdings wirklich fatal… denn in diesem Fall wird ein Copyright-Anspruch auf ein Werk unter der Lizenz GPL geltend gemacht.

Liebe Mitarbeiter des Büro XYZ*, so geht das überhaupt nicht….

Natürlich ist das individuell erstellte Werk der Webseite urheberrechtlich geschützt. Insofern hat der Dienstleister einen rechtlichen Schutz als Urheber des Werkes “Internetseite”. Allerdings ist es unzulässig sein “Copyright” schlicht in den Lizenzhinweis des darunter liegenden Frameworks zu platzieren. Denn das Framework, basiert auf die per GPL lizensierte Software TYPO3.

Daher: einfach die Finger von Lizenzhinweisen und Texten lassen. Es hätte in diesem Falle auch genügt per Meta-Tag den Urheber der Webseite zu nennen.

*Nein, ich nennen besser keine Namen ;)

Google Analytics im Visier der Datenschützer

*Disclaimer: ja ich gebe es zu, auch diese Webseite nutzt Google-Analytics.

Vor zwei Jahren saß ich gemeinsam mit mehreren Internet-Fachanwälten bei einem Business Lunch zu Tisch. Wenn man mit soviel rechtliche Kompetenz konzentriert an einen Ort vorfindet, dann muss einer wie ich einfach kniffelige Frage stellen.

Also plauderte ich im Smalltalk über den Dienst Google-Analytics, mit dem Seitenbetreiber statistische Daten an Google übermitteln und im Gegenzug ein kostenloses Auswertungstool zur Seitenanalyse und -nutzung erhalten.

Eine klassische Win-Win Situation für beide Seite. Ich gebe Google Informationen über die Nutzung meiner Webseite und dafür erhalte ich ein Analysetool, dass diese Daten mit den Daten aus der Google-Suchmaschine in Beziehung setzt. Wirklich praktisch. Aber wie ist das rein rechtlich? Schließlich werden hier Daten, wie die IP der Webseitenbenutzer, Surfzeiten erhoben und an einen Drittanbieter in die USA übermittelt. Das müsste doch aus Sicht der Deutschen Datenschutzbestimmungen problematisch sein.

Das dachte ich mir. Und weil nun an meinen Tisch so viele Rechtsanwälte gemeinsam saßen, fragte ich die Herren ob hier nicht eine Zeitbombe ticken würde.

Die Antwort: “……………………………..” (ein ziemlich ratloses Schweigen, gepaart mit Achselzucken).

Heute zwei Jahre später, erhalte ich mit dieser Meldung eine Antwort. Der Landesdatenschützer aus Schleswig-Holstein nimmt den Dienst Google-Analytics unter die Lupe und warnt vor der Erhebung personenbezogener Daten durch das Website-Tracking mittels Google-Analytics.

Dazu Landesdatenschützer Dr. Thilo Weichert in einer Pressemitteilung:

“Wir waren verblüfft und schockiert, wie weit Google Analytics auch in Schleswig-Holstein verbreitet ist. Renommierte Medien- und Internetunternehmen gehören zu deren Nutzern ebenso wie viele Anbieter aus der Tourismus- und der Dienstleistungsbranche; ja politische Parteien, öffentliche Stellen des Landes und Hochschulen setzen den kostenlosen, aber datenschutzwidrigen Service ein. Den meisten Betreibern dürfte nicht vollständig bewusst sein, dass sie mit dem Einsatz von Google Analytics einen Service in Anspruch nehmen, bei dem Daten in die USA übermittelt werden, die dort umfassend ausgewertet und genutzt werden, und dass dies die Datenschutzrechte der Webseitenbesucher verletzt.”

Als nächstes erwarte ich, dass sich der Datenschutz auch bald mit den Diensten Google Maps, Google Earth und GMail beschäftigen wird. Schließlich gibt es dort auch zahlreiche Daten die Google Personenbezogen verwerten kann. Interessant, in wie weit sich dies Datenerhebung mit der Deutschen Rechtslage in Einstimmung befindet.

The next big thing: Georeferenzierung

Heute spiele ich mal Augur und prophezeie: Georeferenzierung wird “The next big thing” bei mobilen Internet-Services.

Seit über einem Jahrzehnt wird dies ja immer wieder von verschiedenen Experten vorhergesagt und nichts passiert. Doch in den kommenden zwei Jahren sehe ich mobile Geoinformationsdienste auf dem Durchmarsch zur Massenanwendung.

Zwei Player bestimmen den Markt

1. Es gibt zwei globale Player, die in den nächsten Monaten mit mobilen geo basierten Diensten auftrumpfen werden:

Apples iPhone der 2. Generation ist ein perfektes mobiles Endgerät für Geodienste. Die Bestimmung der Position erfolgt entweder per Mobilfunkzelle oder GPS. Durch seine einfache Handhabung ist das iPhone eine ideale Plattform für web basierte Services, die Geo-Informationen nutzen.

Google Maps und Google Earth sind nicht nur fantastische Anwendungen sondern auch ein riesiger Agregator, der es Google erlaubt Medien- und Informationen mit Ortbezug zu sammeln. Es entseht bei Google eine umfassende Verknüpfung von Kartographie und Information.

Warum “the next big thing”

Mobile geobasierte Dienste sind bislang an zwei Dingen gescheitert: Hemmungen durch Mobilfunk- und Servicanbieter und ein Mangel an guten mobilen Endgeräten. In dieses Vakuum stößt nun die iPhone-Plattform als Träger der mobilen Services des Marktführers Google.

Mit dem Web 2.0 ist ein umfassendes Ökosystem an Services entstanden, die an Google Maps und Google Earth andocken. Durch das iPhone können diese Dienste sehr einfach die mobile Welt auf dem Handy erobern. Im Gegensatz zu früheren Jahren mangelt es nicht an Anwender und Communities das mobile Web 2.0 nutzen.

Die mobile Zukunft ist spannender, als jemals zuvor.

1 22 23 24 25 26 55