
Manchmal können diese
Captcha Prüfbilder,
die man heutzutage in fast jedem Webformular findet, echt
unheimlich nerven! Vor allem wenn man schon zum dritten mal die falsche
Buchstabenkombination eingetippt hat und das ganze Formular noch mal ausfüllen darf. Es gibt zwar auch
noch
andere
Methoden um
Spam-Bots aufzuhalten, aber manchmal hilft das auch nichts. Dann heißt es wohl oder übel ein
für Maschinen unlesbares
Captcha muss her.
Nur woher? Selbst programmieren?
Einen vorhandenen Webdienst benützen?
Problematisch wird es außerdem auch wenn mal jemand mit einer
Sehbehinderung das Captcha
ausfüllen will — da wäre eine optionale Soundausgabe sehr hilfreich.

Genau zu diesem Problem haben sich einige pfiffige Studenten der
Carnegie Mellon University etwas einfallen lassen
und ein
Captcha Projekt mit tieferem Sinn
ins Leben gerufen. Damit die Zeit die man benötigt um ein
Captcha zu lösen nicht komplett verschwendet ist.
Denn durch das Lösen eines solchen "
reCaptcha"
tragt Ihr dazu bei dass
alte Bücher digitalisiert werden.
Und ich halte das für eine sehr innovative und interessante Methode, vor allem
da ja im Moment fast überall versucht wird alte
Bücher und Dokumente zu digitalisieren um das
Wissen daraus zu retten bevor diese endgültig zu staub zerfallen.
Und wie funktioniert das ganze?
Wenn Ihr mal ein
Texterkennungsprogramm (OCR) ausprobiert habt, werdet Ihr bestimmt bemerkt
haben das es schnell zu Fehlern oder falsch interpretieren Wörtern bei der
Texterkennung kommen kann wenn etwas beispielsweise nicht mehr so gut lesbar ist
oder flecken im Text sind.
Deshalb gibt es auch in den digitalisieren Seiten von alten und teilweise schon
halb zerfallenen Büchern oftmals große Lücken mit Text der nicht automatisch entziffert
werden konnte.

Hier kommt jetzt das reCaptcha Projekt ins Spiel. Das Projekt
übernimmt diese nicht erkannten Wörter
aus diversen Quellen und speist diese in Ihre Datenbank ein. Den Benutzern werden dann jeweils zwei Wörter
präsentiert die
Sie erkennen müssen, eins davon wurde schon früher richtig erkannt und dient zur Kontrolle der
Benutzereingabe.
Das andere Wort ist ein noch nicht erkanntes Wort aus der Datenbank. Die erfolgten Benutzereingaben werden dann in
einer Datenbank abgespeichert und zur Sicherheit noch mit anderen Ergebnissen verglichen.
So werden unlesbare Texte Wort für Wort digitalisiert

— Sehr coole
Sache!
(Das ganze Projekt bietet natürlich auch eine
API mit der man die Captcha´s in eigene Projekte
(z.B.: Blogs, Foren, etc.) einbinden kann und eine Funktion mit der man seine
E-Mail Adressen schützen kann.)
So dann viel Spaß beim Bücher retten
!
Jonas