The Rise and Fall of CAPTCHAs

von casc

Bild: CASC – full service agentur GmbH

Wenn Sie viel Zeit im Internet verbringen, haben Sie bisher auch unzählige Male Autos, Zebrastreifen oder Ampeln auf Bildern identifiziert und angeklickt. Diese Tests sind unter dem sperrigen Akronym CAPTCHA bekannt. Das steht für „Completely Automated Turing Test To Tell Computers and Humans Apart“. Bis heute zählen CAPTCHAs zu den entscheidenden Sicherheitstools, die verhindert, dass das Internet von Spam oder bösartigen Bots überschwemmt wird.

Aber CAPTCHAs sind bzw. waren auch ein Werkzeug, um künstliche Intelligenz zu entwickeln und verbessern. Jedes Mal, wenn Sie ein CAPTCHA lösen, helfen Sie Computern, Aufgaben wie das Lesen von Text oder das Identifizieren von Objekten auf Fotos ein wenig zu verbessern. Im Laufe der Zeit sind Maschinen bei vielen dieser Aufgaben sogar besser geworden als der Mensch selbst.

Der Anfang

In den frühen 2000er Jahren waren Maschinen schlecht darin, Texte zu erkennen und zu lesen. Daher forderten die ersten CAPTCHAs Menschen auf, gewellte, unscharfe und durchgestrichene Wörter zu identifizieren. Jedes Mal, wenn ein Mensch eines dieser Rätsel erfolgreich löste, ging die Antwort in einen riesigen Datenbank ein, die dabei half, Algorithmen zu trainieren, um schlecht lesbaren Text besser zu interpretieren.

Der größte Nutznießer dieses Systems ist Google, dem reCAPTCHA, das weltweit größte CAPTCHA-Unternehmen, gehört. Im Jahr 2009 begann Google, Millionen von Büchern zu scannen und digitalisieren, um das Google Books-Archiv zu erstellen.

Der Untergang des Captcha ist vor allem das Ergebnis schneller Verbesserungen im Bereich der KI.

Immer wenn die KI über ein schlecht gescanntes Wort stolperte, das sie nicht richtig lesen konnte, verwendete Google dieses Wort in einem reCAPTCHA-Test. Menschliche Testteilnehmer entzifferten das Wort und teilten Google die richtige Antwort mit. Dabei entstanden Trainingsdaten, mit denen Google seine KI verfeinern konnte.

Google wiederholte diesen Vorgang seither um auch andere Produkte zu verbessern. Im Jahr 2012 verwendete das Unternehmen Algorithmen, um Bilder aus Google Street View zu sichten. Also begann reCAPTCHA, Menschen aufzufordern, Zahlen und Wörter in körnigen Bildern von Adress- und Straßenschildern zu identifizieren. Später präsentierte reCAPTCHA den Usern Bilder und forderte sie auf, auf Objekte wie Boote oder Fahrräder zu klicken. Diese Tests halfen Google, die Genauigkeit der Bildersuche zu verbessern.

Heutzutage fordern viele reCAPTCHA-Tests Menschen auf, Schlüsselelemente in Verkehrsbildern zu identifizieren – z.B. Busse, Zebrastreifen, Ampeln usw. Waymo, das Unternehmen für selbstfahrende Autos, das sich im Besitz von Googles Muttergesellschaft Alphabet befindet, behauptet jedoch, dass keine dieser Daten verwendet werden, um seine Algorithmen zu trainieren. Google teilte außerdem im Juli 2021 mit, dass es die Verwendung von CAPTCHA-Daten zum Trainieren der KI vollständig eingestellt habe. Begründet wurde diese Entscheidung nicht.

99,8 % Genauigkeitsrate moderner KI-Systeme, die schwierigsten Text-CAPTCHAs zu lösen
33 % Genauigkeitsrate für Menschen, die selben CAPTCHAs lösen

Das Ende der CAPTCHAs

CAPTCHAs, wie wir sie kennen, werden bald veraltet sein: Der Chefingenieur des reCAPTCHA-Teams von Google teilte mit, dass bis zum Ende dieses Jahrzehnts Standard-CAPTCHAs, wie z.B. das Lesen von Texten oder das Identifizieren von Bildern, aus dem Web verschwinden werden.

Der Untergang des CAPTCHA ist vor allem das Ergebnis schneller Verbesserungen im Bereich der KI. Die Forschungsmission von CAPTCHA ist so erfolgreich gewesen, dass Maschinen mittlerweile bei der Lösung jeder Aufgabe, genauso gut oder besser abschneiden wie Menschen.

Seit 2014 ersetzt Google CAPTCHAs durch ein System der „kontinuierlichen Authentifizierung“. Im Wesentlichen handelt es sich dabei um ein System, das überwacht, wie wir im Internet surfen und feststellt, ob wir uns wie Menschen oder Bots verhalten. Menschen bewegen beispielsweise ihre Cursor anders als Roboter: Wir bewegen uns mit mäandernder Ungenauigkeit, während Bots dazu neigen, den direktesten Weg zwischen zwei Punkten zu nehmen. Während diese neue Methode der Überprüfung keine Zeit mit sinnlosen Tests verschwendet, hat sie Datenschutzbedenken ausgelöst.

25 Millionen Bücher im Google Books-Archiv, wurden bisher mit Hilfe von CAPTCHA-Testteilnehmern digitalisiert

Die Geschichte der CAPTCHAs

2003: Forscher von Carnegie Mellon prägen den Begriff „CAPTCHA“ in einer wissenschaftlichen Arbeit, die ihre Vision für den Einsatz von CAPTCHAs zur Blockierung von Bots und zur Förderung der KI-Forschung darlegt.

2007: Die Forscher von Carnegie Mellon bringen reCAPTCHA auf den Markt, ein Unternehmen, das schnell zur wichtigsten Quelle für Tests, die die Menschlichkeit beweisen, im Internet wird.

2009: Google erwirbt reCAPTCHA und verwendet es, um das Google Books-Archiv zu digitalisieren.

2014: Google führt No-CAPTCHA ein, das ohne Test zwischen Mensch und Bot unterscheidet. Benutzer klicken einfach auf ein Kästchen mit der Aufschrift „Ich bin kein Roboter“.

2015: Eine Frau aus Massachusetts reicht eine Sammelklage gegen Google ein, weil sie argumentiert, dass das Unternehmen Webnutzer auf unfaire Weise für freie Arbeitskräfte ausbeutet. Ein Richter weist den Fall später ab.

2017: Google führt ein „unsichtbares“ CAPTCHA ein, das das Verhalten von Webnutzern verfolgt, um festzustellen, ob es sich um Menschen handelt oder nicht.

2020: CloudFlare, ein Unternehmen, das Sicherheitsdienste für viele Websites anbietet, stellt die Verwendung von reCAPTCHA aus Datenschutzgründen ein.

2021: Google teilt mit, dass es keine CAPTCHA-Daten mehr verwendet, um seine Algorithmen zu trainieren, und löscht alle Erwähnungen von KI von der reCAPTCHA-Startseite.