Lernen ohne Theorie
Warum man mit Daten aus der Vergangenheit nicht die Zukunft vorhersagen kann
In meiner letzten Kolumne mit dem Titel „Warum uns die Roboter keine Jobs wegnehmen werden“ habe ich geschrieben: „Ich bin KI-Skeptiker. Und ich frage mich, wieso alle anderen das nicht auch sind. Die technologische Entwicklung, die angeblich von den (zugegebenermaßen eindrucksvollen) Fortschritten beim maschinellen Lernen hin zu einer starken Künstlichen Intelligenz führen soll, kann ich ebenso wenig erkennen wie eine technologische Entwicklung, die von einer stetig verbesserten Pferdezucht zum Verbrennungsmotor führt.“
Das möchte ich heute etwas weiter ausführen. Was ist maschinelles Lernen? Ein Werkzeug zum Ziehen statistischer Rückschlüsse, das Trainingsdaten analysiert, um Verbindungen zwischen verschiedenen Phänomenen herzustellen. Beispielsweise merkt Ihr Handy, dass Sie ziemlich oft, wenn Sie das Wort „Hallo“ eingeben, als nächstes „Schatz“ schreiben, und wird es Ihnen automatisch vorschlagen, wenn Sie das nächste Mal „Hallo“ tippen. Das ist keine Zauberei, sondern ein Taschenspielertrick, der nur so lange verblüfft, bis man das zugrunde liegende Prinzip erkannt hat. Dann wird der Trick banal.
Dabei ist es sehr nützlich, die Auswertung statistischer Zusammenhänge zu automatisieren. Zwei Augen, eine Nase und ein Mund sind mit sehr hoher (allerdings nicht hundertprozentiger) Wahrscheinlichkeit ein Gesicht. Auch Autos, Katzen, Hubschrauber oder Sturmgewehre haben bestimmte wiedererkennbare Merkmale. Bestimmte sichtbare Kennzeichen deuten zuverlässig auf Hautkrebs hin, bestimmte geschwungene Linien stimmen verlässlich mit geschriebenen Wörtern überein. Das maschinelle Lernen hat uns eine Vielzahl automatischer Werkzeuge zur Verfügung gestellt, die Daten aus der realen Welt verlässlich einordnen und dementsprechend handeln. Und das ist cool!
Aber es ist nur die halbe Wahrheit. Maschinelles Lernen ist frei von jeder Theorie. Eine Maschine weiß nichts von Mündern und Augen und Nasen, sie weiß lediglich aus Trainingsdaten, dass gewisse geometrische Muster als Gesichter zu identifizieren sind – daher auch die lustigen Geschichten von Türüberwachungskameras, die Gesichter im schmelzenden Schnee zu erkennen glauben und ihre Besitzer vor möglichen Eindringlingen warnen. Jeder, der schon mal einen Wolkenhimmel betrachtet hat, weiß, dass es in der realen Welt jede Menge gesichtsähnlicher Formen gibt. Keine statistische Definition von „Gesichtsheit“ kommt an das Verständnis dessen heran, was ein Gesicht tatsächlich ist.
Dabei ist das größte Problem theoriefreier statistischer Zusammenhänge nicht, dass sie Gesichter im Schnee sehen, wo keine sind. In jedem Statistikgrundkurs lernt man, dass eine Korrelation kein Kausalzusammenhang ist. Zum Beispiel: Der Grund dafür, weshalb die amerikanische Polizei überdurchschnittlich viel kriminelle Aktivität in Vierteln meldet, in denen viele Schwarze wohnen, könnte darin liegen, dass Schwarze überdurchschnittlich oft unter fadenscheinigen Vorwänden angehalten und anschließend zu Unrecht angeklagt werden – was wiederum dazu führt, dass sich viele Unschuldige schuldig bekennen, weil das US-Justizsystem diejenigen bestraft, die eine Anklage anfechten, anstatt sich schuldig zu bekennen.
Diesen Zusammenhang zu verstehen, erfordert eine „dichte Beschreibung“ – ein Begriff aus der Ethnologie, der verlangt, bei der Datenerhebung auch die qualitative Seite zu berücksichtigen. Clifford Geertz bringt in seinem gleichnamigen Essay ein Beispiel: Einmal beobachtete er, wie eine der Personen, deren Kultur er untersuchte, einer anderen zuzwinkerte – war dies ein Flirt, eine aggressive Geste, ein Tic oder einfach nur ein Staubkorn im Auge? Das lässt sich nur herausfinden, indem man die Beteiligten direkt befragt und den qualitativen, inneren und statistisch nicht erfassbaren Bestandteil der Geste in Erfahrung bringt.
Nach quantitativen Prinzipien arbeitende Disziplinen sind berüchtigt dafür, qualitative Merkmale auszuschließen, da diese keiner mathematischen Analyse unterworfen werden können. Der quantitative Rest ist von zweifelhaftem Wert, aber zumindest kann man damit Berechnungen anstellen. Doch das ist genau dasselbe, als würde man unter einer Straßenlampe nach seinen Autoschlüsseln suchen und nicht an der Stelle, an der man sie verloren hat, weil es dort zu dunkel ist.
Probleme löst man damit also nicht. Im August machte eine Gruppe Physiker Schlagzeilen, als sie ein Modell zur Vorhersage der Ausbreitung des neuartigen Corona-Virus am Albion College in Michigan vorstellte. Die Physiker gingen fälschlicherweise davon aus, dass sich a) Epidemiologie mit Physik vergleichen lässt und b) ihr Modell effektiv zur Ausbreitungsverhinderung der Krankheit einsetzen lässt, wobei sie die Anzahl der Fälle auf hundert (als Worst-Case-Szenario) begrenzten. Natürlich gab es schon nach ein paar Tagen mehr als siebenhundert Fälle, und der Campus musste geschlossen werden. Das Modell hatte alle quantitativen Elemente genau berücksichtigt, darüber aber die qualitativen außer Acht gelassen – wie etwa die Möglichkeit, dass sich die Studenten auf Partys betrinken und einander die Augäpfel lecken.
Beim maschinellen Lernen geht es ebenfalls nur um die quantitativen Elemente eines Systems. Die qualitativen werden entweder in Zahlen übersetzt oder gleich ganz ignoriert. Durch das Fehlen einer Theorie – also dem Verständnis für die Kausalität der identifizierten Korrelationen – kann die Maschine nicht wissen, wenn sie einen Fehler macht.
Über die Rolle, die dieses Defizit bei der Verstärkung bestimmter Vorurteile spielt, wurde viel geforscht und geschrieben. Wenn man beispielsweise in einer Personalabteilung einen Algorithmus zur Sichtung neuer Bewerber auf eine Stelle mit den Lebensläufen bereits erfolgreicher Bewerber füttert, wird man nur Leute einstellen, die denen ähneln, die man bereits eingestellt hat. Dasselbe gilt für die Kreditvergabe: Hier werden die Menschen benachteiligt werden, die schon immer Probleme hatten, einen Kredit zu bekommen. Der einzige Unterschied ist, dass die Entscheidung schneller gefällt wird und von denen, die von der Diskriminierung profitieren, mit einer pseudoempirischen Begründung unterfüttert werden kann.
Aber ich will noch auf einen weiteren Punkt hinweisen, den ich schon in der letzten Kolumne erwähnt habe: Von einer stetigen Verbesserung der statistischen Korrelationsanalyse führt kein Weg zu jener Art von Verständnis und Synthese, die wir mit dem Begriff „Künstliche Intelligenz“ verbinden. Dass ein bestimmter Datensatz a, b, c … z mit einer Wahrscheinlichkeit von fünfundsiebzig Prozent zu einem Ergebnis X führt, sagt noch lange nichts darüber aus, ob bestimmte Daten zu Polizeikontrollen rassistisch sind, ob sich Studenten betrinken und sich auf einer Party zu nahe kommen oder ob ein Zwinkern einen Flirt oder einfach nur ein Staubkorn im Auge bedeutet.
Es herrscht keine Einigkeit darüber, was „Intelligenz“ überhaupt sein soll, aber in jeder maßgeblichen Definition taucht der Begriff des „Begreifens“ auf. Statistik führt nicht dazu, dass man etwas begreift, auch wenn es manchmal so aussehen mag.
Nehmen wir folgendes Beispiel: Man wusste lange vor dem Verbrennungsmotor, dass sich Gas ausdehnt, und verstand auch, wie ein Kolben funktioniert. Allerdings ist die Präzision, die für die kontrollierten Explosionen im Inneren eines Verbrennungsmotors nötig ist, von einem auf herkömmliche Weise arbeitenden Schmied nicht zu erreichen. Der beste Schmied könnte vielleicht einen Kolben zusammenhämmern, der einigermaßen funktioniert, aber dabei würde er zum einen jede Menge Ausschuss produzieren, zum anderen wäre der damit betriebene Motor höchst unzuverlässig – eine Verbesserung ließe sich erst mit anderen Techniken wie dem Metallguss oder dem Fräsen erreichen.
Maschinelles Lernen ist wie herkömmliche Schmiedearbeit: Talentierte Menschen können Großartiges damit schaffen, aber die Vorstellung, dass eine stete Verbesserung der statistischen Korrelationsbestimmung irgendwann ein Bewusstsein hervorbringen wird, ist Wunschdenken und ein guter Aufhänger für einen Science-Fiction-Roman, aber kein brauchbarer Plan für die Zukunft.
Cory Doctorow ist Schriftsteller, Journalist und Internet-Ikone. Mit seinem Blog, seinen öffentlichen Auftritten und seinen Büchern hat er weltweit Berühmtheit erlangt. Sein Roman „Walkaway“ ist im Shop erhältlich. Zuletzt erschien bei Heyne seine Novelle „Wie man einen Toaster überlistet“ (im Shop).
Kommentare