2018 erschien ein Video des ehemaligen US-Präsidenten Barack Obama im Netz, in dem er den damaligen Präsidenten Donald Trump als „Volldeppen“ bezeichnet. 2020 veröffentlichte das Massachusetts Institute of Technology (MIT) ein Video, das den verstorbenen US-Präsidenten Richard Nixon dabei zeigt, wie er eine Trauerrede zum Tod der Astronauten der ersten Mondmission vorliest. Im März 2022 wird ein Video auf Facebook geladen, das den ukrainischen Präsidenten Wolodymyr Selenskyj dabei zeigt, wie er ukrainische Soldaten auffordert, sich zu ergeben. All diese Videos haben nicht nur für jede Menge Aufruhr gesorgt, sie haben eines gemeinsam: Sie sind nicht echt.
Während das MIT mit seinem Experiment vor dem Potenzial digitaler Fälschungen warnen will und der amerikanische Forscher Supasorn Suwajanakorn mit seinem Obama-Video zeigen wollte, was bereits technisch alles möglich ist, planten die Macher der Selenskyj-Fälschung mit ihrem Video wahrscheinlich, einen Krieg zu ihren Gunsten zu beeinflussen – dieses wurde von Facebook allerdings schnell als Fälschung erkannt und entfernt. Die prominenten Beispiele sorgten nicht nur für viel Wirbel in der Medienwelt, sondern auch dafür, dass der Begriff Deep Fake Einzug in unsere Gesellschaft gehalten hat. Er beschreibt Medieninhalte, bei denen mittels künstlicher Intelligenz Gesichter kopiert werden – somit können mediale Fälschungen erstellt werden, die den Rezipient*innen vortäuschen, eine Person habe etwas gesagt oder getan, was gar nicht passiert ist.
Die Angst, als Laie nicht mehr zwischen Fiktion und Realität unterscheiden zu können, ist einerseits berechtigt, andererseits dient diese Technologie in der Filmindustrie beispielsweise als Inspiration. So widmet sich etwa die britische Science-Fiction-Serie „The Capture“ den Gefahren, die mit Deep Fakes einhergehen. In der Serie werden die Aufnahmen von Überwachungskameras gefälscht und zeigen Verbrechen, die nie begangen worden sind. Die Faszination einer immer weiter voranschreitenden Konvergenz von Realität und digitalisierter Fiktion spielt den Produzenten in die Hände.
Dabei ist die Methode, Gesichter zu tauschen, eigentlich schon seit Jahrzehnten in der Filmindustrie in Verwendung und das Prinzip der Deep Fakes daher gar nicht so neu. Matthias Niessner leitet seit 2017 das Visual Computation Lab an der Technischen Universität München und beschäftigt sich seit Jahren mit künstlicher Intelligenz und Computergrafik. Er hat Deep Fakes in Medien von Beginn an beobachtet und mit seinem Team sogar eine künstliche Intelligenz entwickelt, die Deep Fakes entlarven kann.
An sich ist ja jedes Video fake.
Matthias Niessner, Professor der TU München
Der Begriff Deep Fakes verbreitet bei manchen Begeisterung, bei anderen Angst und Schrecken – viele wissen aber gar nicht, was Deep Fakes sind und woher sie kommen. Wie kam der Begriff auf?
[matthias niessner]: Deep Fake ist ein Begriff, der in den letzten Jahren ein wenig gehypt worden ist. Die Idee dahinter, künstlich Videos zu erstellen, ist nicht neu – das gibt es in der Filmindustrie seit 30 Jahren. Angefangen hat man damit bereits in den 80er-Jahren; für Filme wie „Star Trek“ wurden synthetische Bilder generiert. Diese Technik hat sich dann weiterentwickelt. Eine Charakteristik, die Deep Fakes von der klassischen Erstellung künstlicher Bilder unterscheidet, ist die Technik des „Face Swappings“, wobei Gesichter getauscht werden. Auch diese Methode gibt es allerdings schon seit Längerem in der Filmindustrie, meist, wenn Stuntdoubles eingesetzt werden. Der Gesichtertausch ist sowohl durch Computergrafik als auch durch künstliche Intelligenz möglich.
Dass die Technologie jetzt öffentlich so viel Aufmerksamkeit erregt hat, liegt meiner Meinung nach sowohl daran, dass das Thema künstliche Intelligenz generell gerade im Trend liegt – sowohl positiv als auch negativ –, als auch an der öffentlich angenommenen These, dass „das jetzt jeder machen kann“. Dadurch gilt die Methode nicht mehr nur als Technik der Filmindustrie, sondern ist im Mainstream angekommen.
Aber was genau sind Deep Fakes – und gibt es gute und schlechte?
[M. N.]: Ursprünglich wurde als Deep Fake rein die Methode des „Face Swappings“ bezeichnet. Dabei werden keine neuen Gesichter erstellt, wie viele glauben, sondern man erzeugt sozusagen ein hybrides Gesicht aus jenen zweier Menschen. Prinzipiell kann man den Unterschied zwischen Original und Fake-Person trotzdem ganz gut erkennen. Wenn jetzt aber zusätzlich noch jemand die Stimme der Person, die man zu fälschen versucht, zum Beispiel von einem Politiker, imitiert, ist die Täuschung noch stärker. Die „guten“ Deep Fakes, wie zum Beispiel jenes von Tom Cruise (ein Fake-Video des Schauspielers kursierte 2021 auf sozialen Medien, Anm.), die wirklich täuschend aussehen und die man momentan in der Öffentlichkeit als Beispiel für die Technologie sieht, wurden alle in Studios gedreht. Solche Videos können entgegen der öffentlichen Meinung keine Laien produzieren, das wäre sehr aufwendig und teuer.
Und das Obama-Video aus 2018?
[M. N.]: Das gilt zwar in der Öffentlichkeit als prominenter Deep Fake, ist aber gar kein wirklicher, sondern wurde wie ein Film gedreht. Da wurde ein Studio angemietet, ein Greenscreen verwendet und eine Person gesucht, die aussieht wie Obama, sowie ein Sprecher, der den ehemaligen US-Präsidenten nachahmt. Anschließend wurde wie auch in Filmen sein Gesicht darübergelegt.
Wie kann man Deep Fakes technisch eingrenzen? Wann ist etwas ein Deep Fake und wann nicht?
[M. N.]: Das ist eine spannende Frage. Eigentlich war es so, dass Deep Fake die einzige konkrete Deep-Learning-Methode war, mit der man Gesichter von einer auf eine andere Person kopieren konnte. Die Methode an sich hat dabei gar nicht so gut funktioniert, aber es war eine der ersten, die künstliche Intelligenz verwendet haben, und so hat sie für Aufmerksamkeit gesorgt. Zwei bis drei Wochen später hieß alles auf einmal Deep Fake, deshalb ist die Grenze schwer zu ziehen. Ich als Wissenschaftler würde sagen, alles, was Gesichtertausch durch KI ist, ist ein Deep Fake.
Gesichter auszutauschen und vor allem in der Öffentlichkeit stehenden Personen so Wörter in den Mund legen zu können kann enorm viel Schaden anrichten. Wenn es diese Technik schon so lange gibt, warum war der geschilderte Missbrauch dann so lang nicht der Fall?
[M. N.]: Weil es, wie erwähnt, für Laien nicht wirklich möglich ist, qualitativ hochwertige Deep Fakes zu erstellen. Deshalb gibt es nicht so viele wirklich überzeugende Beispiele. Das Gefahrenpotenzial kommt aber auf die Branche an. Prinzipiell werden Deep Fakes ja hauptsächlich dazu verwendet, virale Videos zu erstellen. Abgesehen davon gibt es aber noch eine andere Sparte, in der Deep Fakes häufig eingesetzt werden – das ist die Pornografie. 98 % aller Deep Fakes sind dort zu finden. Diese sind zwar meist nicht besonders hochwertig, trotzdem sehe ich dort die größte Gefahr für den Missbrauch der Technologie. Wenn auf dem Schulhof Klassenkameraden ohne großen Aufwand plötzlich Pornos voneinander erstellen können, kann sehr viel Schaden angerichtet werden. Diese Videos wieder aus dem Netz zu entfernen ist dann wirklich schwierig, weil die Plattformen meist nicht kooperativ sind.
Im politischen Bereich ist die Technik aktuell allerdings nicht wirklich problematisch. Im Präsidentschaftswahlkampf der USA 2016 gab es beispielsweise nicht mehr als zehn Deep Fakes – und das bei Millionen an Videos, die veröffentlicht wurden.
Deep Fakes sind also keine Gefahr für die Demokratie?
[M. N.]: Nein, eigentlich nicht. Eine spannende und auch relevante Entwicklung ist, dass durch die steigende Bekanntheit von Deep Fakes eigentlich jeder ein Video als Fälschung verdächtigen kann. In diesem Kontext wurde ich als Experte schon mehrmals um Rat gefragt, zum Beispiel bei der Präsidentschaftswahl in Brasilien. Da wurden echte Videos von Politikern, die mit Prostituierten gefilmt worden waren, veröffentlicht und anschließend von den Protagonisten der Videos als Fake bezeichnet. Die Glaubwürdigkeit von Videos ist durch die Thematik Deep Fakes natürlich nun beeinflusst, vor allem bei Videos mit niedriger Qualität.
Genau um das zu vermeiden, haben Sie mit Ihrem Team eine KI entwickelt, die Deep Fakes entlarvt, richtig? Können Sie das genauer erklären?
[M. N.]: Gerne. An sich ist ja jedes Video „Fake“ – ein Video ist immer nur ein Versuch, die Realität abzubilden, was es natürlich nie schaffen kann. Wir versuchen, herauszufinden, welche Methoden genutzt wurden, um das Video realistischer zu machen. Egal, ob eine veränderte Helligkeitsstufe oder der Tausch von Gesichtern – die Methoden hinterlassen digitale Spuren. Unsere KI haben wir darauf programmiert, diese Methoden zu erkennen. Das funktioniert erstaunlich gut. Je nach Qualität der Videos kann unsere KI zu 70 % bei niedrigqualitativen Videos und zu 99 % bei HD-Videos sagen, ob es sich um einen Deep Fake handelt.
Woher kamen Idee und Motivation?
[M. N.]: Unser Team besteht aus Computergrafikern, wir beschäftigen uns schon lange mit Gesichtern, sowohl mit der Rekonstruktion als auch mit Face-Tracking oder Rendering. Wir wollten eben zeigen, dass es einerseits sehr einfach ist, Deep Fakes zu erkennen, und andererseits haben wir bereits die Werkzeuge dazu. Um so eine KI zu erstellen, muss man zuerst einmal einen großen Datensatz mit Fake-Videos erstellen, um diese dann unserer Technologie füttern zu können. Da wir uns schon so viel mit dem Thema beschäftigt hatten, war es leicht für uns, Deep Fakes zu erstellen – und eine logische Konsequenz, solch eine KI zu entwickeln.