Generative KI und Deepfake
Generative KI ist der Oberbegriff für Systeme, die neue Inhalte erzeugen, also Bilder, Videos, Text oder Audio, statt vorhandene nur zu sortieren oder zu klassifizieren. Sie lernt Muster aus großen Mengen Beispieldaten und kombiniert diese zu neuen Ausgaben. Bekannte Anwendungen sind Bildgeneratoren und Sprachmodelle.
Ein Deepfake ist eine spezielle Anwendung davon: ein mit KI manipuliertes oder vollständig erzeugtes Bild beziehungsweise Video, das eine reale Person etwas tun oder sagen lässt, was sie nie getan hat. Der Begriff setzt sich aus Deep Learning und Fake zusammen. Nicht jeder KI-Inhalt ist ein Deepfake, aber jeder Deepfake ist KI-gestützt.
Wie KI Bilder erzeugt: Diffusionsmodell und GAN
Ein Diffusionsmodell ist die Technik hinter den meisten heutigen Bildgeneratoren. Vereinfacht gesagt lernt das Modell, aus zufälligem Bildrauschen Schritt für Schritt ein sinnvolles Bild herauszuarbeiten, gesteuert durch deine Texteingabe. Diese Modelle liefern oft sehr fotorealistische Ergebnisse und sind der aktuelle Standard.
Ein GAN, also ein Generative Adversarial Network, ist ein älterer Ansatz, bei dem zwei neuronale Netze gegeneinander arbeiten: Eines erzeugt Bilder, das andere versucht, Fälschungen von echten Bildern zu unterscheiden. Durch dieses Wettrennen werden die Ergebnisse immer überzeugender. GANs wurden lange für die Gesichts-Generierung genutzt und sind die Wurzel vieler früher Deepfakes.
Was du eingibst und was herauskommt: Prompt, Text-to-Image, Text-to-Video
Ein Prompt ist die Eingabe, mit der du einem KI-Modell sagst, was es erzeugen soll. Das ist meist ein Text, kann aber auch ein Bild oder eine Kombination sein. Wie genau und detailliert der Prompt formuliert ist, beeinflusst das Ergebnis stark.
Text-to-Image bezeichnet die Erzeugung eines Bildes aus einer Textbeschreibung, Text-to-Video entsprechend die Erzeugung eines Videoclips. Text-to-Video ist technisch deutlich anspruchsvoller, weil viele Einzelbilder über die Zeit hinweg konsistent bleiben müssen. Genau hier zeigen sich oft noch Fehler, etwa flackernde Details oder springende Objekte.
Gezielte Manipulation: Face-Swap, Inpainting und Outpainting
Bei einem Face-Swap wird ein Gesicht in einem Bild oder Video durch ein anderes ersetzt. Das ist eine häufige Technik bei Deepfakes von Prominenten und Privatpersonen und kann für Betrug, Mobbing oder Desinformation missbraucht werden.
Inpainting bedeutet, dass ein ausgewählter Teil eines Bildes durch KI neu gefüllt oder verändert wird, etwa um ein Objekt zu entfernen oder einzufügen. Outpainting erweitert ein Bild über seine ursprünglichen Ränder hinaus, indem die KI passende Bildbereiche ergänzt. Beide Verfahren machen es möglich, ein echtes Foto nur teilweise zu manipulieren, was die Erkennung erschwert.
Grenzen der Technik: Halluzination, Cheapfake und Shallowfake
Halluzination beschreibt den Fall, dass ein KI-System Inhalte erzeugt, die plausibel wirken, aber sachlich falsch oder frei erfunden sind. Bei Bildern äußert sich das oft in unmöglichen Details wie verformten Händen, unlesbarer Schrift oder Objekten, die physikalisch keinen Sinn ergeben. Solche Auffälligkeiten können ein Hinweis sein, sind aber kein sicherer Beweis.
Ein Cheapfake oder Shallowfake kommt ganz ohne aufwendige KI aus. Hier reichen einfache Mittel: Ein Video wird verlangsamt oder beschleunigt, aus dem Zusammenhang gerissen, falsch beschriftet oder grob geschnitten. Solche Fälschungen sind technisch simpel, verbreiten sich aber schnell und richten oft genauso viel Schaden an wie echte Deepfakes.
Herkunft und Kennzeichnung: C2PA, SynthID, Wasserzeichen, Provenienz
Provenienz oder Herkunftsnachweis bedeutet, dass nachvollziehbar dokumentiert wird, woher ein Bild stammt und wie es entstanden oder bearbeitet wurde. C2PA ist ein offener Branchenstandard dafür: Er hinterlegt sogenannte Content Credentials, also signierte Informationen zur Herkunft, direkt in der Datei. Wird die Datei manipuliert, kann diese Signatur ungültig werden.
SynthID ist ein von Google entwickeltes digitales Wasserzeichen, das ein unsichtbares Muster in KI-erzeugte Inhalte einbettet, das spezielle Software wieder auslesen kann. Solche Wasserzeichen sollen die Herkunft markieren, ohne das Bild sichtbar zu verändern. Wichtig zu wissen: Herkunftsdaten und Wasserzeichen können fehlen, entfernt werden oder bei Screenshots verloren gehen. Ihr Vorhandensein ist ein Indiz, ihr Fehlen aber kein Beweis für Echtheit.
Spuren im Material: Bildmetadaten, EXIF, Medienforensik und Upscaling
Bildmetadaten sind Zusatzinformationen, die in einer Bilddatei gespeichert sein können, etwa Aufnahmezeit, Kameramodell oder Standort. EXIF ist das verbreitetste Format dafür bei Fotos. Diese Daten lassen sich auslesen, aber auch leicht entfernen oder fälschen, und viele Plattformen löschen sie beim Hochladen automatisch.
Medienforensik untersucht ein Bild oder Video auf technische Spuren von Manipulation oder KI-Erzeugung, zum Beispiel ungewöhnliche Rauschmuster, Kompressionsartefakte oder Inkonsistenzen bei Licht und Schatten. Upscaling wiederum vergrößert oder schärft ein Bild mit KI nach und erfindet dabei Details, die im Original nicht vorhanden waren. Auch ein echtes Foto kann durch Upscaling künstliche Anteile bekommen, was forensische Analysen zusätzlich erschwert.