Kann man an Metadaten oder EXIF-Daten sicher erkennen, ob ein Bild KI-generiert ist?

Nein. Metadaten und EXIF-Daten können Hinweise auf Kamera, Software oder Bearbeitung geben, aber sie lassen sich fälschen, entfernen oder gehen beim Hochladen auf Plattformen oft komplett verloren. Fehlende Metadaten bedeuten nicht automatisch, dass ein Bild gefälscht ist, und vorhandene Metadaten sind kein Echtheitsbeweis. Sie sind nur ein Baustein unter mehreren.

Was ist der Unterschied zwischen einem Deepfake und einem Cheapfake?

Ein Deepfake wird mit KI erzeugt, etwa durch einen Face-Swap oder ein vollständig generiertes Video. Ein Cheapfake oder Shallowfake kommt ohne KI aus und nutzt einfache Tricks wie verlangsamte Wiedergabe, falsche Beschriftung oder das Herausreißen aus dem Zusammenhang. Beide können täuschen, der Cheapfake ist technisch aber deutlich simpler herzustellen.

Schützt ein Wasserzeichen wie SynthID zuverlässig vor Fälschungen?

Ein digitales Wasserzeichen wie SynthID kann markieren, dass ein Inhalt von einer bestimmten KI stammt, und ist ein sinnvolles Werkzeug zur Kennzeichnung. Allerdings tragen nicht alle KI-Werkzeuge solche Wasserzeichen, und sie können durch Bearbeitung, Screenshots oder bewusste Manipulation verloren gehen oder geschwächt werden. Ein fehlendes Wasserzeichen sagt deshalb nichts Sicheres über die Herkunft aus.

Wie verlässlich ist KI-Erkennung insgesamt?

KI-Erkennung liefert nie eine hundertprozentig sichere Aussage. Erzeugungs- und Erkennungstechnik entwickeln sich parallel weiter, und besonders nachbearbeitete oder hochskalierte Inhalte sind schwer einzuordnen. Am verlässlichsten ist es, mehrere Signale zu kombinieren: forensische Analyse, Herkunftsnachweise, die Plausibilität des Inhalts und die Quelle, die ihn verbreitet.

KI-Medien-Glossar: Die wichtigsten Begriffe rund um KI-Bilder und Deepfakes

Start › Ratgeber › KI-Medien-Glossar: Die wichtigsten Begriffe rund um KI-Bilder und Deepfakes

Rund um KI-generierte Bilder und Videos kursieren viele Fachbegriffe, die in Nachrichten, Plattform-Hinweisen und Diskussionen auftauchen, ohne erklärt zu werden. Wer wissen will, wie solche Inhalte entstehen und woran man sie erkennen kann, stolpert schnell über Worte wie Diffusionsmodell, Wasserzeichen oder Provenienz. Dieses Glossar ordnet die zentralen Begriffe ein und erklärt sie in verständlicher Sprache.

Wir konzentrieren uns auf das, was für dich als Verbraucherin oder Verbraucher praktisch relevant ist: wie KI-Medien gemacht werden, wie sich ihre Herkunft kennzeichnen lässt und was Erkennungsverfahren leisten und was nicht. Wichtig vorweg: Keine dieser Technologien liefert eine hundertprozentig sichere Aussage darüber, ob ein Bild echt oder KI-generiert ist. Das Glossar hilft dir, die Begriffe einzuordnen und Behauptungen kritischer zu lesen.

Generative KI und Deepfake

Generative KI ist der Oberbegriff für Systeme, die neue Inhalte erzeugen, also Bilder, Videos, Text oder Audio, statt vorhandene nur zu sortieren oder zu klassifizieren. Sie lernt Muster aus großen Mengen Beispieldaten und kombiniert diese zu neuen Ausgaben. Bekannte Anwendungen sind Bildgeneratoren und Sprachmodelle.

Ein Deepfake ist eine spezielle Anwendung davon: ein mit KI manipuliertes oder vollständig erzeugtes Bild beziehungsweise Video, das eine reale Person etwas tun oder sagen lässt, was sie nie getan hat. Der Begriff setzt sich aus Deep Learning und Fake zusammen. Nicht jeder KI-Inhalt ist ein Deepfake, aber jeder Deepfake ist KI-gestützt.

Wie KI Bilder erzeugt: Diffusionsmodell und GAN

Ein Diffusionsmodell ist die Technik hinter den meisten heutigen Bildgeneratoren. Vereinfacht gesagt lernt das Modell, aus zufälligem Bildrauschen Schritt für Schritt ein sinnvolles Bild herauszuarbeiten, gesteuert durch deine Texteingabe. Diese Modelle liefern oft sehr fotorealistische Ergebnisse und sind der aktuelle Standard.

Ein GAN, also ein Generative Adversarial Network, ist ein älterer Ansatz, bei dem zwei neuronale Netze gegeneinander arbeiten: Eines erzeugt Bilder, das andere versucht, Fälschungen von echten Bildern zu unterscheiden. Durch dieses Wettrennen werden die Ergebnisse immer überzeugender. GANs wurden lange für die Gesichts-Generierung genutzt und sind die Wurzel vieler früher Deepfakes.

Was du eingibst und was herauskommt: Prompt, Text-to-Image, Text-to-Video

Ein Prompt ist die Eingabe, mit der du einem KI-Modell sagst, was es erzeugen soll. Das ist meist ein Text, kann aber auch ein Bild oder eine Kombination sein. Wie genau und detailliert der Prompt formuliert ist, beeinflusst das Ergebnis stark.

Text-to-Image bezeichnet die Erzeugung eines Bildes aus einer Textbeschreibung, Text-to-Video entsprechend die Erzeugung eines Videoclips. Text-to-Video ist technisch deutlich anspruchsvoller, weil viele Einzelbilder über die Zeit hinweg konsistent bleiben müssen. Genau hier zeigen sich oft noch Fehler, etwa flackernde Details oder springende Objekte.

Gezielte Manipulation: Face-Swap, Inpainting und Outpainting

Bei einem Face-Swap wird ein Gesicht in einem Bild oder Video durch ein anderes ersetzt. Das ist eine häufige Technik bei Deepfakes von Prominenten und Privatpersonen und kann für Betrug, Mobbing oder Desinformation missbraucht werden.

Inpainting bedeutet, dass ein ausgewählter Teil eines Bildes durch KI neu gefüllt oder verändert wird, etwa um ein Objekt zu entfernen oder einzufügen. Outpainting erweitert ein Bild über seine ursprünglichen Ränder hinaus, indem die KI passende Bildbereiche ergänzt. Beide Verfahren machen es möglich, ein echtes Foto nur teilweise zu manipulieren, was die Erkennung erschwert.

Grenzen der Technik: Halluzination, Cheapfake und Shallowfake

Halluzination beschreibt den Fall, dass ein KI-System Inhalte erzeugt, die plausibel wirken, aber sachlich falsch oder frei erfunden sind. Bei Bildern äußert sich das oft in unmöglichen Details wie verformten Händen, unlesbarer Schrift oder Objekten, die physikalisch keinen Sinn ergeben. Solche Auffälligkeiten können ein Hinweis sein, sind aber kein sicherer Beweis.

Ein Cheapfake oder Shallowfake kommt ganz ohne aufwendige KI aus. Hier reichen einfache Mittel: Ein Video wird verlangsamt oder beschleunigt, aus dem Zusammenhang gerissen, falsch beschriftet oder grob geschnitten. Solche Fälschungen sind technisch simpel, verbreiten sich aber schnell und richten oft genauso viel Schaden an wie echte Deepfakes.

Herkunft und Kennzeichnung: C2PA, SynthID, Wasserzeichen, Provenienz

Provenienz oder Herkunftsnachweis bedeutet, dass nachvollziehbar dokumentiert wird, woher ein Bild stammt und wie es entstanden oder bearbeitet wurde. C2PA ist ein offener Branchenstandard dafür: Er hinterlegt sogenannte Content Credentials, also signierte Informationen zur Herkunft, direkt in der Datei. Wird die Datei manipuliert, kann diese Signatur ungültig werden.

SynthID ist ein von Google entwickeltes digitales Wasserzeichen, das ein unsichtbares Muster in KI-erzeugte Inhalte einbettet, das spezielle Software wieder auslesen kann. Solche Wasserzeichen sollen die Herkunft markieren, ohne das Bild sichtbar zu verändern. Wichtig zu wissen: Herkunftsdaten und Wasserzeichen können fehlen, entfernt werden oder bei Screenshots verloren gehen. Ihr Vorhandensein ist ein Indiz, ihr Fehlen aber kein Beweis für Echtheit.

Spuren im Material: Bildmetadaten, EXIF, Medienforensik und Upscaling

Bildmetadaten sind Zusatzinformationen, die in einer Bilddatei gespeichert sein können, etwa Aufnahmezeit, Kameramodell oder Standort. EXIF ist das verbreitetste Format dafür bei Fotos. Diese Daten lassen sich auslesen, aber auch leicht entfernen oder fälschen, und viele Plattformen löschen sie beim Hochladen automatisch.

Medienforensik untersucht ein Bild oder Video auf technische Spuren von Manipulation oder KI-Erzeugung, zum Beispiel ungewöhnliche Rauschmuster, Kompressionsartefakte oder Inkonsistenzen bei Licht und Schatten. Upscaling wiederum vergrößert oder schärft ein Bild mit KI nach und erfindet dabei Details, die im Original nicht vorhanden waren. Auch ein echtes Foto kann durch Upscaling künstliche Anteile bekommen, was forensische Analysen zusätzlich erschwert.

KI-Medien-Glossar: Die wichtigsten Begriffe rund um KI-Bilder und Deepfakes

Generative KI und Deepfake

Wie KI Bilder erzeugt: Diffusionsmodell und GAN

Was du eingibst und was herauskommt: Prompt, Text-to-Image, Text-to-Video

Gezielte Manipulation: Face-Swap, Inpainting und Outpainting

Grenzen der Technik: Halluzination, Cheapfake und Shallowfake

Herkunft und Kennzeichnung: C2PA, SynthID, Wasserzeichen, Provenienz

Spuren im Material: Bildmetadaten, EXIF, Medienforensik und Upscaling

Das Wichtigste in Kürze

Häufige Fragen

Weitere Ratgeber

KI-Bilder erkennen: Woran du KI-generierte Fotos erkennst

Was ist ein Deepfake? So funktionieren sie und so erkennst du sie

KI-Videos erkennen: Anzeichen für KI-generierte und manipulierte Videos

Selbst prüfen