Adversarial Attack

Verfahren zur Störung von Neuronalen Netzwerken

Unter einer Adversarial Attack (zu deutsch „feindlicher Angriff“) versteht man im Kontext von Künstlicher Intelligenz (KI) bzw. Deep Learning die Verwendung von Adversarial Examples (zu Deutsch „feindliche Beispiele“) zur Manipulation der Klassifikationsergebnisse. Ein Adversarial Example ist ein speziell manipuliertes Eingangs-Signal in ein künstliches Neuronales Netzwerk, welches dieses absichtlich zu Fehlklassifikationen verleitet. Die Manipulation wird so vorgenommen, dass ein menschlicher Beobachter diese nicht bemerkt oder nicht als solche erkennt. Beispielsweise bei einem zur Objekterkennung trainierten neuronalen Netzwerk könnten die Pixel eines Bildes leicht verändert werden, sodass diese Veränderungen für Menschen nicht sichtbar sind, das Netzwerk die Objekte auf dem Bild jedoch falsch zuordnet.

In allen Anwendungsbereichen neuronaler Netzwerke konnte die Anfälligkeit für Adversarial Examples gezeigt werden. Aufgrund der zunehmenden Erfolge tiefer neuronaler Netzwerke und deren Einsatz in sicherheitskritischen Aufgaben, wie im autonomen Fahren zur Erkennung von Verkehrsschildern, rücken Adversarial Attacks und Methoden zur Abwehr oder Erkennung solcher Adversarial Examples zunehmend in den Fokus der KI-Forschung.

Die Störanfälligkeit von Neuronalen Netzen (beispielsweise im Kontext von Adversarial Examples) kann durch die Größe der Lipschitzkonstante plausibilisiert werden[1].

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Shayan Aziznejad, Michael Unser: Deep Spline Networks with Control of Lipschitz Regularity. In: ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, Mai 2019, doi:10.1109/icassp.2019.8682547.