Kontrolliertes Data Sharing via Datengenerierung


Kontrolliertes Data Sharing muss sicherstellen, dass keine ungewollte Information preisgegeben wird. Traditionelle Ansätze zum Schutz der Privatsphäre vor der Weitergabe von Daten bestehen in der Aggregation von Daten, dem Entfernen von Identifikatoren, dem Ändern von Quasi-Identifikatoren und dem Stören von Werten. Diese Methoden sind jedoch anfällig für Angreifer mit Hintergrundwissen, z. B. durch die Verknüpfung von Datensätzen mit anderen Datensätzen. die nicht de-identifiziert wurden. Eine Alternative besteht darin, datenschutzfreundliche synthetische Daten zu generieren, die den realen Quelldaten hinreichend ähnlich sind und zum Trainieren von ML-Modellen mit einem minimalen Leistungseinbruch verwendet werden können. In letzter Zeit gab es vielversprechende Bemühungen in diesem Bereich, die Generative Adversarial Networks (GANs) und deren Weiterentwicklungen zur Erfassung der Verteilung eines Datensatzes verwenden. Trotz der oben genannten Fortschritte bleiben offene Fragen bezüglich des Ausmaßes, in dem GANs anfällig für Angriffe auf Mitgliedschaftsinferenzen sind. Die Literatur unterscheidet vier Angriffsmodelle: i.) Vollständiger Black-Box-Generator, ii.) Partieller Black-Box-Generator, iii.)  White-Box-Generator und iv.) Zugriff auf die gesamte Architektur des GANs. Von den vier Angriffsmodellen wurde der partielle Blackbox-Generator-Angriff in der Literatur selten berücksichtigt. Wir wollen untersuchen, inwieweit man einen Agenten darauf trainieren kann, im latenten Eingaberaum zu navigieren und Eingabesaatwerte zu finden, um Samples zu finden, die sich einem gegebenen Zielsamples annähern.