Datenbewertung für das föderierte Lernen


Die gemeinsame Nutzung von Daten durch föderiertes Lernen ist ein attraktives Modell, da hierbei die Daten gegenüber anderen Formen des Data Sharing nicht preisgegeben werden müssen. Aus diesem Grund wird das Thema Datenbewertung für diese Form des Lernens weiter untersucht. Beim föderierten Lernen ist es besonders im Produktionsumfeld von großem Interesse, einen fairen Wert der bereitgestellten Daten zu ermitteln, um Maschinenbetreiber zur Teilnahme zu motivieren. Grundsätzlich gibt es zur Datenbewertung beim föderierten Lernen zwei verschiedene Ansätze. Beim ersten Ansatz erhalten alle Teilnehmer nach erfolgtem Training dasselbe Modell als Ergebnis und mittels einer Metrik wird ermittelt, wie groß der Beitrag der einzelnen Datensätze dazu war. Zu diesem Zweck wurden bereits verschiedene Metriken vorgeschlagen (z.B. Bewertungsregeln, Peer Prediction, Baysian Truth Serum oder Correlated Agreement). Anschließend schaffen die Teilnehmer entsprechend ihres Beitrages einen monetären Ausgleich. Ein anderer Ansatz ist es eine intrinsische Motivation zu schaffen, nützliche Daten bereitzustellen, indem die Teilnehmer am Ende nicht alle dasselbe Modell erhalten, sondern eines, das ihrem individuellen Beitrag entspricht. Die erstellten Modelle sind in der Regel besser, als wenn jeder Teilnehmer unabhängig ein Modell nur auf seinen Daten trainiert hätte. Auf diese Weise bietet das föderierte Lernen allen Teilnehmern einen Vorteil ohne Gefahr zu laufen, Wettbewerbsvorteile zu verlieren. Wegen des bereits genannten Mangels an öffentlichen Datensätzen existiert bisher keine Untersuchung, welches Verfahren zur Datenbewertung im Produktionsumfeld am besten geeignet ist.