L3S INNOVATION CENTER – Leibniz Universität Hannover

Autonome Systeme

KI-gestützte Entscheidungshilfen

Die Erfahrung von Experten ist oft schwer formal zu beschreiben und in ein Computer-gesteuertes System zu übertragen. Wir erforschen Methoden des Maschinellen Lernens um die Entscheidungsprozesse von Experten aus historischen Daten abzuleiten und für KI-gestützten Entscheidungshilfen zu nutzen. Dadurch bleibt die Erfahrung von Experten erhalten und es wird sichergestellt dass die Entscheidungshilfen auf bewährtem Verhalten beruhen.

→ Ansprechperson
Daniel Kudenko

Cybersecurity

Prävention vor und Reaktion auf Cyberangriffe

Viele Unternehmen, vor allem kleine und mittlere Unternehmen, werden Opfer von Cyberangriffen unterschiedlicher Art und unterschiedlicher Schwere. Der entsprechende Schutz vor Angriffen ist für viele Unternehmen essentiell, um etwa geistiges Eigentum, andere sensible Informationen oder Produktionsanlagen zu schützen. Häufig fehlt in Unternehmen allerdings die Expertise, um sich entsprechend vorher zu schützen oder angemessen auf Angriffe zu reagieren. Basierend auf vorherigen Forschungsarbeiten besitzen wir tiefe Einblicke in Risikofaktoren und können passgenaue Maßnahmenkataloge entwickeln.

→ Ansprechperson
Sascha Fahl

Outlier- und Anomalie-Erkennung in Betrugsszenarien

Bei Online-Betrug nutzen Betrüger Lücken aus, die es ihnen ermöglichen, sich ungerechtfertigt zu bereichern. Unternehmen geben daher oft Millionen Euro aus, um sich vor betrügerischen Aktivitäten zu schützen. Betrugspräventionsfirmen bieten hierfür zwar diverse Produkte an, jedoch wurde deren Effektivität und Effizienz bisher nicht wissenschaftlich überprüft. Wir bieten Ihnen unser Know-How über Top-Edge-Technologien und unsere Expertise auf dem Gebiet, um Ihre Domäne zu untersuchen und eine geeignete Präventionsmethode vorzuschlagen.

→ Ansprechperson
Marco Fisichella

Daten- und Sensorauswertung

Nutzung von ML-Programm für Datenprognose

Die zunehmende Digitalisierung der Wirtschaft, Verwaltung und Wissenschaft führt zu ständig wachsenden Datenmengen. Um datenbasierte Prognosen zu erstellen und Zusammenhänge in großen heterogenen Datenmengen zu erkennen, eignen sich verschiedene Methoden des Maschinellen Lernens (ML). Wir bieten Ihnen die Nutzung unseres Programms Simple-ML an, mit dessen Hilfe Sie ohne Expertise in Machine-Learning Prognosen auf Ihren Unternehmensdaten durchführen können. Darüber hinaus enthält das Programm einen Datenkatalog, anhand dessen ML-Interessierte (bspw. Schüler oder Studenten) ML-Workflows erstellen und austesten können.

→ Ansprechperson
Simon Gottschalk

Nutzung und Extraktion mehrsprachiger Event-Informationen

Ereignisse wie die Corona-Pandemie oder Fußballweltmeisterschaften haben über Länder- und Sprachgrenzen hinaus einen Einfluss auf die Gesellschaft. Die Nutzung mehrsprachiger Informationen über solche Ereignisse kann helfen, globale Zusammenhänge zu verstehen und ermöglicht eingehende Analysen über einzelne Ereignisse und deren Wahrnehmung in der Gesellschaft. Wir bieten einen Datensatz, der Wissen über gesellschaftliche Ereignisse enthält und können mit Ihnen Lösungen diskutieren, wie dieses Wissen genutzt werden kann – beispielsweise als Hintergrund für nutzerorientierte Anwendungen, die der Exploration gesellschaftlich relevanter Ereignisse, ihrer Akteure und Schauplätze dienen.

→ Ansprechperson
Simon Gottschalk

Adaptive Wartung von Produktionsanlagen

Die gemeinsame Auswertung der Sensoren einer typischen Werkzeugmaschine oder Produktionsanlage erlauben, den Ausfall von Anlagenkomponenten zuverlässig vorherzusagen. Wor haben gezeigt, dass eine verschleißgetriebene Wartung zu einer deutlichen Erhöhung der Standzeiten vor allem bei komplexen Anlagen führt.

→ Ansprechperson
Jörn Ostermann

Pipeline für medizinische Wissensgraphen

Wir erarbeiten für Sie eine Plattform für die Integration von klinischen Daten, wissenschaftlichen Publikationen und Datenbanken in einen Wissensgraph, welcher Methoden zur Wissensextraktion, semantischen Datenintegration sowie zur Analyse und Vorhersage umfasst. Der Ansatz implementiert ein Datenintegrationssystem, das aus einem vereinheitlichten Schema und Datenquellen sowie Mappings zwischen diesen besteht. Zur Spezifikation der Mappings (z.B. RDF Mapping Language-RML), der Integritätsbeschränkungen (z.B. SHACL) und der Abfragen über den Wissensgraphen (z.B. SPARQL) werden W3C-Standards verwendet.

→ Ansprechperson
Maria-Esther Vidal

Datenanalyse

Clustering-Analyse

Das boomende Wachstum des World Wide Web hat immer mehr Informationen in einem nie gesehenen Tempo und Umfang digital verfügbar gemacht. Auch das Web selbst kann als beispiellos angesehen werden, was das fast vollständige Fehlen von Koordination bei seiner Erstellung und die Vielfalt der Hintergründe und Motive seiner Teilnehmer betrifft. All dies trägt dazu bei, die explorative Datenanalyse zu erschweren.

→ Ansprechperson
Marco Fisichella

Visual Analytics / Informationsvisualisierung

Beratung und Software-Entwicklung zu Systemen zur visuellen Exploration von großen (multimodalen) Datenmengen an, um in diesen neue Informationen und Zusammenhänge sichtbar zu machen

→ Ansprechperson
Ralph Ewerth

Pipeline für medizinische Wissensgraphen

Wir erarbeiten für Sie eine Plattform für die Integration von klinischen Daten, wissenschaftlichen Publikationen und Datenbanken in einen Wissensgraph, welcher Methoden zur Wissensextraktion, semantischen Datenintegration sowie zur Analyse und Vorhersage umfasst. Der Ansatz implementiert ein Datenintegrationssystem, das aus einem vereinheitlichten Schema und Datenquellen sowie Mappings zwischen diesen besteht. Zur Spezifikation der Mappings (z.B. RDF Mapping Language-RML), der Integritätsbeschränkungen (z.B. SHACL) und der Abfragen über den Wissensgraphen (z.B. SPARQL) werden W3C-Standards verwendet.

→ Ansprechperson
Maria-Esther Vidal

Nutzung von ML-Programm für Datenprognose

Die zunehmende Digitalisierung der Wirtschaft, Verwaltung und Wissenschaft führt zu ständig wachsenden Datenmengen. Um datenbasierte Prognosen zu erstellen und Zusammenhänge in großen heterogenen Datenmengen zu erkennen, eignen sich verschiedene Methoden des Maschinellen Lernens (ML). Wir bieten Ihnen die Nutzung unseres Programms Simple-ML an, mit dessen Hilfe Sie ohne Expertise in Machine-Learning Prognosen auf Ihren Unternehmensdaten durchführen können. Darüber hinaus enthält das Programm einen Datenkatalog, anhand dessen ML-Interessierte (bspw. Schüler oder Studenten) ML-Workflows erstellen und austesten können.

→ Ansprechperson
Simon Gottschalk

Data Analytics für Data Streams mit Concept Drift

Daten sind in vielen Fällen nicht als ein kompletter Datensatz verfügbar. Stattdessen werden sie im einem Datenstream gesammelt, bei dem sich die Datenquellen verändern können (ein sogenannter Concept Drift). Ein Beispiel sind Daten über das Einkaufsverhalten von Kunden. Zu solchen Datensätzen kommen täglich oder stündlich neue Daten hinzu, die in die Datenanalyse einfliessen sollen. Zudem kann sich das Kundenverhalten aufgrund externer Einflüsse verändern (z.B. neue Moden oder demografische Veränderungen beim Erschliessen neuer Märkte). In solchen Fällen ist es nicht optimal, die gesamten gesammelten Daten zur Analyse zur verwenden, und neuere Daten sollten eventuell stärker gewichtet werden, je nach dem wie stark sich die Daten verändern. Wir erforschen Algorithmen, die den Concept Drift automatisch erkennen und die Auswahl der Daten zum Berechnen von neuen aktuellen Analysemodellen optimieren. Desweiteren können unsere Lernalgorithmen mit stark unbalancierten Daten umgehen, z.B. wenn die Anzahl von erfolgreichen Verkäufen sehr start von der Anzahl potentieller Kunden unterscheidet.

→ Ansprechperson
Daniel Kudenko

Informationssuche und Textanalyse

Die meisten Unternehmen verfügen über große Menge von textbasierten Daten, in Form von Memos, Berichten, Kommunikation mit Kunden ebenso wie im Firmen-Intranet. Um diese Informationen sinnvoll nutzen zu können, ist der Einsatz von Suchmaschinentechnologie, Informationsextraktion und Text Mining Methoden notwendig. Auch die Analyse von produktbezogenen Diskussionen auf Social Media Plattformen ist hilfreich, um die Rezeption von Produkten und Services auszuwerten. Basierend auf einer Reihe eigener Forschungs- und Industrieprojekte können wir passgenaue Lösungsansätze vorschlagen, entwickeln und implementieren.

→ Ansprechperson
Wolfgang Nejdl

Datenaustausch

Kontrolliertes Data Sharing via Datengenerierung

Kontrolliertes Data Sharing muss sicherstellen, dass keine ungewollte Information preisgegeben wird. Traditionelle Ansätze zum Schutz der Privatsphäre vor der Weitergabe von Daten bestehen in der Aggregation von Daten, dem Entfernen von Identifikatoren, dem Ändern von Quasi-Identifikatoren und dem Stören von Werten. Diese Methoden sind jedoch anfällig für Angreifer mit Hintergrundwissen, z. B. durch die Verknüpfung von Datensätzen mit anderen wo Datensätze nicht de-identifiziert wurden. Eine Alternative besteht darin, datenschutzfreundliche synthetische Daten zu generieren, die den realen Quelldaten hinreichend ähnlich sind und zum Trainieren von ML-Modellen mit einem minimalen Leistungseinbruch verwendet werden können. In letzter Zeit gab es vielversprechende Bemühungen in diesem Bereich, die Generative Adversarial Networks (GANs) und deren Weiterentwicklungen zur Erfassung der Verteilung eines Datensatzes verwenden. Trotz der oben genannten Fortschritte bleiben Fragen bezüglich des Ausmaßes, in dem GANs anfällig für Angriffe auf Mitgliedschaftsinferenzen sind. Die Literatur unterschedidet vier Angriffsmodelle, einschließlich i.) Vollständiger Black-Box-Generator, ii.) Partieller Black-Box-Generator, iii.) White-Box-Generator und iv.) Zugriff auf die gesamte Architektur des GANs. Von den vier Angriffsmodellen wurde der partielle Blackbox-Generator-Angriff in der Literatur selten berücksichtigt. Wir wollen untersuchen, inwieweit man einen Agenten darauf trainieren kann, im latenten Eingaberaum zu navigieren und Eingabesaatwerte zu finden, um Samples zu finden, die sich einem gegebenen Zielsamples annähern.

→ Ansprechperson
Gregory Palmer

Wissensbasierte Datenvernetzung auf dem Industrie 4.0 Shop-Floor

Der Datenaustausch zwischen cyber-physischen Systemen in Produktionsanlagen erfordert ein gemeinsames Verständnis der ausgetauschten Daten. Mithilfe von Ontologien und angelehnt an die ZVEI/Industrie 4.0 Konzepte RAMI4.0 und Verwaltungsschale können wir mit Ihnen im Rahmen eines Projektes ein wissensbasiertes Datenaustauschszenario zwischen Maschinen, Sensoren, Förderanlagen und Aktoren realisieren.

→ Ansprechperson
Sören Auer

Datenbewertung für das föderierte Lernen

Die gemeinsame Nutzung von Daten durch föderiertes Lernen ist ein attraktives Modell, da hierbei die Daten gegenüber von anderen Formen des Data Sharing nicht preisgegeben werden müssen. Aus diesem Grund wird das Thema Datenbewertung für diese Form des Lernens weiter untersucht. Beim föderierten Lernen ist es besonders im Produktionsumfeld von großem Interesse einen fairen Wert der bereitgestellten Daten zu ermitteln, um Maschinenbetreiber zur Teilnahme zu motivieren. Grundsätzlich gibt es zur Datenbewertung beim föderierten Lernen zwei verschiedene Ansätze. Beim ersten Ansatz erhalten alle Teilnehmer nach erfolgtem Training, dasselbe Modell als Ergebnis und mittels einer Metrik wird ermittelt wie groß der Beitrag der einzelnen Datensätze dazu war. Zu diesem Zweck wurden bereits verschiedene Metriken vorgeschlagen (z.B. Bewertungsregeln, Peer Prediction, Baysian Truth Serum oder Correlated Agreement). Anschließend schaffen die Teilnehmer entsprechend ihres Beitrages einen monetären Ausgleich. Ein anderer Ansatz ist es eine intrinsische Motivation zu schaffen, nützliche Daten bereitzustellen, indem die Teilnehmer am Ende nicht alle dasselbe Modell erhalten, sondern eines das ihrem individuellen Beitrag entspricht. Die erstellten Modelle sind in der Regel besser als, wenn jeder Teilnehmer unabhängig ein Modell nur auf seinen Daten trainiert hätten. Auf diese Weise, bietet das Föderierte-Lernen allen Teilnehmern einen Vorteil ohne Gefahr zu laufen Wettbewerbsvorteile zu verlieren. Wegen des bereits genannten Mangels an öffentlichen Datensätzen existiert bisher keine Untersuchung welches Verfahren zur Datenbewertung im Produktionsumfeld am besten geeignet ist.

→ Ansprechperson
Gregory Palmer

Datenerfassung

Semantische / multimodale Analyse von Mediendaten

Beratung und Software-Entwicklung zu Methoden zur automatischen Annotation und Erschließung von großen (multimodalen) Text/Bild-/Videoarchiven auf dem aktuellen Stand der Forschung.

→ Ansprechperson
Ralph Ewerth

Erstellung von Informationsmodellen mit dem Terminology Service

Der Terminology Service ist eine webbasierte kollaborative Plattform, mit der in Datenmengen nach relevanten Terminologien, bestimmten Begriffen und Eigenschaften gesucht werden kann. Sie basiert auf Standards wie Git, W3C RDF/OWL, SPARQL und wird bereits erfolgreich industriell im Rahmen der Nationalen Forschungsdateninfrastruktur, International Data Space Initiative, GAIA-X und ihren Mitgliedern eingesetzt. Wir beraten Sie gern zum Einsatz der Plattform für die Datenerfassung, besonders bei datenintensiven Anwendungen, in Ihrem Unternehmen.

→ Ansprechperson
Sören Auer

Datenspeicherung

Effiziente Speicherung von Sequenzierungsdaten

Moderne Diagnostik zieht immer häufiger auch das Genom des Patienten zu Rate. Die bei einer typischen Sequenzierung anfallenden Datenmengen von 1TB/Person müssen effizient übertragen, gespeichert und verarbeitet werden. Mit Hilfe der entwickelten und teilweise durch MPEG-G standardisierten Methoden läßt sich die Datenmenge ohne Einfluss auf die Diagnose um 90% reduzieren. Manuelle und automatische Anotationen werden effizient mit dem Genom verbunden und auch visualisiert.

→ Ansprechperson
Jörn Ostermann

Datenvernetzung und -integration

Semantische Datenvernetzung für Big Data Analytics

Über Workshops, Beratung und Auftragsentwicklung entwickeln wir mit Ihnen ein Informationsmodell für die semantische Datenvernetzung in konkreten Anwendungsszenarien für Big Data Analytics. Dieses semantische Informationsmodell kann als Basis für die unternehmensweite Vernetzung von Daten aus den verschiedensten Bereichen sowie von existierenden Datenmodellen (z.B. Stammdatenmanagement) dienen. Mögliche Anwendungsfelder sind GDPR, Industrie 4.0, Big Data Analytics oder Supply Chain Data Integration.

→ Ansprechperson
Sören Auer

Hardware

System Hardware Architektur Analyse, GPU-Gestützte Server Systeme

Wir beraten Sie und Ihr KMU zum Thema Hardware Plattformen für Machine Learning-Anwendungen, um Ihnen eine Übersicht über die möglichen besten und kostengünstigsten Lösungen für Ihr Unternehmen zur verschaffen. Dank unserer langjährigen, vielfältigen Erfahrung im Bereich Server und GPU-gestütze Server Plattformen können Sie mit unserer Hilfe sicherstellen, dass Ihre Hardwarebasis der Größe Ihres Unternehmens entspricht und die gewünschten Ziele kosteneffizient und schnell erreicht werden.

→ Ansprechperson
Dimitar Mitev