Spätestens seit der Veröffentlichung des europäischen KI-Gesetzesvorschlags solltest du dir Gedanken darüber machen, wie du risikoreiche KI-Systeme, die in der Produktion laufen, überwachen kannst. In diesem Artikel stellen wir dir das Konzept, die Erkennungseinstellungen und (un)überwachte Ansätze zur Überwachung von Machine-Learning-Modellen vor. Wir sprechen auch über bestehende Tools zur Erkennung von Konzeptabweichungen.
Warum solltest du dich für Concept Drift interessieren ?
Gesetzgeber und Wissenschaftler fordern schon seit einiger Zeit mehr Transparenz und Erklärbarkeit von KI. Das Ergebnis: Eine wachsende Zahl von Regulierungsorganen unternimmt Schritte, um Zertifizierungsstandards und Gesetze für sichere KI-Anwendungen aufzustellen. Die Internationale Standardisierungsorganisation (ISO), das Deutsche Institut für Normung (DIN) und vor allem die Europäische Kommission mit ihrem Europäischen KI-Gesetz haben begonnen, neue Regelungen einzuführen. Eine wesentliche Anforderung dieser neuen Vorschriften ist die obligatorische Modellüberwachung für KI-Systeme, die in der Produktion eingesetzt werden.
Wie wirkt sich die Konzeptabweichung auf die Genauigkeit von Prognosemodellen in verschiedenen Branchen aus? Die Konzeptabweichung kann sich erheblich auf Vorhersagemodelle im Finanzwesen auswirken, indem sie die Genauigkeit von Betrugserkennungssystemen verändert, und im Einzelhandel, indem sie die Nachfragevorhersage beeinträchtigt. Die Anpassungsfähigkeit dieser Modelle ist entscheidend für die Aufrechterhaltung der Leistung.
Was ist Concept Drift?
Die Überwachung von Modellen in der Produktion ist unerlässlich, da die Leistung von Machine Learning Modellen mit der Zeit nachlässt, was gemeinhin als Modellverschlechterung bezeichnet wird. Modelle verschlechtern sich in der Regel mit der Zeit in der Produktion aus zwei möglichen Gründen. Erstens könnte es eine Diskrepanz zwischen der Datenverteilung des Trainingsdatensatzes und den realen Daten geben. Zweitens ist die Umgebung, in der das Modell eingesetzt wird, dynamisch, was dazu führen kann, dass sich die Datenverteilung im Laufe der Zeit ändert. Ein gutes Beispiel hierfür sind die Auswirkungen, die COVID-19 auf die Lieferkette und das Verbraucherverhalten hatte. Modelle, die vor der Pandemie trainiert wurden, waren aufgrund der veränderten Verteilung der Eingabedaten nicht mehr geeignet.
Das Konzept des sich ändernden Inputs wird allgemein als Concept Drift bezeichnet und ist der Hauptfaktor, der zur Verschlechterung des Modells beiträgt. Mehrere Einflüsse können zu einer Concept Drift führen, z. B. die Verschlechterung der Messgeräte, saisonale Veränderungen, veränderte Benutzerpräferenzen usw.
Unterschiedliche Arten der Konzeptabweichung
Zum Thema Concept Drift gibt es eine umfangreiche Literatur. Die verwendeten Begriffe sind jedoch sehr unterschiedlich. Um einen Überblick zu geben, haben Bayram et al. die folgenden Arten von Konzeptverschiebungen auf der Grundlage ihres zeitlichen Auftretens herausgearbeitet:
Concept Drift kann an mehreren Stellen auftreten. Sie kann sich auswirken ...
... die zugrunde liegende Datenverteilung.
Dies wird als Kovariatenverschiebung bezeichnet. Dies ist beispielsweise der Fall, wenn sich die Qualität der von einem Messgerät (z. B. einer Kamera oder einem Sensor) erfassten Daten im Laufe der Zeit verschlechtert und sich die Eingangsdaten entsprechend verschieben.
... die Etikettenverteilung.
Dies wird als Verschiebung der Vorwahrscheinlichkeit bezeichnet. Eine Produktionslinie, die ihre Fehlerquote verringert, führt beispielsweise dazu, dass ein Qualitätssicherungsmodell im Laufe der Zeit weniger fehlerhafte Teile sieht.
... die Posterior-Verteilung.
Dies deutet auf eine grundsätzliche Änderung des zugrunde liegenden Zielkonzepts hin. Da Sprache dynamisch ist, können sich zum Beispiel die Stimmung und sogar die Definition von Wörtern und Sätzen im Laufe der Zeit ändern. Dialekte entstehen und verschwinden im Laufe der Jahre aufgrund von Veränderungen in der Umwelt und sozioökonomischen Verschiebungen in der Gesellschaft.
Auswirkungen der Konzeptabweichung
Außerdem können wir zwischen den Auswirkungen verschiedener Arten von Concept Drift auf die Leistung eines Machine Learning Modells unterscheiden. Concept Drift kann ...
... keinen Einfluss auf die Vorhersagekraft eines Machine Learning Modells. Diese Art von Concept Drift wird als virtuelle Concept Drift bezeichnet. Betrachtet man ein Klassifizierungsproblem mit einer Entscheidungsgrenze zwischen zwei Klassen, so ist eine virtuelle Konzeptdrift jede Datensatzverschiebung, bei der keine Probe von einer Seite der Entscheidungsgrenze zur anderen wechselt.
... lokaler Effekt, wenn der Mechanismus der Concept Drift die Leistung des Modells nur in Teilen der Datenverteilung beeinflusst. So könnte sich beispielsweise die Datenverteilung nur einer Klasse aus einem Datensatz ändern. Darüber hinaus könnten einige Stichproben ihre zugrundeliegende Klasse vollständig ändern, was als schwerwiegender Concept Drift bezeichnet wird. Folglich kann sich die Leistung eines Modells für die betroffenen Teile der Daten verschlechtern.
... globaler Effekt, wenn die gesamten Daten, das Etikett oder die posteriore Verteilung auf einmal betroffen sind. Dies könnte zum Beispiel der Fall sein, wenn sich das zugrunde liegende Messgerät verschlechtert, wie im Fall eines Kameraobjektivs, das mit der Zeit verkratzt und beschlägt. In diesem Fall könnte sich die Leistung des ML-Modells für alle Stichproben verringern.
Auftreten von Concept Drift
Man kann also zwischen den zugrundeliegenden Mechanismen der Konzeptabweichung und ihren Auswirkungen auf die Modellleistung unterscheiden. Konzeptabweichungen können aber auch danach klassifiziert werden, wie sie im zeitlichen Bereich auftreten. Concept Drift kann auftreten ...
... plötzlich: Hier tritt die Konzeptabweichung abrupt und anhaltend auf. So kann beispielsweise eine Änderung des Fertigungsmaterials dazu führen, dass die Leistung eines Qualitätssicherungsmodells plötzlich abnimmt.
... wiederkehrend: Das Konzept ändert sich ständig, kehrt aber immer wieder in seinen Ausgangszustand zurück. Zum Beispiel können saisonale Effekte jedes Jahr auftreten und die Datenverteilung beeinflussen.
... allmählich: Das Konzept beginnt, zwischen einem ersten und einem zweiten Zustand zu wechseln, bis es sich vollständig an den zweiten Zustand angepasst hat. Zum Beispiel wird ein Produkt aus dem Verkehr gezogen und ein neues eingeführt.
... schrittweise: Die Konzeptabweichung nimmt kontinuierlich zu, ohne dass es zu plötzlichen Veränderungen kommt. Zum Beispiel, wenn eine Kamera beschlägt.
Wie erkennt man eine Konzeptabweichung?
Nachdem wir nun die Grundlagen geschaffen haben, sollten wir uns überlegen, wie wir die Konzeptabweichung während der Modellüberwachung erkennen können.
Es gibt zahlreiche Arbeiten zur Erkennung von Konzeptabweichungen, und die meisten Detektoren sind sehr ähnlich aufgebaut. Die Forschung in diesem Bereich bietet mehrere Ansätze für Kernbausteine: Sammeln von Daten, Modellierung der Daten, Bestimmung eines geeigneten Scores zum Vergleich von Verteilungen und Durchführung von Signifikanztests. Aus der Literatur geht hervor, dass Drift-Detektoren in der Regel auf bestimmte Anwendungsfälle zugeschnitten sind, wobei der bekannteste Fall tabellarische Datenströme sind. Außerdem sind viele Methoden leistungsabhängig und erfordern die Verwendung von Ground Truth Labels. In den letzten Jahren wurde jedoch auch der unüberwachten Erkennung von Konzeptabweichungen einige Aufmerksamkeit geschenkt.
Konzept Driftdetektor-Setup für die Modellüberwachung
Um die Concept Drift in deinem Modell zu überwachen, benötigst du eine geeignete Einrichtung zur Drifterkennung. Beginnen wir mit dem ersten Teil eines jeden Concept Drift-Detektors: der Datenakkumulation.
1) Datenakkumulation: Während einige Methoden zur Erkennung von Concept Drift im überwachten Bereich mit einzelnen Stichproben arbeiten, verwenden die meisten Methoden einen Fensteransatz, um die relevanten Daten zu akkumulieren. Dazu betrachten wir ein Datenfenster aus einem Datenstrom und vergleichen dessen Darstellung mit der Darstellung eines Referenzfensters.
Das Referenzfenster...
...kann entweder fest oder beweglich sein. Bei einem festen Referenzrahmen vergleichen wir unser aktuelles Fenster mit einer festen Datenverteilung von zuvor erfassten Daten. Der Referenzrahmen kann auch beweglich sein. Zum Beispiel können wir unsere aktuelle Datenverteilung mit der von vor einer Woche vergleichen.
Das Erfassungsfenster...
...kann entweder stapelweise oder online sein. Wenn das Erkennungsfenster stapelweise ist, betrachten wir einen Datenstapel auf einmal und vergleichen seine Verteilung mit der Verteilung unseres Referenzrahmens. Wir können auch ein Online-Erkennungsfenster in Betracht ziehen, bei dem ein Strom von Proben kontinuierlich ausgewertet wird. In diesem Fall können wir das Fenster als eine First-in-First-out-Warteschlange implementieren. Bei jeder neu eintreffenden Probe wird die Verteilung der letzten n Proben mit der Verteilung unseres Referenzrahmens verglichen. Während die Online-Berechnung ein detaillierteres Bild der Concept Drift liefern kann, erfordert der Batch-Ansatz weniger Berechnungen.
2) Datenmodellierung: Sobald Sie Daten gesammelt haben, ist es an der Zeit, diese zu modellieren. In diesem Schritt abstrahiert der Concept Drift-Detektor die abgerufenen Daten und extrahiert die wichtigsten Merkmale, die sich auf das System auswirken, wenn sie abdriften. Dieser Schritt wird oft als optional betrachtet, da er hauptsächlich der Dimensionalitätsreduzierung oder der Reduzierung des Stichprobenumfangs dient, um die Anforderungen an die Speicherung und die Online-Latenzzeit zu erfüllen.
3) Verteilungsvergleich: Nach der Modellierung der Daten wird in der dritten Stufe die Unähnlichkeit bzw. der Abstand zwischen dem Referenzfenster und dem Erkennungsfenster gemessen. Dies wird als der schwierigste Teil der Concept Drift-Erkennung angesehen, da die Definition einer genauen und robusten Messung der Unähnlichkeit immer noch eine offene Frage ist.
4) Signifikanztests: In der letzten Phase Ihres Konzeptes zur Drifterkennung geht es um Hypothesentests. Auf diese Weise können Sie herausfinden, ob die beobachtete Veränderung signifikant ist und ob ein Alarm ausgelöst werden sollte. Diese Phase ist erforderlich, um zu verstehen, ob eine Veränderung der Ergebnisse aus Phase 3 durch eine zufällige Verzerrung der Stichprobe oder durch eine tatsächliche Konzeptabweichung ausgelöst wurde.
Konzept Drift-Detektor-Ansätze
Bestehende Ansätze zur Erkennung von Konzeptabweichungen können in zwei verschiedene Kategorien eingeteilt werden, je nachdem, ob sie sich auf "ground truth labels" stützen. Mit anderen Worten, sie lassen sich in überwachte und nicht überwachte Methoden einteilen. Beide Kategorien von Ansätzen haben potenzielle Nachteile für die Überwachung Ihres Modells. Leistungs- und fehlerbasierte Methoden benötigen Ground-Truth-Labels, um zu funktionieren, und sind daher nicht immer in realen Szenarien anwendbar, da es nicht immer möglich ist, die Ground-Truth-Daten automatisch zu sammeln. Auf der anderen Seite können datenverteilungsbasierte Methoden nicht direkt auf die Leistung eines Modells schließen. Sie können nämlich virtuelle Konzeptabweichungen erkennen.
Überwachte Methoden
Zu den überwachten Methoden zur Überwachung der Konzeptabweichung gehört die größte Klasse der Konzeptabweichungsdetektoren: leistungsbasierte Methoden. Diese Methoden verfolgen in der Regel den prädiktiven sequentiellen Fehler, um Veränderungen zu erkennen. Die Idee hinter diesen Methoden ist, dass der Fehler eine Änderung in der zugrundeliegenden Verteilung widerspiegelt, da die gelernte Beziehung nicht mehr gültig ist, was zu einer Konzeptabweichung führt. Der größte Vorteil dieser Methoden besteht darin, dass sie die Concept Drift nur behandeln, wenn die Leistung des Machine Learning Modells beeinträchtigt wird. Aber bedenken Sie: Sie sind auf eine schnelle Rückmeldung über ihre Leistung angewiesen, die in realen Anwendungsfällen oft nicht verfügbar ist.
Wares et al. liefern eine Kategorisierung der überwachten Methoden. Die Ansätze werden einer der folgenden drei Gruppen zugeordnet: Statistische Methoden, fensterbasierte Methoden und ensemblebasierte Methoden.
Die erste Gruppe von Methoden beschreibt Ansätze, die statistische Tests verwenden, wie z. B. die kumulative Summe und den Page-Hinckley-Test. Zu dieser Gruppe gehören DDM, EDDM und die McDiarmid-Methode zur Drifterkennung.
Diese Techniken unterteilen einen Datenstrom in gleitende Fenster auf der Grundlage der Datengröße oder des Zeitintervalls. Sie überwachen die Leistung der jüngsten Datenpunkte und vergleichen sie mit einer Referenz. In dieser Kategorie ist ADWIN eine weit verbreitete Option.
Die letzte Kategorie umfasst ensemblebasierte Methoden. Diese Methoden trainieren ein Ensemble von Basislernern. Die Gesamtleistung des Modells wird überwacht, indem die Genauigkeit aller Ensemble-Mitglieder einzeln oder im Durchschnitt betrachtet wird. Nicht zu verwechseln mit Ensembles von Drift-Detektoren. Hier ist SEA(Streaming Ensemble Algorithm) eine weit verbreitete Option, die auf dem WMA(Weighted Majority Algorithm) aufbaut.
Unüberwachte Methoden
Die zweite Klasse von Methoden sind die unüberwachten Methoden. Unüberwachte Methoden zur Überwachung der Concept Drift machen nur einen Bruchteil der Arbeit auf diesem Gebiet aus. Während 95 % der Methoden eine Art von Überwachung verwenden, können nur 5 % der Ansätze ohne diese arbeiten. Gemaque et al. bieten einen Überblick und eine Klassifizierung dieser Methoden auf der Grundlage der Art und Weise, wie sie das Windowing durchführen. Ähnlich wie beim obigen Thema der Erkennungsfenster unterteilen sie die Ansätze entweder in Batch- oder Online-Techniken. Im Allgemeinen scheint die Forschung zu unüberwachten Methoden jedoch alle einen ähnlichen Ansatz zu verfolgen: Die zugrundeliegende Datenverteilung wird überwacht, um die Punkte zu identifizieren, an denen die Datenverteilung eine signifikante Änderung erfährt - daher fallen sie in die Kategorie der auf der Datenverteilung basierenden Methoden.
Zwei sehr aktuelle unüberwachte Lernmethoden sind NN-DVI und FAAD. NN-DVI verwendet einen kNN-Ansatz, um die Daten zu modellieren, und dann eine Distanzfunktion, um Dichteunterschiede zu akkumulieren und schließlich einen Signifikanztest durchzuführen. FAAD verwendet eine Methode zur Auswahl von Merkmalen, um mit mehrdimensionalen Sequenzen besser zurechtzukommen, gefolgt von einem Algorithmus zur Erkennung von Anomalien, der ein zufälliges Merkmalssampling verwendet. Die Anomalie-Scores werden dann mit einem benutzerdefinierten Schwellenwert verglichen, um zu bestimmen, wann eine Sequenz eine Anomalie ist.
Neuere Arbeiten befassen sich mit der Herausforderung komplexerer Daten und Modelle. Baier et al. greifen Ideen aus der Literatur zum aktiven Lernen auf und schlagen vor, die Unsicherheit eines neuronalen Netzes zu nutzen, um eine Konzeptabweichung zu erkennen. Die Idee dahinter ist, dass das Modell in dem Maße, in dem das Konzept abdriftet, in seiner Vorhersage unsicherer wird, was zum Beispiel mit Monte-Carlo-Dropout gemessen werden kann. Die jüngste Methode STUDD verwendet einen neuen Ansatz zur unbeaufsichtigten Erkennung von Concept Drift, der auf einem Schüler-Lehrer-Lernparadigma basiert, bei dem der Reproduktionsfehler des Schülernetzwerks als Indikator dafür verwendet wird, wie weit die aktuellen Stichproben von der Verteilung abweichen. Er kann als eine einfachere Version des Ansatzes der uninformierten Schüler aus der Literatur zur Erkennung von Anomalien betrachtet werden.
Vorhandene Tools zur Erkennung von Drift
Beim Umgang mit der Konzeptabweichung in realen Szenarien ist es hilfreich, sich auf vorhandene Werkzeuge zu stützen, die einige der in der Literatur beschriebenen Methoden implementieren. Diese beiden Open-Source-Projekte können sich in dieser Hinsicht als nützlich erweisen:
Evidently
"Evidently hilft bei der Analyse und Verfolgung von Daten und der Qualität von ML-Modellen während des gesamten Modelllebenszyklus. Man kann es als eine Auswertungsschicht betrachten, die in den bestehenden ML-Stack passt."
Offensichtlich hat es einen modularen Ansatz mit 3 Schnittstellen zusätzlich zur gemeinsamen Analysatorfunktionalität:
1. Interaktive visuelle Berichte
2. Profiling von Daten und Modellen für Machine Learning
3. Überwachung von Modellen für Machine Learning in Echtzeit (in Entwicklung)
Beschränkungen: Nur für tabellarische Daten verfügbar
NannyML
"NannyML ist eine Open-Source-Python-Bibliothek, die es Ihnen ermöglicht, die Leistung von Modellen nach der Bereitstellung (ohne Zugriff auf Ziele) zu schätzen, Datendrift zu erkennen und Warnungen vor Datendrift auf intelligente Weise mit Änderungen der Modellleistung zu verknüpfen. NannyML wurde für Data Scientists entwickelt, verfügt über eine benutzerfreundliche Oberfläche und interaktive Visualisierungen, ist völlig modellunabhängig und unterstützt derzeit alle Anwendungsfälle der tabellarischen Klassifikation."
Beschränkungen: tabellarische Klassifizierung
Offene Herausforderungen
Bei der Betrachtung der bestehenden Forschung im Bereich der Concept Drift und der entsprechenden Werkzeuge lassen sich einige offene Fragen und Herausforderungen erkennen:
- Fehlen von Benchmarks für reale Datensätze: Es fehlt an Benchmarks für reale Datenströme, um die in der Literatur vorgeschlagenen Methoden zu validieren und zu vergleichen.
- Kennzeichnungen sind in der Regel nicht verfügbar: Die Mehrzahl der bestehenden Algorithmen zur Drifterkennung geht davon aus, dass nach der Inferenz Kennzeichnungen der Grundwahrheit vorhanden sind. Es wurde jedoch nur sehr wenig Forschung betrieben, um die unbeaufsichtigte oder halb-überwachte Drifterkennung und -anpassung zu verbessern.
- Was ist mit komplexen Modellen und Datenströmen? Es besteht ein großer Mangel an Methoden zur Erkennung von Concept Drift in komplexeren Umgebungen. Neuartige Ansätze wie STUDD und die Erkennung von Concept Drift auf der Grundlage von Unsicherheiten könnten in diesen Umgebungen eingesetzt werden, doch ist weitere Forschung erforderlich.
Zusammenfassung: Es gibt einen erheblichen Mangel an Methoden zur Erkennung von Concept Drift in komplexen Datenströmen wie Bildern. Darüber hinaus befasst sich nur ein Bruchteil der Literatur mit dem Problem der Erkennung von Konzeptabweichungen ohne vorhandene Ground-Truth-Labels. Bestehende Werkzeuge konzentrieren sich auf einfache tabellarische Datenströme und hauptsächlich auf Klassifizierungsaufgaben. Die Realität ist, dass man in vielen realen Anwendungsfällen keinen Zugang zu Ground-Truth-Labels hat und mit komplexen Daten zu tun hat, z. B. in der visuellen Qualitätssicherung. In diesen Szenarien gibt es nur begrenzte Möglichkeiten zur Überwachung der Concept Drift, was dazu führt, dass Modelle nach einer gewissen Zeit einfach neu trainiert und eingesetzt werden.
Dies führt uns zu der Frage: Gibt es andere, allgemeinere Optionen für Modelle ohne Aufsicht? Mit dieser Frage werden wir uns in unserem nächsten Artikel befassen. Bleiben Sie dran für den zweiten Teil dieses Concept Drifts, in dem wir die Erkennung von Anomalien diskutieren!