Samstag , Oktober 10 2020

Von der Modellierung zur Bewertung: Korrigieren vorhergesagter Klassenwahrscheinlichkeiten in unausgeglichenen Datensätzen

Klicken Sie hier, um mehr über Co-Autor Maarit Widmann zu erfahren.

Klicken Sie hier, um mehr über Co-Autor Alfredo Roccato zu erfahren.

Dies ist der zweite Teil einer From Modeling to Scoring Series , siehe Teil Eins hier.

Rad wie ein
Hamster im Data Science-Zyklus? Sie wissen nicht, wann Sie mit dem Training Ihres Modells aufhören sollen?

Die Modellbewertung ist ein wichtiger Teil eines Data Science-Projekts. Genau dieser Teil gibt an, wie gut Ihr Modell ist, wie stark es sich gegenüber der vorherigen Version verbessert hat und wie Es ist viel besser als das Modell Ihres Kollegen und wie viel Verbesserungspotenzial es noch gibt.

In dieser Reihe von Blog-Posts werden verschiedene Bewertungsmetriken überprüft: für Klassifizierung, numerische Vorhersage, unausgeglichene Datensätze und ähnliche, mehr oder mehr weniger herausfordernde Probleme bei der Modellbewertung.

Heute: Klassifizierung in unausgeglichenen Datensätzen

In Anwendungen für maschinelles Lernen ist es nicht ungewöhnlich, mit unausgeglichenen Datensätzen wie Betrugserkennung, Eindringen in Computernetzwerke, medizinische Diagnostik und vielem mehr umzugehen.

Datenungleichgewicht bezieht sich auf ungleiche Verteilung der Klassen
innerhalb eines Datensatzes, nämlich dass es in einer Klasse in weit weniger Ereignisse gibt
Vergleich mit den anderen. Wenn wir zum Beispiel einen Kreditkartenbetrug haben
Erkennungsdatensatz, die meisten Transaktionen sind nicht betrügerisch und nur sehr wenige
kann als Betrugserkennung eingestuft werden. Diese unterrepräsentierte Klasse heißt
Minderheitsklasse und gemäß Konvention die positive Klasse.

Es wird anerkannt, dass Klassifikatoren in jeder Klasse gut funktionieren
ist in den Trainingsdaten fair vertreten.

Wenn daher die Daten unausgewogen sind, ist die Leistung von
Die meisten Standard-Lernalgorithmen werden beeinträchtigt, weil ihr Zweck darin besteht
um die Gesamtgenauigkeit zu maximieren. Für einen Datensatz mit 99 Prozent negativen Ereignissen
und 1 Prozent positive Ereignisse, ein Modell könnte zu 99 Prozent genau sein und vorhersagen
Alle Fälle als negativ, jedoch nutzlos. Setzen Sie in Bezug auf unsere Gutschrift
Dies würde bedeuten, dass das Modell dazu neigen würde
betrügerische Transaktionen als legitime Transaktionen klassifizieren. Nicht gut!

Infolgedessen reicht die Gesamtgenauigkeit nicht aus, um die Leistung von Modellen zu bewerten, die auf unausgeglichenen Daten trainiert wurden. Andere Statistiken wie Cohens Kappa und F-Maß sollten berücksichtigt werden. Das F-Maß erfasst sowohl die Präzision als auch den Rückruf, während Cohens Kappa die A-priori-Verteilung der Zielklassen berücksichtigt.

Der ideale Klassifikator sollte eine hohe Genauigkeit gegenüber dem liefern
Minderheitsklasse, ohne Kompromisse bei der Genauigkeit der Mehrheitsklasse einzugehen.

Resampling in Balance-Datensätze

Um das Problem des Klassenungleichgewichts zu umgehen, werden die Zeilen in
Die Trainingsdaten werden erneut abgetastet. Das Grundkonzept hier ist, das zu ändern
Anteile der Klassen (a priori Verteilung) der Trainingsdaten in
um einen Klassifikator zu erhalten, der die Minderheitsklasse effektiv vorhersagen kann
(die tatsächlichen betrügerischen Transaktionen).

Resampling-Techniken

  • Unterabtastung: Eine zufällige Stichprobe von Ereignissen aus der Mehrheitsklasse wird gezogen und aus den Trainingsdaten entfernt. Ein Nachteil dieser Technik besteht darin, dass sie Informationen verliert und möglicherweise nützliche und wichtige Daten für den Lernprozess verwirft.
  • Überabtastung: Genaue Kopien von Ereignissen, die die Minderheitsklasse darstellen, werden im Trainingsdatensatz repliziert. Mehrere Instanzen bestimmter Zeilen können den Klassifizierer jedoch zu spezifisch machen, was zu Überanpassungsproblemen führt.
  • SMOTE (Synthetic Minority Oversampling Technique): "Synthetic" -Zeilen werden generiert und der Minority-Klasse hinzugefügt. Die künstlichen Datensätze werden basierend auf der Ähnlichkeit der Ereignisse der Minderheitenklassen im Feature-Space generiert.

Korrigieren vorhergesagter Klassenwahrscheinlichkeiten

Nehmen wir an, wir trainieren ein Modell auf einem neu abgetasteten Datensatz.
Das Resampling hat die Klassenverteilung der Daten von unausgeglichen geändert
zu ausgeglichen. Wenden wir nun das Modell auf die Testdaten an und erhalten eine Vorhersage
Klassenwahrscheinlichkeiten spiegeln nicht die der Originaldaten wider. Das ist
weil das Modell auf Trainingsdaten trainiert wird, die nicht repräsentativ für das sind
Originaldaten und damit die Ergebnisse nicht auf das Original oder andere verallgemeinern
unsichtbare Daten. Dies bedeutet, dass wir das Modell für die Vorhersage verwenden können, aber die Klasse
Wahrscheinlichkeiten sind nicht realistisch: Wir können sagen, ob eine Transaktion mehr ist
wahrscheinlich betrügerisch oder legitim, aber wir können nicht sagen, wie wahrscheinlich es gehört
eine dieser Klassen. Manchmal möchten wir die Klassifizierungsschwelle ändern, weil
Wir wollen mehr / weniger Risiken eingehen und dann das Modell mit der korrigierten Klasse
Wahrscheinlichkeiten, die nicht korrigiert wurden, würden nicht mehr funktionieren.

Nach dem Resampling haben wir nun ein Modell auf Balanced trainiert
Daten, d. h. Daten, die eine gleiche Anzahl betrügerischer und legitimer Transaktionen enthalten,
Dies ist zum Glück kein realistisches Szenario für einen Kreditkartenanbieter.
daher – ohne die vorhergesagten Klassenwahrscheinlichkeiten zu korrigieren – wäre dies nicht der Fall
Informativ über das Risiko der Transaktionen in den nächsten Wochen und Monaten.

Wenn das endgültige Ziel der Analyse nicht nur die Klassifizierung ist
basierend auf der höchsten vorhergesagten Klassenwahrscheinlichkeit, aber auch um die richtige zu erhalten
Klassenwahrscheinlichkeiten für jedes Ereignis müssen wir eine Transformation auf die anwenden
erzielte Ergebnisse. Wenn wir die Transformation nicht auf unser Modell, das Lebensmittelgeschäft, anwenden
Das Einkaufen mit einer Kreditkarte in einem Supermarkt kann zu viel Geld bringen
Interesse!

Die folgende Formel zeigt, wie die vorhergesagten Klassenwahrscheinlichkeiten für einen binären Klassifikator korrigiert werden [1] :

Wenn beispielsweise der Anteil der positiven Klasse im Originaldatensatz 1 Prozent beträgt und nach dem erneuten Abtasten 50 beträgt Prozent, und die vorhergesagte positive Klassenwahrscheinlichkeit beträgt 0,95, wobei die folgende Korrektur angewendet wird:

Beispiel: Betrugserkennung

Wenn wir ein Klassifizierungsmodell anwenden, um betrügerische zu erkennen
Bei Transaktionen muss das Modell zuverlässig mit unausgeglichenen Daten arbeiten. Obwohl nur wenige
Betrügerische Transaktionen können bemerkenswerte Folgen haben. Deshalb,
Es lohnt sich zu prüfen, um wie viel wir die Leistung des Modells verbessern können
seine Verwendbarkeit in der Praxis durch erneutes Abtasten der Daten und Korrigieren der vorhergesagten
Klassenwahrscheinlichkeiten.

Bewertung der Kosten eines Klassifizierungsmodells

In der realen Welt ist die Leistung eines Klassifizierers
in der Regel anhand der Kosten-Nutzen-Analyse bewertet: Korrekte Klassenvorhersagen
Gewinn bringen, während falsche Klassenvorhersagen Kosten bringen. In diesem Fall,
betrügerische Transaktionen, die als legitim vorausgesagt werden, kosten die Höhe des Betrugs und
Transaktionen, die als betrügerisch vorhergesagt werden – richtig oder falsch – bringen
administrative Kosten.

Verwaltungskosten ( Adm ) sind die erwarteten Kosten von
Kontaktaufnahme mit dem Karteninhaber und Ersetzen der Karte, wenn die Transaktion durchgeführt wurde
korrekt als betrügerisch vorhergesagt oder reaktiviert, wenn die Transaktion war
legitim. Hier nehmen wir der Einfachheit halber an, dass die Verwaltungskosten für
Beide Fälle sind identisch.

Die folgende Kostenmatrix fasst die Kosten zusammen, die den verschiedenen Klassifizierungsergebnissen zugeordnet sind. Die Minderheitsklasse "betrügerisch" wird als positive Klasse und "legitim" als negative Klasse definiert.

Tabelle 1: Die Kostenmatrix, die die Kosten zeigt, die verschiedenen Klassifizierungsergebnissen zugeordnet sind, wie sie von einem Modell für erhalten wurden Entdeckung eines Betruges. Richtig klassifizierte legitime Transaktionen verursachen keine Kosten. Als legitim vorhergesagte betrügerische Transaktionen kosten die Höhe des Betrugs. Als betrügerisch vorhergesagte Transaktionen verursachen Verwaltungskosten.

Basierend auf dieser Kostenmatrix betragen die Gesamtkosten des Modells:

Schließlich werden die Kosten des Modells mit der Betrugsmenge verglichen. Die Kostenreduzierung gibt an, wie viel Kosten das Klassifizierungsmodell im Vergleich zu der Situation verursacht, in der wir kein Modell verwenden:

Der Workflow

In diesem Beispiel verwenden wir den von Worldline und dem bereitgestellten Datensatz "Erkennung von Kreditkartenbetrug" Maschinelles Lernen der ULB (Université Libre de Bruxelles) zum Thema Big Data Mining und Betrugserkennung. Der Datensatz enthält 284.807 Transaktionen, die von europäischen Kreditkarteninhabern an zwei Tagen im September 2013 getätigt wurden. Der Datensatz ist stark unausgewogen: 0,172 Prozent (492 Transaktionen) waren betrügerisch und der Rest war normal. Andere Informationen zu den Transaktionen wurden in Hauptkomponenten umgewandelt.

Der Workflow in Abbildung 1 zeigt den Gesamtprozess von
Lesen der Daten, Aufteilen der Daten in einen Trainings- und Testsatz,
Resampling der Daten, Training eines Klassifizierungsmodells, Vorhersagen und Korrigieren
die Klassenwahrscheinlichkeiten und Bewertung der Kostenreduzierung. Wir haben SMOTE ausgewählt
als Resampling-Technik und logistische Regression als Klassifikation
Modell. Hier schätzen wir die Verwaltungskosten auf 5 Euro.

Der Workflow bietet drei verschiedene Szenarien für dasselbe
Daten:

1. Schulung und Anwendung des Modells
unter Verwendung unausgeglichener Daten

2. Training des Modells auf ausgewogenen Daten
und Anwenden des Modells auf unausgeglichene Daten, ohne die vorhergesagten zu korrigieren
Klassenwahrscheinlichkeiten

3. Trainieren des Modells auf ausgeglichenen Daten und Anwenden des Modells auf unausgeglichene Daten, bei denen die vorhergesagten Klassenwahrscheinlichkeiten korrigiert wurden

Abbildung 1: Workflow, der drei Arten des Trainings vergleicht und ein Klassifizierungsmodell unter Verwendung unausgeglichener Daten anwendet. Erstens wird das Modelltraining mit unausgeglichenen Daten durchgeführt. Zweitens wird der Trainingssatz mit SMOTE neu abgetastet, um ihn ausgeglichen zu machen. Drittens wird der Trainingssatz unter Verwendung von SMOTE erneut abgetastet, und vorhergesagte Klassenwahrscheinlichkeiten werden basierend auf der A-priori-Klassenverteilung der Daten korrigiert. Der Workflow steht auf dem Hub zum Download zur Verfügung.

Schätzung der Kosten für Szenario 1 ohne erneutes Abtasten

Ein logistisches Regressionsmodell liefert die folgenden Ergebnisse:

Tabelle 2: Verwirrungsmatrix, Klassenstatistik und geschätzte Kostenreduzierung durch Betrugserkennung Modell, das auf unausgeglichenen Daten trainiert wurde. Die Kostenreduzierung wird anhand der Formel im Abschnitt „Bewertung der Kosten eines Klassifizierungsmodells“ bewertet.

Das Setup in diesem Szenario bietet gute Werte für
F-Maß und Cohens Kappa-Statistik, aber ein relativ hohes Falsch-Negativ
Rate (40,82 Prozent). Dies bedeutet, dass mehr als 40 Prozent der Betrüger
Transaktionen wurden vom Modell nicht erkannt – was die Betrugsmenge erhöht
und daher die Kosten des Modells. Die Kostenreduzierung des Modells verglichen
Die Verwendung eines Modells beträgt 42 Prozent.

Schätzung der Kosten für Szenario 2 mit Resampling

Ein logistisches Regressionsmodell, das auf einem ausgeglichenen Trainingssatz trainiert wurde (mit SMOTE überabgetastet), liefert folgende Ergebnisse: [19659049] Tabelle 3: Die Verwirrungsmatrix, Klassenstatistiken und geschätzten Kosten, die durch ein Betrugserkennungsmodell erhalten wurden, das auf überabgetasteten, ausgeglichenen Daten trainiert wurde. Die Kosten werden anhand der Formel im Abschnitt „Bewertung der Kosten eines Klassifizierungsmodells“ bewertet.

Die False Negative Rate ist sehr niedrig (12,24 Prozent)
bedeutet, dass fast 90 Prozent der betrügerischen Transaktionen von entdeckt wurden
das Model. Es gibt jedoch viele " Fehlalarme " (391 legitim
als Betrug prognostizierte Transaktionen), die die Verwaltungskosten erhöhen. Jedoch,
Die Kostenreduzierung, die durch das Training des Modells an einem ausgewogenen Datensatz erzielt wird, beträgt 64
Prozent – höher als das, was wir erreichen könnten, ohne die Trainingsdaten erneut abzutasten.
Für beide Szenarien wurde der gleiche Testsatz verwendet.

Schätzung der Kosten für Szenario 3 mit Resampling und Korrektur
die vorhergesagten Klassenwahrscheinlichkeiten

Ein logistisches Regressionsmodell, das auf einem ausgeglichenen Trainingssatz trainiert wurde (mit SMOTE überabgetastet), liefert diese Ergebnisse, wenn die vorhergesagten Wahrscheinlichkeiten gemäß der a priori-Klassenverteilung der Daten korrigiert wurden:

Tabelle 4: Die Verwirrungsmatrix, die Klassenstatistik und die geschätzten Kosten, die durch ein Betrugserkennungsmodell erhalten wurden, das auf überabgetasteten, ausgeglichenen Daten trainiert wurde und bei dem die vorhergesagten Klassenwahrscheinlichkeiten gemäß der Klassenverteilung von vornherein korrigiert wurden. Die Kosten werden anhand der Formel im Abschnitt „Bewertung der Kosten eines Klassifizierungsmodells“ bewertet.

Wie die Ergebnisse für dieses Szenario in Tabelle 4 zeigen, wird korrigiert
Die vorhergesagten Klassenwahrscheinlichkeiten führen zum besten Modell dieser drei
Szenarien im Hinblick auf die größte Kostenreduzierung.

In diesem Szenario trainieren wir ein Klassifizierungsmodell für Oversampling
Daten und korrigieren Sie die vorhergesagten Klassenwahrscheinlichkeiten gemäß a priori
Klassenverteilung in den Daten erreichen wir eine Kostenreduzierung von 75 Prozent
im Vergleich zu keinem Modell zu verwenden.

Natürlich hängt die Kostenreduzierung vom Wert des ab
administrative Kosten. In der Tat haben wir dies versucht, indem wir die Schätzung geändert haben
Verwaltungskosten und fand heraus, dass dieses letzte Szenario Kosten erreichen kann
Reduzierung, solange die Verwaltungskosten 0,80 Euro oder mehr betragen.

Zusammenfassung

Wenn wir ein Klassifizierungsmodell trainieren und anwenden, wird häufig die
interessante Ereignisse in den Daten gehören zur Minderheitsklasse und sind daher
schwieriger zu finden: betrügerische Transaktionen unter den Massen von
Transaktionen, Krankheitsüberträger unter den gesunden Menschen und so weiter.

Unter dem Gesichtspunkt der Leistung von a
Es wird empfohlen, die Trainingsdaten ausgewogen zu gestalten.
Wir können dies tun, indem wir die Trainingsdaten erneut abtasten. Nun das Training des Modells
funktioniert besser, aber wie wäre es mit der Anwendung auf neue Daten, die wir annehmen
unausgeglichen? Dieser Aufbau führt zu verzerrten Werten für die vorhergesagte Klasse
Wahrscheinlichkeiten, da der Trainingssatz nicht den Testsatz oder einen anderen darstellt
neue, unsichtbare Daten.

Daher, um eine optimale Leistung einer Klassifizierung zu erhalten
Modell zusammen mit zuverlässigen Klassifizierungsergebnissen, Korrektur der vorhergesagten
Klassenwahrscheinlichkeiten nach den Angaben zur a priori Klassenverteilung sind
empfohlen. Wie der Anwendungsfall in diesem Blogbeitrag zeigt, führt diese Korrektur zu
Bessere Modellleistung und konkreter Gewinn.

Referenzen

1.Marco Saerens, Patrice Latinne und Christine
Decaestecker. Anpassen der Ausgänge eines Klassifikators an a priori neu
Wahrscheinlichkeiten: ein einfaches Verfahren. Neuronale Berechnung 14 (1): 21–41,
2002.

About BusinessIntelligence

Check Also

Deep Learning-Updates: Maschinelles Lernen, Deep Reinforcement Learning und Einschränkungen

In den letzten Jahren haben einige erstaunliche technologische Durchbrüche auf dem Gebiet der künstlichen Intelligenz …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.