Freitag , April 10 2020
Home / Business Intelligence / Regularisierung für logistische Regression: L1, L2, Gauß oder Laplace?

Regularisierung für logistische Regression: L1, L2, Gauß oder Laplace?

Klicken Sie hier, um mehr über die Autorin Kathrin Melcher zu erfahren.

Durch Regularisierung kann eine Überanpassung vermieden werden. Aber was
Eigentlich ist Regularisierung, was sind die gängigen Techniken und wie tun sie
unterscheiden?

Nun, laut Ian Goodfellow [1] :

„Regularisierung ist jede Modifikation, die wir an einem Lernalgorithmus vornehmen, der seinen Generalisierungsfehler, aber nicht seinen Trainingsfehler reduzieren soll.“

Mit anderen Worten : Regularisierung kann verwendet werden, um Modelle zu trainieren
die sich besser auf unsichtbare Daten verallgemeinern lassen, indem sie den Algorithmus daran hindern
Überanpassung des Trainingsdatensatzes.

Wie können wir also den logistischen Regressionsalgorithmus ändern?
Den Generalisierungsfehler reduzieren?

Häufige Ansätze, die ich gefunden habe, sind Gauß, Laplace, L1 und L2. Das
Analytics Platform unterstützt Gauss und Laplace und indirekt L2 und L1.

Gauss oder L2, Laplace oder L1? Macht es einen Unterschied?

Es kann nachgewiesen werden, dass L2 und Gauß oder L1 und Laplace
Regularisierung hat einen äquivalenten Einfluss auf den Algorithmus. Es gibt zwei
Ansätze zur Erzielung des Regularisierungseffekts.

Erster Ansatz: Hinzufügen eines Regularisierungsterms

Um die Regressionskoeffizienten einer logistischen Regression zu berechnen, wird das Negative der Log Likelihood-Funktion, auch Zielfunktion genannt, genannt minimiert:

Sie können dieses YouTube-Video überprüfen.

Aber warum sollten wir hohe Koeffizienten bestrafen? Wenn eine Funktion
tritt nur in einer Klasse auf, wird von der ein sehr hoher Koeffizient zugewiesen
logistischer Regressionsalgorithmus [2] . In diesem Fall lernt das Modell alles
Details zum Trainingssatz, wahrscheinlich zu perfekt.

Die beiden gebräuchlichen Regularisierungsbegriffe, die hinzugefügt werden
Bestrafen Sie hohe Koeffizienten, sind die l1 Norm oder das Quadrat
der Norm l2 multipliziert mit ½, was die Namen L1 motiviert
und L2-Regularisierung.

Anmerkung . Der Faktor ½ wird in einigen Ableitungen der L2-Regularisierung verwendet. Dies erleichtert die Berechnung des Gradienten, es ist jedoch nur ein konstanter Wert, der durch die Wahl des Parameters λ

kompensiert werden kann, d.h. die Summe der absoluten Werte der Koeffizienten, auch bekannt als
die Manhattan-Entfernung.

Der Regularisierungsterm für die L2-Regularisierung ist definiert als:

d.h. die Summe des Quadrats der Koeffizienten, auch bekannt als
Quadrat der euklidischen Entfernung, multipliziert mit ½.

Durch den Parameter λ können wir die steuern
Auswirkungen des Regularisierungszeitraums. Höhere Werte führen zu kleineren Koeffizienten,
Zu hohe Werte für λ können jedoch zu einer Unteranpassung führen.

Zweiter Ansatz: Bayesianische Sicht der Regularisierung

Der zweite Ansatz geht von einer bestimmten vorherigen Wahrscheinlichkeit aus
Dichte der Koeffizienten und verwendet die Maximum a Posteriori Estimation (MAP)
Ansatz [3] . Zum Beispiel nehmen wir an, dass die Koeffizienten Gaußsch sind
verteilt mit Mittelwert 0 und Varianz σ 2 oder
Laplace mit Varianz verteilt σ 2 .

In diesem Fall können wir die Auswirkungen der Regularisierung steuern
durch die Wahl der Varianz. Kleinere Werte führen zu kleineren
Koeffizienten. Hier können jedoch kleine Werte von σ 2
führen zu einer Unteranpassung.

Die beiden genannten Ansätze sind eng miteinander verbunden und führen bei richtiger Wahl der Regelparameter λ und σ 2 zu äquivalenten Ergebnissen für die Algorithmus. In KNIME gilt folgende Beziehung:

Ist eine Regularisierung wirklich erforderlich?

Um diesen Teil zu verstehen, haben wir ein kleines Experiment entworfen, in dem wir als Teilmenge des Internet Advertisement-Datensatzes aus dem UCI Machine Learning Repository verwendet haben. Die Teilmenge enthält mehr Eingabemerkmale (680) als Stichproben (120), wodurch eine Überanpassung begünstigt wird.

Der Workflow

Im Workflow in Abbildung 1 lesen wir den Datensatz und
Löschen Sie anschließend alle Zeilen mit fehlenden Werten als logistische Regression
Der Algorithmus kann fehlende Werte nicht verarbeiten.

Als Nächstes normalisieren wir alle Eingabefunktionen, um eine bessere zu erzielen
Konvergenz für den stochastischen durchschnittlichen Gradientenabstiegsalgorithmus.

Anmerkung . Wenn Sie an der Interpretation der Koeffizienten interessiert sind
Durch das Odds Ratio sollten Sie die Datennormalisierung berücksichtigen.

Anschließend erstellen wir einen Trainings- und einen Testsatz und löschen alle Spalten mit
konstanter Wert im Trainingssatz. Zu diesem Zeitpunkt trainieren wir drei Logistik
Regressionsmodelle mit verschiedenen Regularisierungsoptionen:

  • Einheitlicher Prior, d. h. keine Regularisierung,
  • Laplace-Prior mit Varianz σ 2 =
         0,1
  • Gauß vor Varianz σ 2 =
         0.1.

Anmerkung . Wir haben den Standardwert für beide Abweichungen verwendet. Mithilfe einer Optimierungsschleife konnten wir jedoch den optimalen Varianzwert auswählen.

Als Nächstes verbinden wir die logistischen Regressionskoeffizientensätze, die Vorhersagewerte und die Genauigkeiten und visualisieren die Ergebnisse in einer einzigen Ansicht. [19659003] Abbildung 1 . In diesem Workflow lesen wir zuerst den Werbedatensatz, normalisieren die Eingabefunktionen, erstellen eine Trainingsuntermenge mit 120 Beispielen und 680 Funktionen und trainieren drei logistische Regressionsmodelle mit unterschiedlichen vorherigen Einstellungen. Im letzten Schritt verbinden wir die Ergebnisse und visualisieren sie.

Auswirkungen auf die Leistung

In Abbildung 2 werden die Ergebnisse angezeigt. Betrachten wir zunächst
nur der obere Teil, der unterschiedliche Leistungsmaße für die drei zeigt
Modelle, z.B. die Genauigkeiten, Cohens Kappa und die ROC-Kurve.

Im Allgemeinen können wir das für das betrachtete Beispiel mit sagen
Als regulierter Datensatz, der eine Überanpassung begünstigt, schneiden die regulierten Modelle viel besser ab.

Beispielsweise steigt die Genauigkeit von 87,2% auf 93,9% für
Gauß und auf 94,8% für Laplace. Wir erhalten auch höhere Werte für Cohens Kappa und
für den Bereich unter der Kurve.

Gauß oder
Laplace: Was ist der Einfluss auf die Koeffizienten?

Bisher haben wir gesehen, dass Gauß und Laplace regulieren
führen zu einer vergleichbaren Leistungsverbesserung. Aber produzieren sie auch
ähnliche Modelle?

Wenn wir die Koeffizienten betrachten, entdecken wir einige
Unterschiede. Im unteren Teil der interaktiven Ansicht in Abbildung 2 die Werte
der Koeffizienten über den Merkmalsnummern werden für die verschiedenen angezeigt
Priors. Beachten Sie, dass die Diagramme auf der y-Achse unterschiedliche Bereiche haben!

Die beiden oberen Diagramme zeigen die Koeffizienten für Laplace und
Gauß vor. Sie zeigen deutlich, dass die Koeffizienten unterschiedlich sind!

Das auffälligste Ergebnis wird bei Laplace vor beobachtet,
wobei viele der Koeffizienten Null sind. In der Tat wird gesagt, dass
Laplace-Regularisierung führt zu spärlichen Koeffizientenvektoren und Logistik
Die Regression mit Laplace Prior beinhaltet die Auswahl von Merkmalen [2] [3] .

Im Fall von Gauss Prior erhalten wir keine spärlichen Koeffizienten.
aber kleinere Koeffizienten als ohne Regularisierung. In anderen
Worte, Gauß führt im Allgemeinen zu kleineren Werten, während Laplace zu führt
spärliche Koeffizientenvektoren mit einigen höheren Werten.

Die beiden unteren Liniendiagramme zeigen die logistischen Koeffizienten
Regression ohne Regularisierung und alle Koeffizienten im Vergleich zu jedem
andere. Die Diagramme zeigen, dass die Regularisierung zu kleineren Koeffizientenwerten führt.
wie wir erwarten würden, wenn man bedenkt, dass die Regularisierung hoch bestraft
Koeffizienten.

Abbildung 2 . Dies ist die Ansicht des zuletzt umschlossenen Metanodes aus dem in Abbildung 1 dargestellten Workflow. Der obere Teil der Ansicht zeigt die Leistungskennzahlen für die verschiedenen Prioritäten. Wir sehen, dass alle drei Leistungskennzahlen zunehmen, wenn die Regularisierung verwendet wird. Im unteren Teil sind die Koeffizienten für die verschiedenen Prioritäten über die Merkmalsnummern aufgetragen. Die Diagramme zeigen die unterschiedlichen Auswirkungen von Gauß und Laplace vor den Koeffizienten und dass die Regularisierung im Allgemeinen zu kleineren Koeffizienten führt.

Zusammenfassung

Zusammenfassend können wir sagen, dass:

  • L2- und Gauß-Regularisierungen äquivalent sind . Das Gleiche
         für L1 und Laplace.
  • Regularisierung kann zu einer besseren Modellleistung führen.
  • Verschiedene frühere Optionen wirken sich auf die Koeffizienten aus
         anders. Wo Gauß im Allgemeinen zu kleineren Koeffizienten führt, Laplace
         führt zu spärlichen Koeffizientenvektoren mit nur wenigen höheren Werten
         Koeffizienten.

Referenzen

[1] Ian Goodfellow, Yushua Bengio, Aaron Courville, „Deep
Lernen ”, London: The MIT Press, 2017.

[2] Daniel Jurafsky, James H. Martin, "Logisitic Regression", in Sprach- und Sprachverarbeitung.

[3] Andrew Ng, „Funktionsauswahl, L1 vs L2 Regularisierung,
und Rotationsinvarianz “, in: ICML ’04 Proceedings of the
einundzwanzigste internationale Konferenz über maschinelles Lernen
Stanford, 2004.

[4] Bob Carpenter, "Lazy Sparse Stochastic Gradient Descent für regulierte multinomiale logistische Regression", 2017.

About BusinessIntelligence

Check Also

Die Bedeutung des Datenschutzes während der Coronavirus-Pandemie

Während der jüngsten Coronavirus-Pandemie haben wir immer mehr Zeit in Innenräumen verbracht. Das bringt uns …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.