Dienstag , Juli 28 2020

Guided Labeling Episode 2: Etikettendichte

Klicken Sie hier, um mehr über den Autor Paolo Tamagnini zu erfahren.

Die Guided Labeling-Reihe von Blog-Posts begann mit einem Blick auf
wenn eine Kennzeichnung erforderlich ist – d. h. im Bereich des maschinellen Lernens, wenn die meisten
Algorithmen und Modelle erfordern große Datenmengen mit einigen spezifischen
Anforderungen. Diese großen Datenmengen müssen beschriftet werden, um sie zu erstellen
verwendbar. Richtig strukturierte und beschriftete Daten können dann zum Trainieren verwendet werden
und Modelle bereitstellen.

In der ersten Folge unserer Guided Labeling-Reihe Eine Einführung in das aktive Lernen haben wir uns mit dem Human-in-the-Loop-Zyklus des aktiven Lernens befasst. In diesem Zyklus wählt das System zunächst Beispiele aus, die es für das Lernen als am wertvollsten erachtet, und der Mensch kennzeichnet sie. Basierend auf diesen anfänglich beschrifteten Daten wird ein erstes Modell trainiert. Mit diesem trainierten Modell bewerten wir alle Zeilen, für die noch Beschriftungen fehlen, und beginnen dann mit dem aktiven Lernen. Hier geht es darum, auszuwählen oder neu zu ordnen, was der Mensch in der Schleife als nächstes kennzeichnen soll, um das Modell am besten zu verbessern.

Es gibt verschiedene Stichprobenstrategien für aktives Lernen und in
Im heutigen Blog-Beitrag möchten wir uns die Technik der Etikettendichte ansehen.

Etikettendichte

Beim Beschriften von Datenpunkten kann sich der Benutzer über eine der folgenden Fragen wundern
diese Fragen:

  • „Is
    Diese Zeile meines Datensatzes ist repräsentativ für die Verteilung? “
  • „ Wie
    Viele andere noch unbeschriftete Datenpunkte ähneln denen, die ich bereits habe
    beschriftet? "
  • " Ist
    Diese Zeile ist im Datensatz eindeutig – ist sie ein Ausreißer? “

Die oben genannten sind alles faire Fragen. Zum Beispiel, wenn Sie nur beschriften
Ausreißer, dann ist Ihr gekennzeichnetes Trainingsset nicht so repräsentativ wie Sie
hatte die häufigsten Fälle bezeichnet. Auf der anderen Seite, wenn Sie nur gemeinsam beschriften
In Fällen Ihres Datensatzes würde Ihr Modell immer dann eine schlechte Leistung erbringen, wenn es angezeigt wird
etwas, das nur ein bisschen außergewöhnlich zu dem ist, was Sie beschriftet haben.

Die Idee hinter dem Label
Die Density-Strategie
besteht darin, dass Sie beim Beschriften eines Datensatzes dies möchten
Beschriftung, bei der der Feature-Space einen dichten Cluster von Datenpunkten aufweist. Was ist der
Feature-Space?

Feature-Space

Der Feature-Space repräsentiert alle möglichen Kombinationen von Spaltenwerten (Features), die Sie im Dataset haben. Wenn Sie beispielsweise einen Datensatz hätten, der nur das Gewicht und die Größe von Personen enthält, hätten Sie eine zweidimensionale kartesische Ebene. Die meisten Ihrer Datenpunkte hier werden wahrscheinlich etwa 170 cm und 70 kg betragen. Um diese Werte herum ergibt sich also eine hohe Dichte in der zweidimensionalen Verteilung. Um dieses Beispiel zu visualisieren, können wir ein 2D-Dichtediagramm verwenden.

Abbildung 1: Ein 2D-Dichtediagramm visualisiert die Bereiche mit dichteren Datenpunktclustern deutlich – hier in dunkelblau. Diese Art der Visualisierung funktioniert nur, wenn Sie einen Feature-Space haben, der nur durch zwei Spalten definiert ist. In diesem Fall sind die beiden Spalten das Gewicht und die Größe der Personen, und jeder Datenpunkt, die Markierungen auf dem Plot, sind die verschiedenen Personen.

In Abbildung 1 ist die Dichte nicht einfach konzentrisch zu der
Mitte des Grundstücks. In diesem Funktionsbereich befindet sich mehr als ein dichter Bereich.
Auf dem Bild gibt es beispielsweise einen dichten Bereich mit einer hohen Anzahl von
Menschen um 62 kg und 163 cm und ein weiterer Bereich mit Menschen um die 80
kg und 172 cm. Wie stellen wir sicher, dass wir in beiden dichten Bereichen beschriften, und wie würden wir
Diese Arbeit, wenn wir Dutzende von Spalten und nicht nur zwei hätten?

Die Idee wäre, den Datensatz zu untersuchen und zu verschieben
n-dimensionaler Merkmalsraum von dichtem Bereich zu dichtem Bereich, bis wir haben
priorisierte alle gängigen Merkmalskombinationen in den Daten. Messen
Für die Dichte des Merkmalsraums berechnen wir ein Abstandsmaß zwischen einem gegebenen
Datenpunkt und alle anderen, die ihn umgeben, unter Verwendung eines bestimmten Radius.

Euklidisches Abstandsmaß

In diesem Beispiel verwenden wir das euklidische Abstandsmaß über dem gewichteten mittleren subtraktiven Clustering-Ansatz (Formel 1 unten), aber anderen Abständen Maßnahmen können auch verwendet werden. Mit diesem durchschnittlichen Abstandsmaß zu Datenpunkten in der Nähe können wir jeden Datenpunkt nach Dichte ordnen. Wenn wir das Beispiel in Abbildung 1 noch einmal betrachten, können wir jetzt mithilfe der Formel 1 feststellen, welcher Datenpunkt sich in einem dunkelblauen Bereich des Diagramms befindet. Dies ist leistungsstark, da es auch funktioniert, unabhängig davon, wie viele Spalten Sie haben. [19659019] Formel 1: Um den Dichtewert bei der Iteration k der aktiven Lernschleife für jeden Datenpunkt x i, zu messen, berechnen wir diese Summe basierend auf dem gewichteten mittleren Subtraktions-Clustering-Ansatz. In diesem Fall verwenden wir einen euklidischen Abstand zwischen x i und allen anderen Datenpunkten x j innerhalb eines Radius von r a .

Dies Das Ranking muss jedoch jedes Mal geändert werden, wenn wir weitere Labels hinzufügen. Wir möchten vermeiden, immer in denselben dichten Bereichen zu kennzeichnen, und weiterhin nach neuen suchen. Sobald ein Datenpunkt beschriftet ist, möchten wir nicht, dass die anderen Datenpunkte in seiner dichten Nachbarschaft in zukünftigen Iterationen ebenfalls beschriftet werden. Um dies zu erzwingen, reduzieren wir den Rang für Datenpunkte innerhalb des Radius des markierten (Formel 2 unten).

Formel 2: Um den Dichtewert bei der nächsten Iteration k + 1 der aktiven Lernschleife zu messen, müssen wir ihn basierend auf den neuen Bezeichnungen aktualisieren: L k aus der vergangenen Iteration k für jede Daten Punkt x j innerhalb eines Radius von r b von jedem markierten Datenpunkt x y .

Sobald der Dichterang aktualisiert wurde, können wir das Modell neu trainieren und fahren Sie mit der nächsten Iteration der aktiven Lernschleife fort. In der nächsten Iteration untersuchen wir dank des aktualisierten Ranges neue dichte Bereiche des Merkmalsraums und zeigen dem Menschen in der Schleife im Austausch von Etiketten neue Beispiele (Abbildung 2 unten).

Abbildung 2: Active Learning Iteration k : Die Benutzerbezeichnungen, bei denen der Dichtewert am höchsten ist, werden lokal reduziert, wenn neue Bezeichnungen zugewiesen wurden. Aktive Lerniteration k + 1 : Der Benutzer beschriftet jetzt in einem anderen dichten Bereich des Merkmalsraums, da der Dichtewert in zuvor untersuchten Bereichen verringert wurde. Konzeptionell steht das gelbe Kreuz für die Zuweisung neuer Beschriftungen und das rote für die Verringerung der Dichte.

Zusammenfassung

In dieser Episode haben wir uns Folgendes angesehen:

  • Etikettendichte
    als aktive Probenahmestrategie
  • Kennzeichnung
    in allen dichten Bereichen des Merkmalsraums
  • Messen
    die Dichte des Merkmalsraums mit dem euklidischen Abstandsmaß und
    das gewichtete
    mittlerer subtraktiver Clustering-Ansatz

Im nächsten Blog-Artikel dieser Reihe werden wir uns damit befassen
Modellunsicherheit. Dies ist eine aktive Abtasttechnik, die auf der Vorhersage basiert
Wahrscheinlichkeiten des Modells für noch unbeschriftete Zeilen. Bald erhältlich!

About BusinessIntelligence

Check Also

Warum KI und Big Data die Helden der großen Rezession sein werden

Klicken Sie hier, um mehr über Dr. Tommy Weir zu erfahren. Die aktuelle globale Krise …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.