Sonntag , Oktober 18 2020

Guided Labeling Episode 5: Wissen mit schwacher Überwachung verbinden

Klicken Sie hier, um mehr über den Autor Paolo Tamagnini zu erfahren.

Willkommen zur fünften Folge unseres Guided
Labeling Blog Series.In den letzten vier Folgen haben wir
eingeführt Aktives Lernen und ein praktisches Beispiel mit Körper
Massenindexdaten, die zeigen, wie eine aktive Lernabtastung über das durchgeführt wird
Technik „Erforschung gegen Ausbeutung“. Diese Technik verwendet die Etikettendichte
und Modellunsicherheit, um auszuwählen, welche Zeilen vom Benutzer zuerst beschriftet werden sollen
unserer aktiven Lernanwendung.

Die anderen Folgen sind hier:

Einschränkungen
des aktiven Lernens

Aktives Lernen ist eine mächtige Technik
um ein überwachtes Modell zu trainieren, wenn Sie Daten für Ihre Modelleingabe haben, aber nein
Etiketten angebracht. Trotz seiner Wirksamkeit, menschliches Fachwissen während der
Wenn Sie Ihr Modell trainieren, kann aktives Lernen immer noch zeitaufwändig sein.

Der aktive iterative Lernprozess
reduziert die Zeit, die erforderlich ist, um Proben zu kennzeichnen, um ein Modell zu trainieren, aber dennoch
erfordert manuelle Kennzeichnung. In der Tat können Sie durch aktives Lernen die
Anzahl der manuell beschrifteten Proben, die zum Trainieren eines Modells erforderlich sind, aber immer noch
Möglicherweise müssen Tausende von Proben gekennzeichnet werden. Je komplexer Ihre
Klassifizierungsaufgabe ist, je mehr Beschriftungen benötigt werden, um Ihr Modell auch über zu unterrichten
aktives Lernen.

Stellen Sie sich einen Anwendungsfall vor, bei dem die Kennzeichnung erfolgt
Proben in zufälliger Reihenfolge würden mehrere Monate dauern, bis sie gut sind
Modellleistung. In diesem Fall wäre es immer noch erforderlich, aktives Lernen anzuwenden
Ihr Experte beschriftet eine große Menge von Proben und verkürzt möglicherweise die Zeit dafür
dauert von Monaten bis Wochen. Die Frage ist also: Neben aktivem Lernen ist
Gibt es eine andere Technik, um noch mehr Zeit zu sparen?

Wenn nur wenige oder keine Etiketten verfügbar sind,
Es gibt einige zusätzliche Techniken für aktives Lernen, mit denen Sie a trainieren können
Modell (z. B. halbüberwachtes Lernen, Transferlernen usw.). In dieser Folge
Wir werden uns auf eine Technik konzentrieren, die schwache Überwachung genannt wird. Während
Aktives Lernen konzentriert sich auf das Training eines Modells, das darauf abzielt, eine kleine Stichprobe zu sammeln
von Etiketten von hoher Qualität, schwache Aufsicht nutzt stattdessen beim Sammeln eines
enorme Auswahl an Etiketten von zweifelhafter Qualität aus mehreren und völlig unterschiedlichen
Quellen. Lassen Sie uns genauer sehen, worum es bei dieser anderen Technik geht.

Lernen
aus Schwachstellenquellen

Während aktives Lernen schon gut war
bekannt lange bevor die Begriffe "Data Science" und "AI" geprägt wurden, schwach
Supervision wurde in den letzten Jahren populär, als das Stanford AI Lab eine Python-Bibliothek veröffentlichte
genannt Schnorchel um 2019.

Um zu verstehen, wie schwach die Aufsicht
Wir verwenden das folgende Beispiel. Stellen Sie sich vor, Sie möchten entscheiden, ob oder
Sie sollten keine Liste von Filmen ansehen, die nur auf den Vorschlägen Ihrer Freunde basieren, und diese ignorieren
alle Funktionen der Filme. Ihre Freunde geben ihre Meinung basierend darauf ab, ob
sie haben es gesehen oder nicht und ob sie es mochten oder nicht. Wenn sie nicht zuschauten
Den Film werden sie einfach keine Meinung teilen, aber wenn sie ihn gesehen haben
Sie geben Ihnen eine positive oder negative Meinung.

Zusammenfassend:

  • Jeder "Freund" kann für jeden ausgeben
    "Film":

    • "guter Film" (?),
    • "nicht gesehener Film" (),
    • "schlechter Film" (?).
  • Annahmen:
    • Sie haben keine davon gesehen
      Filme.
    • Sie wissen nicht, welchen Freund hat
      Ein ähnlicher Geschmack wie Sie.
    • Sie möchten jeden ignorieren
      Informationen über den Film
      (z. B. Film Genre, Hauptdarsteller,… ).
    • Die Meinungen Ihrer Freunde sind
      unabhängig voneinander (sie kennen sich nicht).

Technisch gesehen könnten Sie alle Meinungen Ihrer Freunde zu einem einzigen Film zusammenfassen und ein Ergebnis berechnen, ob der Film sehenswert ist oder nicht. Sie könnten zum Beispiel eine einfache Mehrheitswahl verwenden (Abb. 1).

Abbildung 1: Quellen für schwache Etiketten Beispiel: Jeder Freund wird nach einer Meinung zu einem Film gefragt und kann antworten: „Guter Film“ ( ?), "Nicht gesehener Film" (), "Schlechter Film" (?). Das kombinierte Ergebnis könnte bereits mit einfacher Mehrheit berechnet werden.

Wenn Sie Meinungen zu allen Filmen auf Ihrer Liste sammeln (Abb. 2), die Mehrheit abgeben und den Film ansehen, werden Sie möglicherweise feststellen, dass die Meinung eines Freundes dies könnte zuverlässiger sein als andere. Gibt es eine Möglichkeit, diese Freunde zu erkennen, bevor Sie sich die Filme ansehen, und die Mehrheit mit der zukünftigen öffentlichen Meinung zu vergleichen, beispielsweise bei den nächsten Oscars Academy Awards? Mit anderen Worten, gibt es eine Möglichkeit, die Genauigkeit Ihrer Freunde bei der Empfehlung von Filmen zu messen? Wenn man bedenkt, wessen Meinung zuverlässiger ist, ist dies möglicherweise klüger als eine einfache Mehrheitswahl. Das bedeutet im Grunde, die Meinung bestimmter Freunde mehr als andere zu gewichten.

Abbildung 2: Schwache Label Sources Matrix Beispiel : Wenn Sie Meinungen zu verschiedenen Filmen von verschiedenen Freunden sammeln, können Sie eine erstellen Matrixtabelle, in der jede Spalte einem anderen Freund und jede Zeile einem anderen Film zugeordnet ist.

Eine schwache Überwachung kann die Genauigkeit der Meinungen jedes Freundes über alle Filme abschätzen und für jeden einen probabilistischen Label ausgeben. Diese probabilistische Ausgabe ist eine Wahrscheinlichkeitsverteilung für das mögliche Ergebnis – neben dem Fall „nicht gesehener Film“. In unserem Beispiel wäre es ein Wahrscheinlichkeitsvektor ( Y ) für jeden Film, den Ihre Freunde empfohlen haben:

Eine solche probabilistische Ausgabe berücksichtigt
Berücksichtigen Sie die Richtigkeit der Meinung Ihrer Freunde und wiegen Sie jede Ihrer Meinungen
Freunde entsprechend. Wenn jeder Ihrer Freunde die gleiche Genauigkeit hat, wird die Ausgabe
wäre wieder eine einfache Mehrheitsentscheidung.

Wie trainiert schwache Aufsicht eine solche
Modell ohne zu wissen, welcher Film großartig ist oder nicht? Wie findet es das
Genauigkeit für jeden Freund? Dieser Punkt ist eigentlich das zentrale Konzept innerhalb der
Schwacher Supervisionsansatz.

Eine schwache Supervision kann ein Modell trainieren, das entweder als „Label-Modell“ oder als „generatives Modell“ bezeichnet wird und einen Bayes'schen Ansatz verwendet (Abb. 3). Es nimmt die Meinungen als Eingabe und erkennt über einen Matrix-Vervollständigungsalgorithmus Übereinstimmungsmuster und Konflikte, um jeden „ Freund “ basierend auf der erlernten Genauigkeit richtig zu gewichten.

Abbildung 3: Training der Schwaches Etikettenmodell : Durch Einspeisen der Schwachen Etikettenquellenmatrix in das Etikettenmodell können Sie eine probabilistische Ausgabe berechnen, die jede Quelle basierend auf ihrer geschätzten Genauigkeit gewichtet. Der Matrix-Vervollständigungsalgorithmus kann dies tun, indem er die Gesamtmuster von Konflikten erkennt und über einen Bayes'schen Ansatz zwischen den verschiedenen unabhängigen Quellen übereinstimmt.

Verallgemeinern
Die Schwachstellenquellen mit Feature-Daten

Mit diesem Ansatz haben Sie eine
automatische Vorhersage, um zu wissen, welcher Film sehenswert ist. Durch Mischen
Wissen aus allen Meinungen Ihrer Freunde auf zuverlässigere Weise als auf einfache Weise
Stimmenmehrheit können Sie anhand der höchsten Wahrscheinlichkeit am Ausgang entscheiden
(Abb. 4). Je mehr Meinungen, desto zuverlässiger wird das Etikettenmodell
Sein.

Das Label-Modell funktioniert jedoch nur, wenn Sie Meinungen zu einem Film haben. Wenn Sie dieses Modell für einen Film verwenden müssten, für den Ihre Freunde keine Meinung geteilt haben, würde es einfach nicht funktionieren. Darüber hinaus verwenden wir nicht viele andere Informationen, die wir über den Film hätten haben können ( Film Genre, Hauptdarsteller, Filmbudget,… ).

Abbildung 4: Das Scoring mit dem Label-Modell funktioniert nur, wenn für diesen bestimmten Datenpunkt schwache Label-Quellen verfügbar sind und alle anderen zugehörigen Feature-Daten vollständig ignoriert werden.

Zur Vorhersage, ob es sich um einen Film handelt gut oder nicht, wenn keine Meinung verfügbar ist, könnten wir zusätzliche Filminformationen und die Ausgabe des Label-Modells verwenden. Auf diese Weise können wir verallgemeinern, was die Label-Modelle über ein zweites Modell für neue Filme produziert haben. Wir brauchen lediglich ein Modell für maschinelles Lernen, mit dem eine Klassifizierungsaufgabe aus probabilistischen Labels anstelle von reinen Labels gelernt werden kann. Es stellt sich heraus, dass neuronale Netze, logistische Regression und – mit wenigen Anpassungen – auch viele andere geeignet sind. Dieses zweite Modell ist bei schwacher Überwachung als „diskriminatives Modell“ bekannt (Abb. 5).

Abbildung 5: Das Training mit dem diskriminierenden Modell erfordert die Ausgabe des Etikettenmodells und der zugehörigen Merkmalsdaten. Neuronale Netze (Deep Learning) können zusammen mit vielen anderen ML-Algorithmen über probabilistische Bezeichnungen anstelle von Standardbezeichnungen zum Erlernen einer Klassifizierungsaufgabe trainiert werden.

Sobald Sie ein Unterscheidungsmodell trainiert haben, können Sie für jeden Film, für den Sie sich entscheiden, eine Vorhersage treffen über verfügbare Funktionen verfügen (Abb. 6). Das Unterscheidungsmodell ist das, was Sie bereitstellen müssen, ohne das Etikettenmodell mit sich führen zu müssen.

Abbildung 6: Die Bewertung mit dem Unterscheidungsmodell ist möglich, indem einfach Funktionen des neuen Datenpunkts wie in bereitgestellt werden die Bereitstellung eines beliebigen Modells für maschinelles Lernen.

Sie denken jetzt vielleicht, großartig jetzt
Ich kann die Meinungen meiner Freunde zu Filmen mit Funktionen zu diesen Filmen in kombinieren
ein einzelnes Modell, aber wie ist das nützlich, wenn ich keine Etiketten zum Trainieren eines habe?
generisches überwachtes Modell? Wie kann eine schwache Aufsicht zu einer Alternative werden?
aktives Lernen in einer generischen Klassifizierungsaufgabe? Wie kann diese Analogie mit
Viele " Freunde ", die " Filme " kennzeichnen, funktionieren besser als ein einzelner Mensch
Experte wie im aktiven Lernen?

In der nächsten Guided Labeling
Blog Post
Episode werden wir den schwachen Supervisionsansatz verallgemeinern
Trainieren Sie jeden Klassifikator für maschinelles Lernen auf einem generischen unbeschrifteten Datensatz und
Vergleichen Sie diese Strategie mit aktivem Lernen. Bleiben Sie dran!

Dies ist eine fortlaufende Serie zum Thema geführte Kennzeichnung, siehe jede Episode
um:

About BusinessIntelligence

Check Also

Warum die CCPA für Vermarkter im Jahr 2020 wichtig ist

Klicken Sie hier, um mehr über den Autor Rohail Abrahani zu erfahren. Die offiziellen Behörden …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.