Das POFMU-Prinzip: Einmal für viele Zwecke verarbeiten

Klicken Sie hier, um mehr über den Autor Matt Habiger zu erfahren.

Daten werden häufig nicht für Zwecke erstellt, die Daten gefallen
Wissenschaftler. Es wird häufig für Operationen oder Abrechnungen gesammelt, und als solche a
Es wird viel Vorbereitungszeit benötigt, um es für Daten vorzubereiten
Wissenschaft.

Dies ist eindeutig der Fall bei Standortdaten aus
Mobilfunkanbieter. Der ursprüngliche Zweck dieser Daten war die Netzwerkplanung. Im
um zu verstehen, wie man am besten ein Mobilfunknetz aufbaut, Mobilfunkanbieter
musste wissen, wo Menschen ihre Geräte wahrscheinlich benutzen würden, welche Bereiche sich befanden
wahrscheinlich schwer zu erreichen, wie man Übergaben von Turm zu Turm macht, und so
auf. Im Laufe der Zeit hat sich die Verwendung dieser Daten weiterentwickelt, um alles zu bedienen
Notrufdienste, Werbezwecke und sogar Wettererkennung.

In der Regel gibt es mehrere Anbieter, die die
Mobilfunknetz für einen bestimmten Mobilfunkanbieter über verschiedene Generationen von
Technologien, Geräte, Spektrum und Hardware. Fügen Sie die Tatsache hinzu, dass es zehn gibt
von Milliarden von geolokalisierbaren Ereignissen, die pro Tag im ganzen Land generiert werden,
und das Ausmaß der Chance und Herausforderung wird deutlich.

Wie verarbeiten Sie diese Daten am effizientesten? Durch Data Science Processing Pipelines (DSPP). Der Zweck dieser Pipelines besteht darin, ein verfeinertes Datenprodukt zu rendern, das die meisten Informationen und den Nutzen des Datensatzes beibehält und gleichzeitig dessen Benutzerfreundlichkeit verbessert. Zu diesem Zweck können Datenwissenschaftler dem POFMU-Prinzip folgen, was „Einmal für viele Zwecke verarbeiten“ bedeutet. Dies ist die absolut beste Vorgehensweise, wenn Sie Datensätze für den allgemeinen Verbrauch erstellen. Es hilft beim Erstellen von Datenfunktionen, die für eine einzelne Anwendung nützlich – aber nicht zu spezifisch – sind. Denken Sie gleichzeitig daran, dass Sie Funktionen beibehalten müssen, mit denen andere Datenwissenschaftler diese spezifischen Funktionen erstellen können.

Der folgende Prozess definiert POFMU und formt den DSPP
Grenzen.

  1. Definieren Sie einen möglichen Satz von Kandidatenanwendungsfällen für einen Datensatz.
  2. Identifizieren Sie lange Verarbeitungspole für diese Kandidatenanwendungsfälle.
  3. Identifizieren Sie Verarbeitungsmuster, die in den Anwendungsfällen häufig sind.
  4. Bestimmen Sie Datenmerkmale, die am wahrscheinlichsten verwendet werden.
  5. Definieren Sie eine Datenstruktur.

Speichern Sie die Details dieser Schritte für einen weiteren Tag. Dieser Prozess wird zwischen Produkt, Datenwissenschaft und Unternehmen durchgeführt. kann magisch sein. Ein Wort der Vorsicht: Datenwissenschaftler sollten vor dieser Übung über eine gute Vertrautheit und ein tiefes Verständnis des Datenerzeugungsprozesses verfügen. Ein Datenwissenschaftler sollte effektiv einen mentalen SWOT (Stärken, Schwächen, Chancen, Stärken) des Kandidatendatensatzes haben, der für die Schaffung von Maximalwert entscheidend ist.

Aus logischer Sicht ist das alles in Ordnung und gut, aber es ist nicht das Kernstück der Arbeit zur Einrichtung eines DSPP. Ein typisches DSPP ist eine Zusammenführung von explorativer Datenanalyse (EDA), Ausreißeranalyse, Dimensionsreduzierung und Merkmalsanreicherung. Denken Sie daran, dass alle diese Schritte ausgeführt werden, um ein verfeinertes Datenprodukt zu rendern, das die meisten Informationen und den Nutzen des Datensatzes beibehält und gleichzeitig dessen Benutzerfreundlichkeit verbessert. Letzteres ist das Ergebnis von POFMU. Im Rest dieses Artikels werde ich die Anwendung von DSPP auf netzwerkbasierte Standortdaten aus meiner eigenen

Fallstudie: Verarbeiten netzwerkbasierter Standortdaten

diskutieren. Bildquelle: TruFactor

Problemstellung [19659018] Netzwerkbasierte Standortdaten werden von einem Mobiltelefon generiert
Gerät, wenn es eine Verbindung zu Mobilstationen (Mobilfunkmasten) herstellt. Algorithmen sind
angewendet, die eine Schätzung des Standorts eines Geräts generieren. Die Feinheiten von
Wie diese Algorithmen funktionieren, kann ein anderes Mal behandelt werden, aber es reicht zu sagen
dass die Stärken dieses Datensatzes sein Volumen und seine Konsistenz sind. Millionen von
Geräte werden Tag für Tag gesehen, und eine große, konsistente Gruppe von Geräten ist es
jeden Tag gesehen. Im Gegensatz dazu weist ein typisches GPS-Panel eine Abwanderung von 50% oder mehr auf
In einem bestimmten Monat werden 10% oder weniger des Panels konsistent angezeigt.

Um den DSPP-Prozess greifbarer zu machen, werde ich Sie durch die einzelnen Schritte führen
Unsere Schritte zum Erstellen einer Intelligenzeinheit, die identifiziert, wo sich ein Gerät befindet
dwells.

Plattform zur Validierung und Prüfung von Signalen

Zunächst beginnen wir mit einer Plattform, deren einziger Zweck es ist
Messen Sie die Qualität von Standortdatensätzen. Die Plattform entspricht zwei Datensätzen
auf gängigen Benutzerschlüsseln mit Zeitschwellenwert und gibt dann eine Vielzahl von Metriken aus
um das gesamte DSPP zu vergleichen.

Wir sind fanatisch darin, zu messen, wie ein Datensatz beeinflusst wird
wenn wir zugrunde liegende Algorithmen ändern. Also, zu wissen, dass eine Optimierung unserer Filterung
Der Algorithmus reduziert den Ping-to-Ping-Fehler um 25 Meter, erhöht jedoch den Routing-Fehler
um 300 Meter ist kritisch. Die Plattform zur Validierung und Prüfung von Signalen wurde veröffentlicht
einer explorativen Datenanalyseübung zum Verständnis der Vorurteile und
Fehler in den Standortdaten des Mobilfunkanbieters. Die Notwendigkeit einer solchen Plattform
Die Überwachung von Änderungen nach der Produktion war noch nie so offensichtlich.

Filteralgorithmus

Denken Sie über das typische Benutzerverhalten nach – innerhalb eines bestimmten
Tag gibt es Perioden der Bewegung und Ruhe, die Hunderte von TB Rohöl erzeugen
Informationen täglich.

Wenn 200 Pings über einen Tag gleichmäßig verteilt sind, können Sie möglicherweise bis zu 600 Pings erhalten. Ab einem bestimmten Punkt sind Informationen überflüssig. Daher ist das Herausfiltern von Daten mit geringen Informationen äußerst nützlich. Zu diesem Zweck haben wir einen Algorithmus entwickelt, der Ideen sowohl aus dem Kalman-Filter als auch aus dem Partikelfilter übernimmt. Beide Ansätze zielen darauf ab, verrauschte Messdaten zu erfassen und die Unsicherheit um eine bestimmte Messung entweder auszugleichen oder abzuschätzen.

Ein Vorteil des Partikelfilters gegenüber dem Kalman-Filter ist
seine Anwendung auf nichtlineare Systeme. Ein schöner Aspekt des Kalman-Filters ist der
Ableitung des Kalman-Gewinns oder -Verlusts. Diese Maßnahme hilft Ihnen zu verstehen, ob die
Filter verbessert oder verschlechtert sich. Unser Filter zielt beide darauf ab, das zu verstehen
Informationen gewinnen von einem bestimmten Punkt, bestimmen aber auch, wie viel Glauben
wir sollten diese Messung vornehmen. Sie können diesen Filter als bekannt betrachten
die Vergangenheit und Allwissenheit der Zukunft, da sie sowohl aus t-n als auch aus t + n schöpft
Beobachtungen.

Man kann diese zeilenweise Dimensionsreduktion eher als eine säulenförmige Reduktion betrachten. Einige Datenwissenschaftler haben Schwierigkeiten, Informationen wegzuwerfen, auch Ihre. Nach vielen Tests haben wir jedoch festgestellt, dass wir die Datengröße um etwa 60% reduzieren und unsere Clustering- oder Modalitätsalgorithmen durch intelligente Filterung verbessern können. Darüber hinaus sparen wir bei diesen nachgeschalteten Prozessen Rechenaufwand.

Clustering-Algorithmus

Viele Menschen verbringen einen Großteil ihres Tages relativ
stationär. Für einen außerirdischen Beobachter, der nur einen Ping auf einer unscheinbaren Karte kennt,
Es scheint, als ob willkürliche Grenzen die Bewegung einschränken. Dann plötzlich,
Die Person wird sich von der Grenze lösen und sich auf einem deterministischen Weg bewegen
und wieder begrenzt werden. Wichtig ist hier, dass diese willkürlich sind
Grenzen kennen nicht immer physikalische Grenzen. Ihre Größe oft
variiert, und die Informationsdichte kann variieren.

Aufgrund dieser Probleme haben viele Clustering-Algorithmen
Schwierigkeiten bei der Identifizierung von Verweilzeiten. Auch die besten Algorithmen müssen sein
angepasst, um vorhandene Randfälle zu behandeln. Unser Go-to-Algorithmus ist räumlich und zeitlich
DBSCAN. In einer signalreichen Umgebung mit einem sich langsam bewegenden Gerät
Cluster können beliebig groß werden. Dies kann besonders dicht sein
städtische Umgebungen wie Manhattan. Während wir weiter darüber nachgedacht haben
Wir haben DBSCAN so angepasst, dass Nuancen berücksichtigt werden
Klassifizierungsproblem, ob der Ping stationär war oder nicht, durch Anwenden der Maschine
Lern- und Deep-Learning-Algorithmen für diese Hunderte von Millionen von Schulungen
Beispiele.

Wie wir alle wissen, sind drahtlose Carrier-Netzwerke groß und dynamisch. Die Dichte der Pings in einer Region und die Genauigkeit können stark von der Anzahl der Geräte, Türme sowie von Wartungs- oder Hardwareänderungen beeinflusst werden. Auch hier kommt die Signal Validation Testing Platform ins Spiel. Mit einem System, das Änderungen der zugrunde liegenden Signalgenauigkeit messen kann, können wir eine kontinuierliche Rückkopplungsschleife erstellen. Dies ist eine tugendhafte Schleife, da selbst die Kenntnis einer Verschlechterung der Frequenz oder Genauigkeit von Vorteil ist, da sie in das Modell integriert ist. Auf diese Weise können Parameter selbst erlernt werden.

Diese Prozesse haben es uns ermöglicht, 20 Milliarden Rohdaten zu transformieren
pingt in 200 Millionen Cluster pro Tag. Die mittlere Anzahl stationärer
Cluster für ein Gerät liegen bei 3 bis 4, was intuitiv mit korreliert
Beobachtungen darüber, wie sich Menschen im Laufe ihres Tages bewegen. Der wichtige Punkt
ist, dass Singleton-Cluster existieren können. Pings in Bewegung lassen
Singletons erweisen sich als nützlich, wenn Sie versuchen, die Reise eines Geräts zu verstehen. Bei diesem
Punkt hat die Pipeline mehr zeilenweise Dimensionsreduzierung und Merkmal durchgeführt
Anreicherung.

Tatsächlich sind die Funktionen reich genug, um eine zu definieren
Geheimdiensteinheit namens Visits, die aus einem Cluster und seinen besteht
Attribute. Diese Attribute können die Start- und Stoppzeit eines Clusters sein (von
welche eine Verweilzeit berechnet werden kann), die Clustergrenze und den gewichteten Schwerpunkt
des Clusters. Der Schnittpunkt einer Clustergrenze mit der Grenze von a
Point-of-Interest-Grenze generiert einen Besuch.

Modalitätsalgorithmus

Um zu verstehen, wie das Gerät vom Cluster zum Cluster überging
Cluster (auch als "der Pfad" bekannt), ist es auch nützlich zu verstehen, ob der Pfad
wurde durch Gehen, Fahren, Radfahren oder öffentliche Verkehrsmittel abgeschlossen. Merken
diese Singletons aus dem Clustering? Sie sind praktisch, um den Modus abzuschätzen
wurde beim Wechsel von Cluster zu Cluster übernommen. Auch hier haben wir Informationen hinzugefügt
unser Datensatz, der eine Reihe umfangreicher nachgelagerter Anwendungen ermöglicht.

Schlussfolgerung

Durch die Fokussierung auf das POFMU-Prinzip wird das Ergebnis des Standorts ermittelt
DSPP liefert eine standardisierte Intelligenzeinheit, auf die jetzt angewendet werden kann
Mehrere Branchen, um Hunderte unterschiedlicher Probleme zu beantworten.

Zusammenfassend zeigen die folgenden Schritte jeden logischen Schritt in der
Verarbeitungspipeline.

  1. Definieren Sie einen möglichen Satz von Anwendungsfällen für einen Datensatz.
    • Jede vertikale Anwendung, die von einem Verständnis darüber profitieren könnte, wie, wann und wo sich die Bevölkerung bewegt: Stadtplanung, Fintech-Anwendungen, Außenwerbung Anwendungsfälle, Transportplanung usw.
  2. Identifizieren Sie die langen Verarbeitungspole für diese Anwendungsfälle.
    • Milliarden von Punkten pro Tag
    • Das Routing ist rechenintensiv.
    • Identifizieren Sie die Modalität und Verweilen ist nicht trivial
    • NSL-Daten können unordentlich / verrauscht sein
  3. Identifizieren Sie die in den Anwendungsfällen üblichen Verarbeitungsmuster
    • Bereinigen von Daten
    • Zuordnen von Daten zu Straßen [19659008] Kartendatenpunkte von Interesse
    • Bestimmen, wie lange jemand bleibt
    • Bestimmen des Reisemodus
  4. Bestimmen Sie Datenmerkmale, die am wahrscheinlichsten verwendet werden.
    • Modalität
    • Verweilzeit
    • Zurückgelegte Strecke
    • Peilung
    • Geschwindigkeit
    • Verweilgrenze
  5. Erstellen Sie eine Datenstruktur, die ausreichende Informationen enthält und eine ausreichende Speicherkomprimierung liefert.

About BusinessIntelligence

Check Also

Konsolidieren Sie Ihre Software-Ausgabendaten für eine bessere IT-Budgetplanung

Cyber-Angriffe nehmen an Häufigkeit und Komplexität zu. Die Technologie entwickelt sich rasant. Die Welt wird …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.