Sonntag , Mai 17 2020

Data Chef ETL Battles: WebLog-Daten für die Clickstream-Analyse

Klicken Sie hier, um mehr über die Co-Autorin Maarit Widmann zu erfahren.

Klicken Sie hier, um mehr über die Co-Autorin Anna Martin zu erfahren.

Klicken Sie hier, um mehr über die Co-Autorin Rosaria Silipo zu erfahren.

Erinnern Sie sich an das Eisen? Kochkämpfe?

Es war eine Fernsehserie von Cook-offs, in denen berühmte Köche auftraten
krempelten die Ärmel hoch, um das perfekte Gericht zuzubereiten. Basierend auf einem Set
Thema beinhaltete dies mit all ihrer Erfahrung, Kreativität und Fantasie zu
Verwandle manchmal fragwürdige Zutaten in die ultimative Mahlzeit.

Hey, ist das nicht wie eine Datentransformation? Oder Datenmischung oder Datenmanipulation oder ETL oder welcher neue Name ist jetzt im Trend? In diesem Artikel werden wir zwei Datenköche bitten, ihr gesamtes Wissen und ihre Kreativität einzusetzen, um die nützlichsten „Aromen“ eines bestimmten Datensatzes über Reduktionen, Aggregationen, Kennzahlen, KPIs und Koordinatentransformationen zu extrahieren. Köstlich!

Möchten Sie herausfinden, wie Sie die Zutaten für a
leckeres Datengericht durch Aggregation von Finanztransaktionen, Herausfiltern
uninformative Merkmale oder das Wesentliche der Customer Journey extrahieren?

Inhaltsstoffthema: WebLog-Daten

Bildnachweis: KNIME

Der heutige Datensatz besteht aus den von HortonWorks bereitgestellten Clickstream-Daten, die Datenbeispiele von Online-Shop-Besuchen enthalten, die in drei Dateien gespeichert sind:

1. Daten zu den aus dem Original extrahierten Websitzungen
Webprotokolldatei. Es enthält Benutzer-ID, Zeitstempel, besuchte Webseiten und Klicks.

2. Benutzerdaten. Diese Datei enthält Geburtsdatum und Geschlecht
mit den Benutzer-IDs verknüpft, sofern verfügbar.

3. Die dritte Datei ist eine Karte der Webseiten und der zugehörigen
Metadaten, z.B. Homepage, Kundenbewertung, Video-Bewertung, Berühmtheit
Empfehlung und Produktseite.

Die Clickstream-Analyse ist der Zweig von Data Science, der die Datenmenge von Benutzern sammelt, zusammenfasst und analysiert, indem Muster und Beziehungen zwischen Aktionen und / oder Benutzern erkannt werden. Einige Beispielmetriken sind in Abbildung 1 dargestellt. Mit diesem Wissen kann der Online-Shop seine Dienste optimieren, einschließlich temporärer Werbung, gezielter Produktvorschläge, besserem Webseitenlayout und verbesserten Navigationsoptionen.

Abbildung 1. Zu quantifizierende und zu beschreibende Funktionen Online-Shop-Kunden

Unsere Datenköche werden sich den Clickstream-Daten nähern
aus drei verschiedenen Perspektiven. Haruto wird sich auf Demografie konzentrieren, Momoka auf
Website-Besuchsverhalten und Hiroyuki auf Einnahmen. Mal sehen, was sie herausfinden!

Thema. Clickstream
Analyse

Herausforderung. Von
Webprotokolldatei, Webseitenmetadaten und Benutzerdatenextraktionsmuster und
Beziehungen zu Online-Shop-Besuchen

Methoden. Aggregationen
und Visualisierungen

Datenmanipulationsknoten. GroupBy-, Pivoting-, Date & Time-Knoten

Der Wettbewerb

Die von den Datenköchen Haruki, Momoka und Hiroyuki erstellten Datenaggregationen und -visualisierungen bilden die Grundlage für das Trainieren eines Vorhersagemodells oder das Erstellen eines Dashboards zur Untersuchung von Folgeaktionen.

Wie in Abbildung 2 gezeigt, werden die Daten einer Vorverarbeitung unterzogen, bevor sie den Datenköchen präsentiert werden. Dazu gehören Datenzugriff, Datenmischung, Datenbereinigung und Feature-Generierung. Hier wird die rohe Weblogdatei mit Benutzer- und Produktdaten verknüpft. Besuche werden basierend auf einer Benutzer-ID und einem Zeitlimitwert getrennt. Das Alter des Benutzers wird basierend auf dem Zeitstempel des Besuchs und dem Geburtsdatum des Benutzers berechnet. Die Kaufinformationen für Besuche werden generiert, indem überprüft wird, ob ein Klick auf den Besuch zum Kauf eines Produkts geführt hat.

Abbildung 2: Vorbereiten von Clickstream-Daten vor dem Berechnen und Visualisieren aggregierter Metriken: Datenzugriff, Datenüberblendung und Feature-Generierung. Jetzt ist es Zeit für die Datenköche, ihren Kampf zu beginnen. Lesen Sie weiter, um zu sehen, wie jeder Koch seine Herausforderung bewältigt.

Data Chef Haruto: Benutzerdemografie

Nach dem in Abbildung 1 gezeigten Schema konzentriert sich Data Chef Haruto auf die Demografie von Kunden und Besuchern des Online-Shops, den Sie verwenden kann in Abbildung 3 gesehen werden und wird unten erläutert.

Abbildung 3: Aggregation und Visualisierung von Clickstream-Daten mit Schwerpunkt auf demografischen Merkmalen

Aggregationen

Harutos Inhaltsstoffe sind Alter und Geschlecht des Benutzers. Hier ist die
Rezept.

Zuerst fasst er das Benutzeralter mit dem Numeric Binner-Knoten zusammen in:

  • "Generation Z "
         (24 Jahre oder jünger);
  • " Generation Y " (zwischen 25 und 39 Jahre alt);
  • " Generation X " (40 bis 59 Jahre alt) );
  • " Baby Boomer " (über 55 Jahre alt).

Als nächstes berechnet er die Anzahl der Besuche und die Anzahl der Benutzer
nach Geschlecht und Alter bin.

Visualisierungen

Abbildung 4 zeigt die aggregierten Metriken von Haruto. Er findet
out that

  1. Die Anzahl der Benutzer und die Anzahl der Besuche folgen in den vier Altersgruppen einem ähnlichen Muster. Die Nutzerbasis wird von „Generation Z“ und „Generation Y“ dominiert, die zusammen mehr oder weniger drei Viertel aller Nutzer und aller Besuche ausmachen. Dies spiegelt die allgemeine Tendenz wider, dass der jüngere Teil der Bevölkerung anfälliger für Internet-Einkäufe ist.
  2. Die Website wird von Männern und Frauen gleichermaßen besucht, und beide Geschlechter sind hinsichtlich der Anzahl der Besuche gleichermaßen aktiv. Aus diesen Kreisdiagrammen geht kein Hinweis auf mögliche Marketingmaßnahmen für Frauen und Männer hervor.
Abbildung 4: Visualisierung der Anzahl der Benutzer und der Anzahl der Besuche im Online-Shop nach Alter und Geschlecht

Data Chef Momoka: Benutzerverhalten

Nach dem ursprünglichen Schema in Abbildung 1 quantifiziert Data Chef Momoka das Verhalten der Website-Besucher. Dies ist in Abbildung 5 dargestellt und wird im Folgenden erläutert.

Abbildung 5: Aggregieren und Visualisieren von Clickstream-Daten mit Schwerpunkt auf dem Besucherverhalten

Aggregationen

Momokas Inhaltsstoffe sind Zeit, Webseitenkategorien und
Klicksequenzen. Hier ist ihr Rezept.

Zuerst berechnet sie die Anzahl der Klicks und den durchschnittlichen Besuch
Dauer nach Wochentag, Tageszeit und Webseitenkategorie.

Als Nächstes verfolgt sie das Klickverhalten, indem sie diesen folgt
Schritte, auch in Abbildung 6 dargestellt:

  • Sie beginnt mit einem Spaltenlistenschleifen-Startknoten und
         iteriert über die Spalten, die nachfolgende Klicks darstellen. Jede Iteration
         Erstellt Spaltenpaare mit Webseitenkategorien, auf die zugegriffen wird
         nachfolgende Klicks.
  • Sie verkettet die Ergebnisse aus jeder Iteration und
         berechnet die Übergangswahrscheinlichkeit für jedes Paar von Webseitenkategorien
  • Sie extrahiert Klicksequenzen und extrahiert diese dann
         mindestens zweimal vorkommend
Abbildung 6: Berechnung der Übergangswahrscheinlichkeit zwischen Webseitenkategorien und Extrahieren von Klicksequenzen, die mindestens zweimal in den Clickstream-Daten vorkommen

Visualisierungen

Die Abbildungen 7 und 8 zeigen die aggregierten Metriken von Data Chef
Momoka. Sie findet heraus, dass:

  1. Die auf der Website verbrachte Zeit am Wochenende leicht zunimmt, wie das Liniendiagramm links in Abbildung 7 zeigt. Wahrscheinlich haben die Leute mehr Zeit, um Informationen über ihre möglichen Einkäufe bei zu sammeln Wochenenden. Der Unterschied zwischen Geschäftstagen und Wochenendtagen ist jedoch sehr gering. Andererseits gibt es einen deutlichen Unterschied zwischen der Zeit, die auf den Produktseiten verbracht wird, und beispielsweise der Zeit, die zum Lesen von Empfehlungen von Prominenten aufgewendet wird.
  2. Wie gezeigt, gibt es am Montag einen Spitzenwert in der Anzahl der Klicks auf alle Seitenkategorien Es scheint, dass Benutzer die ganze Woche über lesen, hauptsächlich an Wochenenden, und montags weitere Erkundungen oder sogar Käufe durchführen. Die Beliebtheit der Kategorien ist dieselbe wie für die durchschnittliche Besuchszeit: Die Seiten mit den meisten Klicks sind die Startseite und die verschiedenen Produktseiten, während die Seite mit den Empfehlungen von Prominenten die geringste Anzahl von Klicks aufweist. Anscheinend ist es den meisten Benutzern egal, was Prominente beim Kauf denken.
Abbildung 7: Visualisierung der durchschnittlichen Besuchsdauer in Minuten und der Anzahl der Klicks nach Wochentag und Seitenkategorie

Sehen Sie sich nun das Klickverhalten an in Abbildung 8, die
zeigt das Klickverhalten.

Das Sunburst-Diagramm zeigt Sequenzen von Klicks
Mindestens zwei mal. Farben sind verschiedenen Seitenkategorien zugeordnet. Der Erste
Klicks machen den innersten Donut. Weitere Klicks befinden sich im Außenbereich
Ringe. Wenn Sie einen Bereich innerhalb eines externen Rings auswählen, wird die Sequenz von erzeugt
vorherige Klicks wie in Abbildung 8 gezeigt.

Die Heatmap zeigt die Seitenkategorie für den ersten Klick auf
die y-Achse und die Seitenkategorie für den nächsten Klick auf die x-Achse. Die Farbe
Übertragungen von lila (geringe Wahrscheinlichkeit) nach orange (hohe Wahrscheinlichkeit).

Datenkoch Momoka stellt Folgendes fest:

  1. Fast drei von vier Besuchen beginnen entweder auf der Startseite oder auf einer Produktseite, wie durch Grün und Gelb dargestellt Abschnitte, die fast 75% der Anzahl der Klicks im innersten Donut im Sunburst-Diagramm in Abbildung 8 ausmachen.
  2. Etwa die Hälfte der Besuche endet bereits auf der Startseite oder auf einer Produktseite, da sowohl der grüne als auch der gelbe Abschnitt im innersten Donut in Abbildung 8 sind zweigeteilt – ein Teil mit weiteren Klicks und ein Teil ohne.
  3. Die wahrscheinlichsten nächsten Kategorien sind die Startseite und eine Produktseite für alle Kategorien gemäß den Übergangswahrscheinlichkeiten zwischen zwei Seitenkategorien, die durch angezeigt werden die Heatmap in Abbildung 8.
  4. Prominente Empfehlungen und Videobewertungen stellen die am wenigsten wahrscheinlichen nächsten Klicks für alle Kategorien dar. Diese Ergebnisse stimmen mit der in Abbildung 7 gezeigten Kategorie-Popularität überein.
Abbildung 8: Visualisierung typischer Klicksequenzen und Übergangswahrscheinlichkeit zwischen zwei Webseiten-Kategorien

Datenkoch Hiroyuki: Beitrag zum Umsatz

Wiederum nach dem Original Das in Abbildung 1 gezeigte Schema, Data Chef Haruto, nähert sich den Clickstream-Daten aus der Perspektive der Umsatzgenerierung. Sie können seine Schritte in Abbildung 9 sehen und sie werden unten erläutert.

Abbildung 9: Aggregieren und Visualisieren von Clickstream-Daten mit Schwerpunkt auf Einnahmen

In seinem Rezept berechnet er die Anzahl der Besuche entsprechend
zu Wochentag, Tageszeit und Kaufinformationen für Besuche.

Die Liniendiagramme in Abbildung 10 zeigen die Anzahl der Besuche mit und ohne Kauf an jedem Tag und zu jeder Tageszeit, normalisiert durch die Gesamtzahl der Besuche für am selben Tag oder zu derselben Tageszeit. Die Kaufinformationen definieren die Farben: Blau für einen Besuch mit "Kauf" und Orange für einen Besuch ohne "Kauf". Die Balkendiagramme in Abbildung 10 zeigen die absolute Anzahl der Besuche derselben Kategorien.

Abbildung 10: Visualisierung der Anzahl der Besuche nach Tageszeit, Wochentag und Kauf
Datenkoch Hiroyuki stellt fest, dass
  1. As gezeigt durch das Liniendiagramm auf der linken Seite, ungefähr 60% von allen
         Besuche enden mit einem Kauf während der Werktage gegenüber 40-50% während der
         Wochenende.
  2. Wie aus dem Liniendiagramm rechts hervorgeht, der Prozentsatz
         Die Anzahl der Besuche mit einem Kauf nimmt gegen Abend und Nacht ab. Das
         Der höchste Prozentsatz der Einkäufe erfolgt während der Arbeitszeit.
  3. Montag ist wieder der geschäftigste Tag in Bezug auf die Anzahl der Besuche.
         entweder mit einem Kauf enden oder nicht, wie das Balkendiagramm auf der zeigt
         links in Abbildung 10.
  4. Die beliebtesten Besuchszeiten sind Nachmittag und
         Abend, wie das Balkendiagramm rechts in Abbildung 10 zeigt.

Die Jury

Die drei Datenköche ergänzen sich seitdem perfekt
Jeder Datenkoch wählte einen anderen Ansatz. Aber welcher von ihnen hat das vorbereitet
mit Datenschüssel? Es ist Zeit, den Gewinner zu finden.

Wenn Haruto mehr Zutaten gehabt hätte, hätte sein Datengericht
war abenteuerlustig. Er aggregierte jedoch nur nach Alter und Geschlecht. Sichere Wette, aber
nicht überraschend.

Momoka war kreativ darin, mit nur wenigen Maßnahmen zu generieren
Zutaten. Sie beschloss, die anonymen Funktionen, die jeder Benutzer verwendet, zusammenzufassen
Blätter auf der Webseite: Zeit, Reihenfolge und Webseitenkategorie eines Klicks. Nebeneinander
der Zeit!

Anscheinend bewertet Hiroyuki die Nützlichkeit gegenüber dem Sein als nützlich
explorativ. Seine Berechnungen sind einfach anzuwenden, obwohl etwas, das jeder
Der Online-Shop-Administrator sollte schon lange messen.
Plus für die Praktikabilität, minus für die Unterschätzung des Publikums.

Wir haben das Ende dieses Wettbewerbs erreicht. Herzliche Glückwünsche
an alle unsere Datenköche, die solche interessanten Features aus dem Rohzustand herausgeholt haben
Daten Zutaten! Sie haben alle einzeln interessante Ergebnisse erzielt,
die sehr gut zusammenarbeiten, um eine vollständigere Darstellung von zu geben
der Kunde. Letztendlich ist das beste Rezept, wenn Sie alle zusammenfügen!

Der Workflow in Abbildung 11 zeigt die Clickstream-Analyse
Prozess, kombiniert die Ansätze aller drei Datenköche. Es ist unterteilt in
drei Teile: Datenvorverarbeitung (1), Datenvorverarbeitung zur Visualisierung (2),
und Datenvisualisierung (3).

Möchten Sie es selbst versuchen? Suchen und öffnen / laden Sie den in Abbildung 11 gezeigten Workflow vom Hub hier herunter.

Abbildung 11: Workflow für die Clickstream-Analyse. Von links: Datenzugriff, Feature-Engineering, Datenvorbereitung für die Visualisierung und Visualisierung von Clickstream-Daten in interaktiven zusammengesetzten Ansichten.

About BusinessIntelligence

Check Also

Deep Learning und Analytics: Was ist der Schnittpunkt?

Neue Technologien für künstliche Intelligenz (KI), insbesondere die automatisierten Algorithmen, die Analyseplattformen bevölkern, beeinflussen und …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.