Freitag , September 25 2020

Geführte Visualisierung und geführte Erkundung

Klicken Sie hier, um mehr über den Co-Autor Scott Fincher zu erfahren.

Klicken Sie hier, um mehr über den Co-Autor Paolo Tamagnini zu erfahren.

Klicken Sie hier, um mehr über den Co-Autor Maarit Widmann zu erfahren.

Egal, ob wir es sind erfahrene Daten
Wissenschaftler oder Wirtschaftsanalytiker, eine unserer täglichen Routinen ist die einfache und
reibungslose Extraktion der relevanten Informationen aus unseren Daten unabhängig von der
Art der Analyse, mit der wir konfrontiert sind.

Eine gute Vorgehensweise hierfür ist die Verwendung von Datenvisualisierungen: Diagramme und Grafiken, um die Komplexität der Daten visuell zusammenzufassen. Das erforderliche Fachwissen für die Datenvisualisierung kann in zwei Hauptbereiche unterteilt werden:

  • Die Fähigkeit zur korrekten Vorbereitung
    Wählen Sie eine Teilmenge der Datensatzspalten aus und visualisieren Sie sie rechts
    Diagramm
  • Die Fähigkeit, die zu interpretieren
    visuelle Ergebnisse und treffen die richtigen Geschäftsentscheidungen basierend auf dem, was ist
    angezeigt

In diesem Beitrag werden wir sehen, wie visuelle Schnittstellen für Business Intelligence, d. h. geführte Analysen, Ihnen beim Erstellen von Visualisierungen im laufenden Betrieb helfen und auch komplexe Muster über diese Visualisierungen identifizieren können.

Bei der geführten Visualisierung geht es um das Führen
der Business Analyst von Rohdaten zu einem benutzerdefinierten Diagramm. Das
Der Business Analyst wird durch den Prozess geführt und aufgefordert, die Spalten auszuwählen
visualisiert werden, während alles andere automatisiert ist. Im Gegensatz dazu navigiert die geführte Erkundung
der Datenwissenschaftler aus großen Datenmengen zu einem
automatisch berechneter Satz von Visualisierungen, die statistisch interessant sind
Muster.

Im letzten Abschnitt dieses Artikels
Wir fassen die gängigen Praktiken und Strategien zusammen, die zum Erstellen dieser geführten Analysen verwendet werden
Anwendungen wie die Wiederverwendung von Funktionen durch gemeinsame Nutzung von Komponenten.

Führen eines Business Analyst von der Datenauswahl zu den richtigen Diagrammen

Die Herausforderungen bei der Datenvisualisierung sind vielfältig. Oft enthalten unsere vorliegenden Daten Werte in Datentypen, die für unsere Analyse nicht geeignet sind. Wie berechnen wir beispielsweise die Anzahl der Tage zwischen zwei Ereignissen, wenn die Datumswerte als Zeichenfolge gemeldet werden? Die Zahlen "6" und "7" sind als Zeichenfolge sinnvoller, wenn sie Freitag und Samstag angeben, nicht wahr? Diese Art von Datenqualitätsproblemen wirkt sich nicht nur darauf aus, wie erfolgreich wir die Daten weiter analysieren, sondern auch auf die Auswahl der Diagramme für die Berichterstellung. Wenn wir beispielsweise Werte nach Zeit zeichnen oder einem Wochentag eine Farbe zuweisen möchten, müssen diese Spalten die entsprechenden Datentypen haben.

Aber auch mit perfekten Daten haben wir
Sie erhalten nicht immer eine optimale Visualisierung, die zeigt, wie die Daten sind
Beziehungen in den Daten entwickelt oder hervorgehoben. Das richtige Diagramm hängt von ab
Unser Ziel: Wollen wir eine oder mehrere Funktionen visualisieren? Sind die Funktionen
kategorisch oder numerisch? Hier kommt es auf unser Know-how als Unternehmen an
Analyst zur Auswahl des Diagramms, das unsere Botschaft am besten kommuniziert.

Die Auswahl des besten Diagramms ist mit der zunehmenden Anzahl verfügbarer Diagramme und Visualisierungswerkzeuge nicht unbedingt einfacher geworden. Je einfacher wir es uns machen, ein Diagramm zu erstellen (Visualisierung), desto schwieriger wird es außerdem, in den Prozess einzugreifen (geführt). Im Idealfall möchten wir unsere Geschäftskompetenz – damit der Geschäftsanalyst eingreifen und sein Wissen hinzufügen kann – mit den automatisierten Data Science-Aufgaben kombinieren, d. H. Die Visualisierung automatisch basierend auf der bereitgestellten Expertise erstellen.

Geführte Visualisierung: Automatisieren, wenn möglich, und Interagieren bei Bedarf

Die Kosten vieler All-in-One-Geräte
Visualisierungslösungen bestehen darin, dass sie nicht den gesamten Datenprozess berücksichtigen
Visualisierung vom Zugriff auf die Rohdaten bis zum Herunterladen eines benutzerdefinierten Diagramms.
Mit diesen Werkzeugtypen würden wir ein Diagramm erhalten, obwohl wir unsauber bereitgestellt haben
Daten. Und wenn wir nur eine Teilmenge der Daten visualisieren wollten, würden wir
müssen wahrscheinlich zuerst die Eingabedaten filtern. Ohne die Eingabedaten zu filtern
Erstens könnte eine Grafik, die die Umsatzentwicklung für das letzte Jahr zeigt, unsere einzige sein
Wahl, da die Daten aus Verkäufen für das ganze Jahr bestehen: nicht das
nützlich, wenn wir nur an Entwicklungen im letzten Quartal interessiert sind.

Die geführte Visualisierung bietet eine umfassendere Ansicht des Prozesses zum Erstellen von Diagrammen, wie in Abbildung 1 dargestellt.

Abbildung 1: Der Prozess der Datenvisualisierung vom Zugriff auf Rohdaten bis zum Herunterladen und Bereitstellen eines benutzerdefinierten Diagramms. Die Guided Visualization-Anwendung berücksichtigt den gesamten Prozess und ermöglicht die Benutzerinteraktion in der Mitte.

Auch in der Datenbereinigungsphase
Fortgeschrittene Geschäftsanalysten können Spalten, die nur enthalten, leicht übersehen
konstante Werte oder numerische Spalten mit wenigen unterschiedlichen Werten. Terminzeit
Werte sind leichter zu erkennen, aber wir müssen sicherstellen, dass wir nicht verlieren oder
Ändern Sie alle Informationen, wenn wir ihren Datentyp konvertieren. Angesichts dieser Herausforderungen
Wir wollen so viele dieser Aufgaben wie möglich automatisieren, aber dem nicht vertrauen
Ergebnisse blind. Im Prozess der Guided Visualization ist der Business Analyst
kann die Ergebnisse nach jedem Prozessschritt überprüfen und bei Bedarf weiter anwenden
Änderungen.

Nach der Datenaufbereitung und Kolumne
Auswahlschritt, wir sind bereit, mit der Erstellung der ersten Version des fortzufahren
Graph. Wenn wir gefragt würden, ob wir ein Liniendiagramm, ein Balkendiagramm usw. bevorzugen,
Nur wenige von uns konnten diese Optionen in ihren Köpfen aufbauen und die Entscheidung treffen. Im
Durch den geführten Visualisierungsprozess wird die Auswahl des entsprechenden Diagramms erleichtert
über ein Dashboard, das eine Sammlung von potenziellen und relevanten zeigt
Grafiken. An dieser Stelle wird das Fachwissen eines Business Analysten wieder eingebracht
der Prozess: Welches Diagramm erfüllt meinen Zweck am besten? Sind der Titel und die Bezeichnungen
informativ? Ist der Bereich des Diagramms angemessen? Diese Änderungen können sein
über das interaktive Dashboard angewendet. Sobald Sie fertig sind, ist der letzte Schritt zu
Laden Sie das Diagramm als Bilddatei herunter.

Workflow für geführte Visualisierung

Der geführte Visualisierungsprozess als
Die oben beschriebene Logik erfordert eine Logik, die die Prozessschritte aus Daten automatisiert
Bereinigen, um die zu visualisierenden Spalten auszuwählen und auf eine Reihe relevanter Spalten zuzugreifen
Diagramme, Auswählen und Anpassen der Diagramme bis zum Herunterladen des Finales
Grafiken als Bilddateien. Der Prozess wird teilweise von den Geschäftsanalysten beeinflusst
Entscheidungen an den Interaktionspunkten.

Schauen wir uns also den Workflow für die geführte Visualisierung selbst und die damit verbundenen Schritte an. Abbildung 2 zeigt diese Schritte. Jede Komponente ermöglicht die Benutzerinteraktion während des Prozesses, während die Berechnungen zwischen den Komponenten vollautomatisch im Hintergrund erfolgen. Sie können den Workflow vom Hub herunterladen.

Abbildung 2: Ein Workflow für die geführte Visualisierung, der nach Interaktion in den Prozessschritten zum Lesen der Daten, Auswählen der zu visualisierenden Spalten, Anpassen der Diagramme und Herunterladen der endgültigen Bilder fragt. Alle anderen Prozessschritte, wie das Konvertieren der Domänen der Spalten und das Entfernen von Spalten mit nur konstanten Werten, werden automatisch im Hintergrund ausgeführt.

Komponenten ermöglichen die Interaktion: Hochladen -> Auswählen
Spalten -> Auswählen
Domänen -> Anpassen -> Herunterladen

  • Der erste Interaktionspunkt ist
    aktiviert durch die Komponente "Hochladen", bei der der Geschäftsanalyst a auswählt
    Datendatei
  • Der zweite Interaktionspunkt ist
    aktiviert durch die Komponente "Spalten auswählen". Es erzeugt eine interaktive
    Dashboard, über das der Business Analyst auswählen kann, welche Spalte (n) verwendet werden sollen
    visualisieren
  • Der dritte Interaktionspunkt, der
    Die Komponente "Domänen auswählen" ist optional. An diesem Punkt das Geschäft
    Der Analyst kann die Datentypen der ausgewählten Spalten manuell ändern.
  • Der vierte Interaktionspunkt ist
    die Komponente "Anpassen". Es zeigt eine Sammlung relevanter Diagramme basierend
    auf die Anzahl der Spalten und ihre Datentypen. Hier der Business Analyst
    Sie können ein oder mehrere Diagramme auswählen, ihre Beschriftungen ändern, sie zoomen und anwenden
    andere visuelle Veränderungen
  • Der fünfte und letzte Interaktionspunkt
    ist die Komponente „Download“, mit der das ausgewählte und heruntergeladen werden kann
    Angepasste Grafiken als Bilder.

Natürlich stimmen nicht alle spezifischen Anforderungen des Geschäftsanalysten mit den oben beschriebenen Schritten der geführten Visualisierung überein. Dieselbe Logik bleibt jedoch in erweiterten und geänderten Versionen desselben Prozesses nützlich. Es ist beispielsweise einfach, mehr Interaktionspunkte als Komponenten in unseren Workflow einzufügen (in Abbildung 2). Wir könnten auch mehr Grafiken bereitstellen, als der bisherige Prozess liefert (Abbildung 3). Dazu fügen wir neue Knoten in die in Abbildung 4 gezeigten verschachtelten Komponenten ein.

Abbildung 3: Einige der möglichen Diagramme, die durch den geführten Visualisierungsprozess generiert werden, wenn der Geschäftsanalyst zwei Spalten ausgewählt hat.
Abbildung 4: A. Workflow mit einem Prozessschritt (die Komponente „Anpassen“ im Workflow, der auf dem Hub verfügbar ist) im geführten Visualisierungsprozess. Hier wird eine Auswahl von Diagrammen basierend auf der Anzahl und dem Typ der ausgewählten Spalten generiert. Jede Auswahl von Diagrammen kann mit anderen Knoten zur Visualisierung in die entsprechende Komponente erweitert werden.

Führen eines Datenwissenschaftlers von unerforschten Daten zu interessanten Daten

Erfahrene Benutzer, wie beispielsweise Datenwissenschaftler, finden möglicherweise auch den Prozess der Visualisierung Daten herausfordernd, insbesondere wenn die Daten aus einem unerforschten und komplexen Datensatz stammen. Mit komplex meinen wir beispielsweise Hunderte von Spalten mit kryptischen Namen. Dieses Problem tritt häufig in der frühesten Phase des Analyseprozesses auf, in der der Experte die Daten verstehen muss, bevor er Annahmen treffen kann. Die Datenvisualisierung ist ein leistungsstarkes Werkzeug für die Datenexploration. Wenn wir jedoch Hunderte unbekannter Spalten haben, was muss zuerst visualisiert werden?

Automatische Visualisierung interessanter Muster zwischen Spalten

Ein Ansatz, um die schnell zu finden
Interessante Spalten zur Visualisierung sind statistische Tests. Hier nehmen wir eine
gute Probe unseres wirklich großen Datensatzes und wir fangen an, eine Reihe von zu berechnen
Statistiken für einzelne Spalten, Spaltenpaare und sogar Spaltengruppen.
Dies ist in der Regel rechenintensiv, daher sollten wir sicherstellen, dass die
Die Stichprobe, die wir nehmen, ist nicht zu groß.

Mit diesem Ansatz finden wir interessante Muster – zum Beispiel das am meisten korrelierte Spaltenpaar (Abbildung 6), eine Spalte mit einer verzerrten Verteilung oder eine mit einer Vielzahl von Ausreißern. Die statistischen Tests berücksichtigen natürlich den Bereich der Daten. Wenn wir beispielsweise eine interessante Beziehung zwischen einer kategorialen und einer numerischen Spalte finden möchten, würden wir stattdessen keine Korrelationsmaße verwenden, sondern den ANOVA-Test (Abbildung 7).

Letztendlich werden wir eine lange Liste von finden
zu visualisierende Muster und Beziehungen. Was dann? Gut basierend auf dem, was wir
Wenn Sie visualisieren möchten, können wir für jedes interessante die beste Visualisierung finden
Muster. Wie visualisieren wir die am meisten korrelierten Spalten? Wir können eine Streuung verwenden
Handlung. Wie können wir Ausreißer in einer Spalte anzeigen? Wir könnten ein Boxplot verwenden. Finden
Die beste Visualisierung für jedes interessante Muster ist ein entscheidender Schritt und könnte
brauche etwas Visualisierungshintergrund. Aber was wäre, wenn wir ein Werkzeug hätten, das dazu in der Lage wäre?
Finden Sie diese Muster automatisch zuerst und visualisieren Sie sie dann auch in der
am besten geeignetes Diagramm? Dann müssen wir nur noch die Daten und das Tool bereitstellen
gibt uns im Gegenzug Visualisierungen.

Guided Exploration Workflow

Dies ist, was der Workflow für Guided Exploration tut. Sie können es in Abbildung 5 sehen: Es liest die Daten, berechnet die Statistiken und erstellt ein Dashboard (Abbildung 6), das sie visualisiert. Schön, oder?

Abbildung 5: Ein Workflow für die geführte Erkundung, der Rohdaten anfordert, Statistiken zu den Daten berechnet und die gefundenen Muster und Beziehungen automatisch in einem Dashboard visualisiert. Dies kann Datenwissenschaftlern helfen, komplexe Daten schnell zu untersuchen und zu verstehen.
Abbildung 6: Teile des Dashboards, die vom Guided Exploration-Workflow generiert wurden. Die Diagramme zeigen stark korrelierte und invers korrelierte Spalten in Streudiagrammen für die numerischen Spalten und in einem Sunburst-Diagramm für die kategorialen Spalten. Das automatisch generierte Dashboard kann Datenwissenschaftlern helfen, komplexe Daten zu verstehen und zu untersuchen.

Der Mensch in der Schleife

In Rohdaten die intensivsten Muster
sind eigentlich das Ergebnis von Spalten von schlechter Qualität: zwei Spalten, die sind
praktisch identisch würde anschließend eine hohe Korrelation ergeben; oder Spalten mit
zu viele konstante oder fehlende Werte und so weiter. Darüber hinaus könnten wir haben
Spalten mit offensichtlichen Beziehungen, weil sie beispielsweise dasselbe messen
was aber mit verschiedenen einheiten. Beispiele für diese Muster sind in den Figuren gezeigt
6 und 7.

Unabhängig von der Ursache ist es wahrscheinlich, dass unsere Ergebnisse enttäuschend langweilig sind, wenn wir zum ersten Mal Statistiken visualisieren, die anhand von Rohdaten berechnet wurden. Aus diesem Grund befindet sich das Dashboard in einer rekursiven Schleife, wie im Workflow in Abbildung 5 gezeigt.

Dies funktioniert so, dass wir die Spalten, die aus irgendeinem Grund nicht interessant sind, iterativ entfernen können. Wir werden zum Human-in-the-Loop und wählen iterativ aus, welche Datenspalten beibehalten werden sollen und welche nicht, basierend auf dem, was das Dashboard uns zeigt. Nach einigen Iterationen sehen wir eine Reihe interessanter Diagramme. Jetzt müssen wir uns nur noch zurücklehnen, entspannen, den Workflow durch eine univariate und multivariate Analyse führen und wichtige Informationen extrahieren.

Abbildung 7: Diese beiden Visualisierungen, ein gestapeltes Histogramm und ein bedingtes Box-Diagramm, zeigen sowohl die Beziehung zwischen der Verteilung einer numerischen Spalte (DepTime) als auch einer kategorialen Spalte (delay_class). Wir können sehen, wie die beiden Teilmengen von Daten eine unterschiedliche Verteilung annehmen. Wenn wir die Daten mit den beiden kategorialen Werten "Verzögerung" und "Keine Verzögerung" partitionieren, können wir dies mithilfe eines ANOVA-Tests bestätigen.

Ausführen des Modells

Sie können den Workflow vom Hub herunterladen und auf Ihrem Computer bereitstellen Server und führen Sie es über das WebPortal aus und verwerfen Sie – Iteration nach Iteration – Spalten aus einem beliebigen Webbrowser. Am Ende der Schleife liegt es an Ihnen, was Sie mit den wenigen verbleibenden relevanten Spalten tun möchten. Sie können einfach die Ergebnisse ausgeben oder dem Workflow weitere Knoten hinzufügen und Ihre Analyse sofort um andere Techniken erweitern. Sie können beispielsweise ein einfaches Regressionsmodell trainieren, wenn Sie die glückliche Korrelation mit Ihrem gerade gefundenen Ziel haben – dank dieses Prozesses.

Anpassbare und wiederverwendbare Prozessschritte

Wenn Sie sich die beiden genau ansehen
Bei den oben dargestellten Workflows werden Sie feststellen, dass es einige Ähnlichkeiten gibt
zwischen ihnen. Dinge wie das Layout, interne Dokumentation, Gesamtstil,
und Funktionalität sind über diese Workflows hinweg konsistent. Dies ist beabsichtigt und
Sie können diese Konsistenz auch in Workflows integrieren.

Layout und Seitendesign

Mithilfe des neu aktualisierten Layoutfensters in der WebPortal-Vorbereitung können Sie konsistent formatierte Seiten mit Auffüllungen, Titeln, Kopf- und Fußzeilen usw. erstellen. Seitenleisten – alles, was für eine professionell aussehende kombinierte Ansicht erforderlich ist.

In Kombination mit einem anfänglichen CSS-Editor-Knoten können Sie Präsentationselemente wie Schriftauswahl, Größe und Platzierung in einer einzelnen Komponente definieren und diese anschließend an alle nachfolgenden Knoten weiterleiten für eine konsistente Anzeige. Dies sind alle Elemente des Layouts und des Seitendesigns, die in den Workflows für geführte Visualisierung und geführte Erkundung verwendet wurden: Anordnen der Ansichten der Komponenten, die Webseiten entsprechen, Verbessern der Anzeige und Konsistenz mit dem CSS-Stil und Anpassen des Erscheinungsbilds des WebPortals mit Dynamik Header und Seitenleisten.

Wiederverwendung und Freigabe von Komponenten

Über die Ähnlichkeit des Erscheinungsbilds hinaus
Zwischen Workflows haben wir auch die Funktionalität zwischen Workflows wiederverwendet, wo dies der Fall war
machte Sinn, dies zu tun. Warum sollten Sie Workflow-Funktionen von Grund auf neu erstellen?
ob es bereits in einem vorhandenen Workflow implementiert und getestet wurde? Es gibt
Keine Notwendigkeit, das Rad neu zu erfinden, oder?

Für allgemeine Aufgaben, die wir brauchten
in diesen Workflows implementieren – Dinge wie das Hochladen von Dateien, das Auswählen von Spalten,
Speichern von Bildern usw. – es gibt eine Komponente.

Mit dem neuen Hub haben Sie jetzt auch
die Möglichkeit, Komponenten und Knoten direkt in unsere eigenen Workflows zu importieren!

Komponenten vs. Metanoden

Ein weiterer Bereich der Konsistenz in diesen Workflows war die Art und Weise, wie wir Komponenten im Gegensatz zu Metanoden verwendeten. Wir haben uns frühzeitig bewusst dafür entschieden, Komponenten zu verwenden, wenn wir wussten, dass ein Benutzerinteraktionspunkt im Webportal erforderlich ist. Wenn der Benutzer beispielsweise aufgefordert wird, Spalten für ein Modell auszuwählen oder möglicherweise ein bestimmtes Diagramm zur Visualisierung von Daten auszuwählen, wurde diese Option immer in Komponentenform aufgenommen.

Abbildung 9: Beispiele für gemeinsam genutzte Komponenten, die häufig wiederholt gekapselt werden Aufgaben in den geführten Visualisierungs- und geführten Erkundungsworkflows und ermöglichen die Benutzerinteraktion in der von ihnen erzeugten Ansicht.

Wir haben jedoch auch regelmäßig Metanoden verwendet, aber
aus verschiedenen Gründen. Wo logische Operationen, automatisierte Funktionen oder einfach
Eine einfache Organisation und Bereinigung waren erforderlich, hier befanden sich Metanoden
Bei Bedarf verschachtelten wir Metanoden ineinander – manchmal
mehrmals. Bei diesem Prozess geht es darum, sicherzustellen, dass der Workflow sauber ist
Schauen Sie und ist leicht zu verstehen.

Überlegungen zum Workflow-Design

Wenn Sie Ihre eigenen Workflows entwerfen, sollten Sie von Anfang an über diese Methode zur Verwendung von Komponenten und Metanoden nachdenken. Beginnen Sie vor dem Ziehen und Ablegen einzelner Knoten in einen Workflow zunächst mit leeren Komponenten und Metanoden, die die Gesamtfunktionalität darstellen. Es könnte ungefähr so ​​aussehen:

Abbildung 10: Die Prozessschritte im Workflow für die geführte Visualisierung. Jede Komponente in der oberen Box entspricht einem Interaktionspunkt, und jede Metanode in der unteren Box entspricht einem automatisierten Prozessschritt.

Zusammenfassung

Die Prozesse der geführten Visualisierung
und Exploration erfordern eine Reihe von Entscheidungen: Was sind die wichtigsten
Spalten für meinen Zweck? Wie visualisiere ich sie? Sind alle Spalten notwendig, um
in den Daten behalten? Haben sie die entsprechenden Datentypen?

Ein Business Analyst könnte dies leicht erklären
Die Entwicklung wird durch ein Diagramm dargestellt, wobei jedoch verschiedene Arten der Visualisierung verglichen werden
Die Entwicklung kann außerhalb seines Interesses oder seines Fachwissens liegen. Auf dem anderen
Jemand, der ein Experte für das Erstellen ausgefallener Grafiken ist, muss dies nicht unbedingt tun
das beste Verständnis für ihre Interpretation. Deshalb eine automatisierende Anwendung
Die Schritte, die Fachwissen außerhalb des Bereichs erfordern, können beim Ausführen praktisch sein
tägliche Aufgaben.

Hier haben wir gezeigt, wie ein Geschäft
Analysten können mit Rohdaten beginnen und relevante und nützliche Daten generieren
Visualisierungen. Darüber hinaus haben wir einen Workflow vorgestellt, der Daten helfen kann
Wissenschaftler erhalten ein besseres Verständnis komplexer Daten.

About BusinessIntelligence

Check Also

Was ist die Voraussetzung für die Verbindung zu einer Datenbank in der SQL-Datenbank?

Power BI Desktop ist eines der wichtigsten Tools zur Datenprüfung. Power BI selbst kann jedoch …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.