• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Wird schon stimmen – aggregierte Daten und das Simpson-Paradoxon

Wer mit aggregierten Daten arbeitet, weiß, dass dabei Detailinformationen verloren gehen. Wir gehen natürlich davon aus, dass die Effekte, die wir in den aggregierten Daten sehen, auch auf einer detaillierteren Ebene Bestand haben und dort lediglich durch genauere Aussagen ergänzt werden. Allerdings kann es passieren, dass Zusammenhänge sich zwischen verschiedenen Detailebenen derselben Daten komplett umkehren, wie das Simpson-Paradoxon eindrücklich zeigt. Idealerweise nutzen wir zur Datenanalyse interaktive Tools, die es uns leicht machen, von der High-Level-Ansicht zu detaillierteren Ansichten eines ausgewählten Aggregats und wieder zurück zu gelangen. So können wir die Daten aus verschiedenen Perspektiven beleuchten und wirklich stichhaltige Schlussfolgerungen ziehen. Um die Wichtigkeit dieser Drilldown-Möglichkeiten zu verdeutlichen, wollen wir uns hier das Simpson-Paradoxon näher anschauen.

Bereits 1899 beschrieben und später benannt nach dem erst 2019 verstorbenen britischen Statistiker Edward Hugh Simpson, besteht das Paradoxon darin, dass Mengenverhältnisse (z.B. Zulassungsquoten an Universitäten) sich zwischen Gruppen (z.B. Männern und Frauen) auf hochaggregierter Ebene in die eine Richtung unterscheiden, auf einer detaillierten Ebene (z.B. je Studiengang) aber in die andere Richtung. Dieses Phänomen lässt sich leicht veranschaulichen und ist doch schwer zu akzeptieren. Wir wollen es anhand eines konkreten Beispiele erläutern und mögliche Lösungswege aufzeigen.

Nehmen wir den Fall eines Unternehmens, dass die Erfolgsrate zweier Vertriebsabteilungen bei der Erreichung von Abschlüssen vergleichen will. Dabei betrachten wir die Abteilungen Nord und Süd und die Kategorien Produkte und Services. Wir zählen jeweils die generierten Opportunities, also die möglichen Abschlüsse, und die tatsächlich erfolgreichen Abschlüsse und berechnen daraus die Abschlussquote.

Die Abteilung Nord hat also beispielsweise von 8 generierten Opportunites in der Kategorie Produkte 4 erfolgreich zum Abschluss geführt und damit eine Erfolgsquote von 50% erzielt.

Bei der Betrachtung der einzelnen Kategorien geht die Abteilung Süd demnach klar als Sieger hervor. Sowohl bei den Produkten (30 von 48 Opportunities gewonnen = 63%) als auch bei den Services (11 von 12 = 92%) verzeichnet sie eine höhere Abschlussquote als die Abteilung Nord (50% bzw. 87%). Betrachten wir aber die Situation unabhängig von den Kategorien und teilen die Gesamtzahl der Abschlüsse einer Abteilung durch die Gesamtzahl ihrer Opportunities, dann hat die Abteilung Nord klar die höhere Erfolgsquote (49 von 60 = 82%, gegenüber 41 von 60 = 68%). Wie kann das sein? Und welche Aussage ist nun die richtige? Schauen wir uns die Daten etwas visueller an.

Entscheidend sind hier die Abhängigkeiten der Zahlen untereinander. Einerseits sehen wir, dass die Aktivitäten unserer beiden Abteilungen nicht gleichmäßig auf die beiden Kategorien verteilt sind. Abteilung Süd generiert Opportunities hauptsächlich in der Kategorie Produkte, während Abteilung Nord größtenteils Services vertreibt. Andererseits scheint die Erfolgsquote dieser beiden Kategorien sich systematisch zu unterscheiden. Beide Abteilungen tun sich offenbar mit dem Vertrieb der Produkte deutlich schwerer als mit dem Vertrieb der Services. Das Zusammenspiel beider Effekte bedeutet, dass die Gesamtquote von Abteilung Süd stark von den 63% in der grundsätzlich schwierigeren Kategorie Produkte bestimmt wird, während die Gesamtquote von Abteilung Nord vor allem die 87% in der insgesamt erfolgsträchtigeren Kategorie Services widerspiegelt. Insbesondere die Differenz zwischen diesen beiden Werten (87% > 63%) sorgt also dafür, dass sich der Effekt in der Summe im Vergleich zur Einzelbetrachtung umkehrt und Abteilung Süd unterm Strich schlechter dasteht: Das Simpson-Paradoxon tritt genau dann auf, wenn die betreffende Quote stärker von derjenigen Variablen abhängt, die wir in der aggregierten Sicht ignorieren (hier die Kategorie), als von den Gruppen, die wir vergleichen wollen (hier die Abteilungen).

In diesem Beispiel dürfen wir also die unterschiedlichen Startbedingungen beider Abteilungen nicht außer Acht lassen, wenn es uns darum geht, den Sieger zu küren. Je nach Fragestellung können aber sowohl die Gesamtquote als auch die Einzelquoten je Kategorie die richtige Antwort liefern. Aufholbedarf bei der Effizienz besteht klar für die Abteilung Nord. Unter den augenscheinlich gleichen Bedingungen schafft sie es seltener, Opportunities zum Abschluss zu bringen, als Abteilung Süd. Andererseits kann Abteilung Süd aus den Gesamtquoten für sich einen Anreiz ableiten, stärker im Bereich Services aktiv zu werden, da hier höhere Abschlussquoten winken.

Moderne Datenanalyse erfordert kein Statistikstudium, aber Gründlichkeit und einen wachsamen Blick. Geeignete Tools können dabei eine Schlüsselrolle spielen. Schreiben Sie uns, wenn auch Sie einen spannenden Use Case für Tableau haben, bei dem Sie Unterstützung benötigen.

[button URL=“mailto: info@tilde.matrix-test.com“]Schreiben Sie uns[/button]