Heute ist der letzte Tag der Dashboard-Week. In den letzten Tagen hatte ich viel Spaß. Ich bin gespannt, was unsere heutige Datenquelle sein wird, weil Pouya gestern meinte, dass die Aufgabe heute eine sehr Spannende sein würde.
Unsere Aufgabe ist es, die Daten aus Dirk Strobels (Unser Geschäftsführer) Artikel auf www.taz.de zu analysieren.
Datenquelle: Hier
Im ersten Schritt habe ich mit der Datenvorbereitung angefangen. Nach ein paar Änderungen wurde ich mit einer Herausforderung konfrontiert: Die Spalte „words_wo_stopwords“ ist eine Liste von Wörtern, deren delimiter aus mehreren Zeichen bestand ), ( .
„Text To Columns“-Tools in Alteryx mit vier Buchstaben als Delimiters bedeutet Buchstabe 1 oder Buchstabe 2 oder Buchstabe 3 oder Buchstabe 4. Deshalb habe ich mit „RegEx“ versucht eine Lösung für dieses Problem zu finden und dann ist mir etwas eingefallen. Kann ich den Delimiter nicht einfach mit einer „Replace“-Funktion im „Formel-Tool“ ändern? Ja, das funktioniert.
Im zweiten Schritt habe ich mit der Visualisierung in Tableau weiter gemacht. Das folgende Dashboard ist das Ergebnis. Folgende Visualisierung habe ich erstellt:
In der Mitte siehst du eine Liste von Dirk‘s Artikeln im Internet. Wenn du auf einen Artikel klickst, erhältst du unten und rechts weitere Informationen. Unten siehst du detaillierte Informationen über die Anzahl der verschiedenen Wortarten, wie zum Beispiel Adverb, Verb und Artikel. Auf der rechten Seite siehst du eine Liste mit wiederholenden Wörtern im Beitrag.