Blog

How-To

Datenvisualisierung mittels WordCloud

Herausforderung

Eine zentrale Herausforderung in vielen Unternehmen und Organisationen ist große Mengen an Daten zu aggregieren bzw. wie das im Neudeutsch heißt „managementkompatibel“ aufzubereiten.Gerade im Kontext des kaum begreifbaren Datenwachtums das der IT-Analyst IDC für die kommenden Jahre voraussagt (es werden laut deren Analyse 2015 weltweit  knapp 8 Zetabytes oder 8 Trillionen Gigabyte Daten sein, siehe [1]) wird es immer wichtiger werden effiziente Mittel zu finden, strukturierte, semi-strukturierte und unstrukturierte Daten zu visualisieren und Sinnvolles darin zu finden. Aber selbst scheinbar überschaubare Datenmengen wie zum Beispiel der gerade veröffentlichte 185 Seiten starke Koalitionsvertrag der CDU / CDU und SPD stellt die Konzentration eines Managers vor eine unlösbare Aussage, wenn er sich in wenigen Minuten einen groben Überblick über das Inhaltsprofil verschaffen will.
Es sei denn der Manager ist Nummer 5 ‚-) [5].

Lösungsansatz

Eine triviales Beispiel so einer Datenaggregation soll anhand eben diese Koalitionsvertrages demonstriert werden. Hierzu kann mittels ein paar einfacher Shell-Befehle  (siehe [1]) zunächst ein PDF-Dokument in eine ASCII Repräsentation verwandelt  werden. Diese sollte im Anschluss um nicht druckbare Zeichen und Stop-Wörter in der Sprache des Textes (z.B. und, aber, weil) bereinigt werden. Danach lässt sich die Liste zum Beispiel alphabetisch sortieren oder Worthäufigkeiten berechnen. Für unser Beispiel wird sie letztlich mittels eines Wordcloud Generator (siehe [2]) in eine entsprechend visualisierte Form gebracht. Natürlich ist theoretisch auch eine entsprechenden API und eine vollständige Integration in ein Dokumentenmanagementsystem möglich.

Ergebnisinterpretation

Das Ergebnis auf die 50 häufigsten Wörter hochaggregiert sieht wie folgt aus:

Wordcloud

Beim Betrachten des Resultats für den Entwurf des Koalitionsvertrages kann man nun auf einen Blick erkennen, was die wesentlichen Schwerpunkte des Quelldokumentes sind. In unserem Beispiel liegt ein sehr hohes Gewicht der Koalitionäre auf  Deutschland (167 Nennungen), den Menschen (126 Nennungen), Europa (113 Nennungen) sowie der Sicherheit (96 Nennungen).  Die Gesellschaft (95 Nennungen) und Unternehmen (83 Nennungen) folgen.  Arbeit (79 Nennungen) , Innovation (75 Nennungen), Entwicklung (75 Nennungen) und Bildung (67 Nennungen) als Schlüssel für Wohlstand (72 Nennungen) sind da schon weniger häufig vertreten. Bleibt zu hoffen dass es nicht bei einem ähnlich vehementen Gefälle von Generischer Zielformulierung zu letztlicher Umsetzung bleibt. Eine politische Analyse des Inhaltes soll aber hier ebenfalls Fachleuten überlassen werden.

Referenzen

[1] J. Gantz and D. Reinsel, Extracting Value from Chaos, IDC Iview, Juni 2011

[2] http://skipperkongen.dk/2011/09/07/creating-a-word-cloud-from-pdf-documents/

[3] http://www.wordle.net/

[4] https://docs.google.com/file/d/0B9F6ub8wD7gqOWtMa29LVGoyZ2s/edit

[5] http://de.wikipedia.org/wiki/Nummer_5_lebt!

zurück zur Übersicht