Der Big Data-Zyklus – eine Erinnerung

Es gibt eine Menge von Definitionen von Big Data. Definitionen sind per se weder richtig noch falsch – sollten oder müssten aber zweckmäßig, das heisst zielführend sein.

So ist es kein Wunder, wenn Sie 8 Antworten bekommen nachdem Sie 5 Leute gefragt haben. Online- und Versandhändler haben eine andere Definition als die Anbieter von Analyse- und Prognose-Software. Deren Definition kann sich von jener der Anbieter passender Hardware unterscheiden. Allen gemein ist, dass „es irgendwas mit einer Menge Daten“ zu tun hat.

 

IBM-Big-Data-Definitions-Oct2012

(Quelle: Marketingcharts.com – obwohl von 2012 ist kaum davon auszugehen, dass heute alle Befragten einer Meinung wären)

 

„Eine Menge Daten“ trifft nur einen kleinen Teil der Sache. Mir gefällt die Definition am besten die Matthew Aslett von the451group bereits 2010 (im digitalen Zeitalter so etwas wie die Steinzeit) vorgeschlagen hat:

„Big data is a term applied to data sets that are large, complex and dynamic (or a combination thereof) and for which there is a requirement to capture, manage and process the data set in its entirety, such that it is not possible to process the data using traditional software tools and analytic technique within tolerable time frames.“

In einem Satz:

Big Data ist deshalb big, weil die Menge und die Komplexität der Daten quasi alle Ressourcen an ihre Grenzen bringt – mindestens.

Damit sind nicht nur die technischen oder technologischen Mittel gemeint, sondern auch die Fachleute, die sich um die Auswertung, Analyse, Interpretation, das Engineering kümmern.

Und spätestens jetzt ist es Zeit darauf hinzuweisen, dass Big Data und alles, was drumherum erforderlich ist um eine wirtschaftlich sinnvolle und erfolgreiche Ausbeutung Nutzung der Bestands- und Bewegungsdaten zu bewerkstelligen keine statische Veranstaltung ist.

Nicht statisch heisst dynamisch

Und dynamisch heisst, dass wir es mit Prozessen zu tun haben – einem Zyklus, in dem noch mehr Daten produziert werden. Kein Teufelskreis, aber so ähnlich…

Big Data-Zyklus

 

Was heisst das?

  1. Daten sind im Unternehmen vorhanden. So allein auf Bändern, Lochkarten oder Festplatten sind sie erst einmal neutral. Sie tun nichts, sind neutral.
  2. Jetzt setzt die Analyse der Daten an. Hypothesen werden aufgestellt, statistische Methoden kommen zum Einsatz und (vereinfacht gesprochen) aus den Daten werden
  3. Informationen – auch sie allein helfen oder schaden in diesem Stadium niemandem, daher ist der folgerichtige nächste Schritt die
  4. Interpretation: Was bedeuten diese Informationen? Gibt es Zusammenhänge? Welcher Art sind diese Zusammenhänge? Wie und an welcher Stellschraube kann ich drehen, um dieses oder jenes (gewünschte) Ergebnis zu erzielen?
  5. Jetzt heisst eine Entscheidung zu treffen, an welchen Parametern wie justiert wird (auf Basis der Erkenntnisse aus den vorhergehenden Schritten) – und diese umzusetzen.
  6. Treffen die Annahmen zu? Bewegen sich die vorher festgelegten KPIs in die gewünschte Richtung? Gibt es Seiteneffekte? Wenn ja, welche?

Und nun beginnt der Zyklus wieder von vorne, denn weder Umwelt, Kunden noch Wettbewerber verhalten sich ansatzweise linear.