<< Themensammlung Netzwertig

Unter netzwertig veröffentlichen wir in unserem Blog Einschätzungen zu aktuellen digitalen Geschäftsmodellen und IT-Trends, Meldungen, Analysen, Reviews und Specials.

19.03.13

Big Data: Schatzsuche ohne Karte

Mit dem Aufkommen des Themas Big Data gibt es die Tendenz, traditionelle Methoden der Wissenserzeugung zu vernachlässigen und sich auf Fakten zu beschränken. Doch ohne diese traditionellen Methoden wird es nicht gehen. Nur mit einer Vorstellung davon, was man überhaupt sucht, kann man sinnvolle Ergebnisse generieren.

SchatzkarteRalf Wienken ist technischer Redakteur. Er ist verantwortlich für den Bereich technische Kommunikation der X-info Wieland Sacher GmbH

Früher, in einem anderen Leben, war ich Soziologe. Um Soziologe zu werden, ließ es sich nicht vermeiden, Statistikseminare zu besuchen. In diesen Seminaren war es ein gern benutzter Witz, die Anzahl der Geburten mit der Anzahl der Störche zu korrelieren, d.h. man behauptete, dass die Zahl der Geburten und der Störche zusammen steigt oder fällt. Egal ob das stimmte oder nicht, man bekam direkt den Unterschied zwischen Korrelation und Ursache vor Augen geführt: eine existierende Korrelation zwischen zwei Werten heißt noch lange nicht, dass ein Wert die Ursache des anderen Werts ist. Niemand behauptete, dass die Anzahl der Störche die Ursache für die Anzahl der Geburten ist, und trotzdem existiert eine statistische Beziehung zwischen den beiden Werten. Nun können Korrelationen sehr wertvoll sein. So ist zum Beispiel in einer amerikanischen Auswertung herausgefunden worden, dass Gebrauchtwagen umso länger halten, je exotischer die Wagenfarbe ist. Warum das so ist, weiß niemand, weil man keine Ursache ausfindig machen kann. Niemand würde behaupten, dass die Wagenfarbe die Ursache für längere Haltbarkeit ist. Man weiß aber, dass eine Korrelation existiert, und diese Information ist für Händler und Kunden von großem Wert.

Korrelation

Korrelationen können also ein Schatz sein. Nun gibt es einen riesigen Datenhaufen, der potentiell eine Menge wertvoller Korrelationen enthält. Nur, man kommt nicht heran an diesen Schatz. Man weiß, dass er existiert, aber man kann ihn nicht heben, weil es keine Werkzeuge gibt, die den Haufen bearbeiten können. Er ist zu groß und zu komplex.

Großer Haufen

Man nennt den Schatz Big Data, eben weil er ein großer und komplexer Haufen ist. Dieser Haufen hat zwei Merkmale: die Menge der Daten ist exorbitant hoch und sie sind nicht genügend geordnet. Das ist der Grund dafür, dass es keine Werkzeuge gibt, um den Schatz zu heben. Traditionelle Datenbankabfragen sind ungeeignet, weil sie den kaum strukturierten Haufen nicht durchdringen; davon abgesehen sind heutige Computer meist nicht schnell genug.

Die Daten stammen aus zwei Quellen. Die erste Quelle sind die Informationen, die Nutzer des Internets selbst eingeben, vor allem in sozialen Netzwerken. Sie sind prinzipiell begrenzt, denn mehr als Daten eingeben können die Nutzer nicht. Die zweite, auf Dauer viel größere Quelle, sind die Daten, die maschinell erzeugt werden, beispielweise durch Sensoren in Fahrzeugen, Überwachungskameras, Bewegungsprofile über Handys, Wetterdaten usw. Diese Quelle ist prinzipiell unbegrenzt, denn die Sammelmaschinen werden tendenziell immer schneller und beziehen immer weitere Bereiche unseres Lebens ein.

Daten aus der ersten Quelle werden heute schon erfolgreich genutzt, wie die benutzerspezifische Werbung in sozialen Netzwerken zeigt. Diese Art der Datensammlung ist nichts wirklich Neues. Allenfalls die Menge der Daten stellt ein Problem dar.

Oft wird Big Data mit solchen Datensammlungen aus der ersten Quelle gleichgesetzt. Das aber ist ein Missverständnis, denn es sind die Daten aus der zweiten Quelle, wo die eigentliche Herausforderungen und Gefahren liegen, und wo der Schatz potentiell am wertvollsten ist.

Vernetzung in Wellen

Wenn man Big Data so versteht wie oben beschrieben, dann ist es eine Technologie der dritten Welle der globalen Vernetzung. Das heißt, die Daten werden von vernetzten Maschinen in automatischen Prozessen gesammelt und können wegen ihrer Menge und Komplexität auch nur noch maschinell ausgewertet werden.

Die globale Vernetzung ist ein Prozess, der in Wellen verläuft. Die erste Welle bestand darin, dass die existierenden Computer ans Internet angeschlossen wurden. Dieser Vorgang ist heute weitgehend abgeschlossen, mit dem Ergebnis, dass ein Computer ohne Internetanschluss undenkbar und auch sinnlos ist.

Die zweite Welle begann mit der Verbreitung von internetfähigen Mobilfunkgeräten, wie Smartphones oder Tablets. Dieser Prozess ist noch nicht vollständig zu Ende, hat aber bis jetzt schon eine weitgehende Durchdringung unserer Alltagswelt mit Internetanwendungen mit sich gebracht.

Die dritte Welle bringt die Ausbreitung von Maschinen, die mit dem Internet verbunden sind. Man nennt diese Welle: das „Internet der Dinge“. Sie startet gerade. Kühlschränke, Autos, Fotoapparate, Roboter, Sensoren – das Internet wird auf die Dauer alle technischen Artefakte einbeziehen, mit denen wir uns umgeben. Und es wird die Daten aufsaugen, die die Maschinen sammeln – das eben ist der Schatz, der zu heben ist.

Die vierte Welle übrigens lässt sich schon erahnen. Sie wird den menschlichen Körper einbeziehen. Der Einstieg ist schon da: Google Glass. Damit wird Technik zu einem Teil unserer Sinnesausstattung, mit der wir in einigen Jahren so selbstverständlich umgehen werden wie mit dem Auge oder dem Ohr.

Maschinelles Datensammeln

Wir wissen jetzt also, was Big Data ist: eine Technologie der dritten Welle, mit der maschinell Daten gesammelt werden, die potentiell wertvolle Korrelationen enthalten. Und jetzt können wir auch die Frage stellen, ob man eine Vorstellung von dem braucht, was man sucht (= Theorie), um an diesen Schatz heranzukommen. Oder geht es ohne eine solche Vorstellung? Können wir uns bei der Suche allein auf die Maschinen verlassen?

Firmen, die den großen Haufen durchforsten wollen, gibt es schon etliche. Sie müssen die Daten maschinell auswerten, wozu sie einen geeigneten Algorithmus brauchen, ganz abgesehen von möglichst schnellen Computern.

Das Geschäft besteht nun aus zwei Teilen. Zum einen werden Muster gesucht, die schon definiert sind, zum Beispiel dann, wenn man Annahmen über die Wirklichkeit bestätigen will. Zum Beispiel könnte man fragen, ob eine Beziehung zwischen Facebook-likes und Parteipräferenz existiert (was sich übrigens inzwischen bestätigt hat). Zum anderen sollen Muster gesucht werden, an die vorher noch niemand gedacht hat. Man weiß dann noch nicht einmal, was man sucht, d.h. welche Frage man beantworten will. Das ist zum Beispiel bei der Korrelation zwischen Störchen und Geburten der Fall. Die Algorithmen sollen also auch solche Muster finden.

Wie baut man nun einen solchen Algorithmus? Ich meine hier nicht die mathematische oder programmiertechnische Seite, sondern die Theorie, die dafür notwendig ist.

Ohne Frage keine Antwort

Big Data wird oft als das Ende der Theorie bezeichnet. Schließlich sind alle Fakten vorhanden, man muss sie nur finden. Wozu also eine Theorie? Das einzige, was nötig ist, ist ein guter Algorithmus, der die Fakten aufstöbert, und ein schneller Computer. Traditionelle Methoden des Erkenntnisgewinns sind damit obsolet. Intuition, Modelle oder gar Theorien – die traditionellen Methoden der Erkenntnisgewinnung - sind überflüssig.

Dies aber würde bedeuten, dass sinnvolle Fragen nicht gestellt werden können. Sinnvolle Fragen nennt man in der Wissenschaft Hypothesen, wobei der Sinn aus der Theorie abgeleitet wird. Hypothesen sind Fragen an die Wirklichkeit. Nur wenn man eine solche Frage formuliert hat, kann man überprüfen, ob sie stimmt und erhält eine Antwort.

Firmen, die Analysen von Big Data als Dienstleistung anbieten, werden bei der Erstellung ihrer Algorithmen deshalb niemals ohne eine Theorie auskommen, weil man ohne sinnvolle Fragen nicht weiß, was man suchen will. Und wenn man nicht weiß, was man suchen will, kann man auch nichts finden. Das einzige, was man findet sind Korrelationen, die zufällig einen Vorteil bringen mögen, wie im Beispiel mit den Farben der Gebrauchtwagen. Meist aber werden sie keinerlei sinnvolle Informationen über die Wirklichkeit enthalten, so wie im Beispiel mit den Störchen. Man kann ohne relevante Fragen nicht sagen, welche der Korrelationen, die man in einer Analyse gefunden hat, eine sinnvolle Aussage über die Wirklichkeit enthalten. Damit sind sie dann auch geschäftlich nicht verwertbar.

Die Theorie ist die Schatzkarte

Es gibt keine Rohdaten, weil Daten nicht reden können. Daten müssen immer interpretiert werden, und zwar am besten schon bevor man mit der Suche anfängt. Man muss also schon bei der Erstellung des Algorithmus wissen, was man sucht. Und diese Auswahl entsteht auf der Basis einer Theorie, die entscheidet, was sinnvoll ist oder nicht.

Statistische Analysen in Big Data ohne Theorie sind sicherlich nützlich. Aber man muss um die Beschränkungen wissen. Das einzige, was man auf diese Weise findet, sind Muster. Muster aber sind Korrelationen, keine Ursachen. Einen Sinn oder eine Ursache findet man nur mit einer Theorie. Wenn man keine Theorie hat, um gefundene Muster einzuordnen, sind sie zum großen Teil wertlos.

Big Data ist also keinesfalls das Ende der Theorie, so wie einen Schatz zu finden auch nicht das Ende aller Sorgen ist.

Ralf Wienken ist technischer Redakteur. Er ist verantwortlich für den Bereich technische Kommunikation der X-info Wieland Sacher GmbH. Ein wichtiges Arbeitsgebiet dieser Firma ist die Entwicklung von Applikationen für den industriellen Bereich (app-solut.com).

Illustration Schatzkarte: stock.xchng/alexdehnel

Förderland-Newsletter

Wissen für Gründer und Unternehmer