Big Data: Auch im Stall von Nutzen

Big Data – alle reden davon und niemand weiss so ganz genau was das eigentlich ist. Eine Begriffsklärung lieferte auch der swissnex Day’15 nicht, der im Dezember unter dem Motto «Big Data for smart ideas» eine kunterbunte Mischung von Wissenschafts- und Zukunftsinteressierten an der Uni Freiburg versammelte. Vielmehr bot der Anlass die Gelegenheit, interessante Köpfe zu treffen, die Big Data lieber konkret nutzen als Wortklaubereien zu betreiben.

Wie ein Fisch im Wasser fühlt sich auch Philippe Cudré-Mauroux im grossen Datenmeer. Er ist Professor für Informatik an der Uni Freiburg und Leiter des eXascale Infolab und von daplab.ch, einer Plattform, die Big Data-Analysen auch für Big Data-Ahnungslose leicht zugänglich machen soll. «Ihr habt die Daten, wir haben die Skills» – so könnte man den Cudré-Mauroux’ Ansatz auf den Punkt bringen. Im Gegensatz zur weitverbreiteten Angst davor, dass die intelligenten Computersysteme uns die Arbeit wegnehmen oder gar den Untergang der Menschheit bedeuten, gehört Cudré-Mauroux zu den Optimisten, die in Daten und ihrer Analyse vor allem Chancen sehen – für Firmen wie auch für den einzelnen Menschen. Er gehört damit zur jungen Garde der Informatiker, die sich, ähnlich wie die Ingenieure des 19. Jahrhunderts, mit viel Drive und einem unerschütterlichen Zukunftsglauben an die Umgestaltung unserer Lebenswelt machen und im Schlagwort der «disruptiven» Geschäftsideen nichts Zerstörerisches sehen. Die Digitalisierung und Big Data sind, was das Frischdrauflos der Pioniere (und die Mischung aus Faszination und Unbehagen in der Bevölkerung) angeht, die Eisenbahn und Elektrizität unserer Zeit.

Familienplanung mit Big Data
Welche überraschenden Anwendungen so eine datenzentrierte Weltsicht erlaubt, zeigte Cudré-Mauroux am swissnex Day’15 in seiner Präsentation anhand eines Beispiels aus Japan auf: Verpasst ein Bauer jeder Kuh im Stall einen Bewegungsmelder am Fuss, dann hat er sofort jede Menge Daten über die Schrittzahl seiner Tiere zur Hand. Ja gut, wird sich der alte Bauer sagen – und was soll ich damit? Der junge Bauer aber kennt einen Data Scientist und findet rasch heraus: In diesen Daten stecken überraschende Informationen. So lässt sich die Empfängnisbereitschaft der Kühe ziemlich exakt aus deren Bewegungsmuster ableiten – der Bauer weiss also genau, wann seine Tiere am fruchtbarsten sind, ohne dass er überhaupt in den Stall zu gehen braucht. Damit nicht genug: Einer eigenartigen Laune der Natur wegen hängt das Geschlecht der Jungtiere davon ab, ob die Mutterkuh in den Minuten vor oder nach dem fruchtbarsten Moment befruchtet wird, der Bauer braucht also nur den passenden Moment abzuwarten.

Wir trafen Prof. Philippe Cudré-Mauroux im Rahmen des swissnex Day’15 zu einem kurzen Gespräch und befragten ihn zur Widerspenstigkeit von Daten und zur Zukunftsvision einer intelligenten Maschine, die selber Schlüsse zu ziehen vermag und so womöglich dereinst auch Forscher ersetzen wird – oder auch nicht.

Philippe Cudré-Mauroux, mitunter hört man, dass Big Data schon jetzt Too-Big Data sei, dass man die Menge der Daten gar nicht mehr sinnvoll analysieren könne. Haben auch die Maschinen schon einen «Information Overload»?
Nein, im Prinzip nicht. Es gilt immer noch die Prämisse: Je mehr Daten, desto besser. Algorithmen müssen trainiert werden, und je mehr Daten wir dafür zur Verfügung haben, desto präziser werden die Analysen. Allerdings haben wir tatsächlich immer mehr Probleme, die vorhandenen Rohdaten zu verdauen.

Sie erwähnten in der Diskussion im Anschluss an ihre Präsentation die 80/20-Regel. Was hat es damit auf sich?
In der Datenverarbeitung stecken wir derzeit 80 Prozent des Aufwands in die Bereitstellung der Daten, in das Suchen und Aufbereiten, die eigentliche Analyse macht dann nur noch 20 Prozent der Arbeit aus. Das müssen wir besser in den Griff bekommen.

Warum ist das so?
Weil Daten in sehr vielen verschiedenen Formaten und sehr unstrukturiert vorliegen und Computer eben nach wie vor nicht gut darin sind, selbständig in den Daten zu «lesen». Erst wenn Computer in der Lage sind, Rohdaten selbst zu sortieren und die Inhalte zu strukturieren können wir das Potential von Big Data richtig ausschöpfen.

Also können Maschinen auch noch kein eigenes Wissen erwerben und logische Schlüsse ziehen. Der Job des Wissenschaftlers ist nicht in Gefahr?
Derzeit noch nicht, solche Ideen sind allerdings Zukunftsmusik. Versucht wird das natürlich schon, und wenn die vorliegende Information sehr rigide strukturiert ist, können Computer durchaus zwei Ideen logisch verknüpfen und so neue Zusammenhänge erschliessen. Aber im normalen Forschungsalltag liegt das noch in weiter Ferne.

Welche Hürde muss denn in dem Zusammenhang genommen werden?
Oft haben die Aufgaben ganz simpel mit Textverständnis zu tun. Ein Grossteil der vorliegenden Datenmengen liegt als Text vor: Social Media, Emails, oder eben auch ein Forschungspaper. Daraus selbsttätig die relevanten Informationen zu extrahieren und in eine Form zu bringen, die für Datenanalysen geeignet ist, davon sind Computer nach wie vor sehr weit entfernt.

Und wann werden wir soweit sein? Wagen Sie eine Prognose?
Lieber nicht, das Feld ist so dynamisch, da ist es schwer, Vorhersagen zu machen. Allerdings bin ich nach den grossen Fortschritten in den letzten Jahren durchaus optimistisch – die Maschinen werden nicht zuletzt immer besser darin, selber zu lernen.

Wenn sie an diese Zukunft denken, was überwiegt bei Ihnen persönlich: die Faszination oder doch das Gefühl der Unheimlichkeit?
Ehrlich: ein wenig von beidem. Vor ein paar Jahren hätte ich noch gesagt: Das ist zu futuristisch, um darüber überhaupt nachzudenken. Aber nun glaube ich tatsächlich, dass wir uns Gedanken über intelligente Maschinen machen sollten – wir werden früher mit ihnen zu tun haben als wir denken.

Sie leiten auch die Plattform DapLap. Was genau haben Sie mit dem Projekt vor?
Viele Unternehmen haben interessante Daten, doch sie sind überfordert mit deren Verarbeitung – nicht zuletzt wegen der raschen Fortschritte, die das Feld macht. Wir möchten eine Plattform bereitstellen, die durch alle nötigen Datenanalyse-Schritte führt und interessante Ergebnisse aufzeigt, mit einem Minimum an Infrastruktur für die Nutzer.

Und was könnte man damit konkret anfangen?
Nehmen Sie zum Beispiel Mobilfunkdaten und eine Technik namens Anomaly Detection. Wenn man die Bewegungsdaten der Handys in Echtzeit analysiert und mit dem «Normalfall» abgleicht, kann man erkennen, wenn zum Beispiel wegen eines Unfalls eine Strasse gesperrt ist – diese Anomalie wird sogleich erkannt. Oder, ein ganz anderes Beispiel: Fernsehserien. Netflix hat die Serie «House of Cards»mit einem System entwickelt, das aufgrund der Nutzerdaten gezielt ein Thema, einen Regisseur und einen Hauptdarsteller vorgeschlagen hat. Und das offensichtlich sehr treffsicher.

Big Data

Wie big ist Big Data? Grösser als früher, grösser als vorstellbar, grösser als alles, was noch zu handhaben ist? Die Begriffsbestimmung via blosse Datenmengen führt zu nichts – Big Data macht erst Sinn im Zusammenhang mit den algorithmischen Analysemethoden, die für diese grossen Datenmengen zum Einsatz kommen. Auf eine griffige Formel gebracht: Big Data sind Anwendungen, für die es kein Zuviel an Daten gibt. Weil man die Analysewerkzeuge mit Datensätzen trainiert, werden sie immer besser, je mehr Input sie bekommen. Das funktioniert beim Aufspüren verdächtiger Kreditkartenzahlungen ebenso wie bei automatischen Übersetzungen (Google trainierte seinen Service mit EU-Verordnungen, die in zig Sprachen vorlagen). Der Sicherheitsexperte Bruce Schneier hat unlängst noch eine ganz andere Definition vorgeschlagen: Big Data, das müsse man gleich verstehen wie Big Oil oder Big Tobacco – also Grossfirmen, die ihre Marktmacht für den eigenen Geschäftsvorteil auch gern mal missbrauchen. Die potenteste Lobbygruppe in Washington stellt unterdessen übrigens Google.