Beitrag von Rüdiger Spies in der Digitalen Fachbilbiothek "Management von IT-Services"
Den vollständigen Fachartikel finden Sie in der o.g. Fachbibliothek.
4002.01.01 – © Symposion Publishing, 2014

Big Data als Katalysator für neue Business-Analytics-Projekte

»Big Data« ist eines der neuen »Buzz-Wörter«, die die IT-Szene umtreibt. Kaum ein Hersteller, der sich nicht im Lichte von Big Data neu positioniert. Das Thema »Big Data« reicht allerdings wesentlich weiter in zukünftige IT-System hinein, als es oberflächlich betrachtet den Anschein hat.
In diesem Beitrag erfahren Sie:
  • wie sich »Big Data« am besten definieren lässt,
  • welche Charakteristika erfolgreiche Big-Data-Projekte mindestens haben sollten und
  • wie Big Data zu einer ganz neuen Art vonComputing führt.


Zusammenfassung

Big Data Analytics wird zum Kulminationspunkt verschiedenster fortschrittlicher IT-Technologien. Explodierende Datenmengen in den Unternehmen, hochgradig parallele Verarbeitung und eine Analyse von semi-/polystrukturierten Daten ermöglicht es Unternehmen heute, neue geschäftliche Chancen durch Auswertung bestehender Daten, die bisher einer eingehenden Analyse verschlossen blieben, zu erschließen. Eine Erweiterung bzw. Ergänzung bestehender Data-Warehouse- und BI-Technologien durch Hadoop wird derzeit als die beste Option angesehen. Diesbezügliche Projekte sollten einen direkten Kundenbezug haben und Kundennutzen generieren. Eine Kombination eines Big-Data- und eines Mobility-Competence-Center wird als aussichtsreiches Gespann für innovative Mobility- und Big-Data-Projekte angesehen. 


Was bedeutet »Big Data«?

Mit Big Data wurde ein neuer zentraler Begriff in die IT eingeführt. Doch so einfach der Begriff auch zu sein scheint und so leicht er sich als »große Daten« in die deutsche Sprache übersetzen ließe, so komplex ist sein Bedeutungsinhalt. Während auf der einen Seite nur große Daten oder besser: großen Datenmenge gemeint sind, so findet sich auf der anderen Seite einer eindimensionalen Betrachtungsweise das Verständnis, dass es sich um großartige Daten handelt. Großartig kann im einfachsten Fall mit wertvoll gleichgesetzt werden. In diesem Fall würde es sich um wenige Daten handeln, die einen hohen spezifischen Einzelwert für ein Unternehmen darstellen. Der Fall ist also komplexer und wird für sehr viele Unternehmen und CIOs über kurz oder lang eine hohe Relevanz bekommen. Grund genug also, um sich dem Thema intensiver zu nähern.

Stellt man drei Personen die Frage nach einer Definition von Big Data, erhält man – so seltsam das auch klingen mag – mindestens vier Antworten. Allerdings ist das auch kein Wunder zu einer Zeit, in der Big-Data-Themen und -Projekte noch nicht Allgemeingut geworden sind. IT-Hersteller und -Dienstleister versuchen derzeit, dem Thema Big Data ihre Definition aufzudrücken, um sich so im Big-Data-Licht besser in Szene setzen zu können. Einige definieren Big Data als alles, was einfach große Datenmengen betrifft, weil sie diese gut speichern können und allein schon die ausufernden Datenmengen in klassischen Data Warehouses eine Herausforderung an sich sind. Andere betrachten Big Data als eine Ansammlung sich schnell verändernder Daten, die von allen möglichen Internet-Devices stammen: Smart Metering für Versorgungsunternehmen, Internet der Dinge oder auch VoIP-Datenströme sind nur einfache Beispiele dafür. Wieder andere erkennen Big Data in hohen Übertragungsraten auf Glasfaserleitungen, um auch ein exotischeres Beispiel zu nennen. Klar ist dabei, dass es sich nicht nur um ausufernde Data Warehouses handelt, die einfach mit der aggregierten und zu verwaltenden Datenmenge nicht mehr zurechtkommen und aus allen Nähten platzen, bei denen die Batch-Fenster für ein Laden und Harmonisieren von neuen Daten und Integration in bestehende Datenbestände nicht mehr ausreichen und die Antwortzeiten von Queries der Anwender länger und länger werden. Das klassische Data-Warehouse- oder Business-Intelligence-Bonmot von den richtigen Daten zur richtigen Zeit für den richtigen Anwender reicht sicher nicht aus, um das Big-Data-Phänomen in den Griff zu bekommen.
Am griffigsten erscheint die Definition von IDC (International Data Corporation Inc.), die Big Data entlang vier Vektoren definiert: Volume – Variety – Velocity – Value oder: Menge, Geschwindigkeit, Variabilität und Wert [1].


Big Data als Katalysator für neue Business-Analytics-Projekte

Volumen – Datenmenge

Das Management von großen Datenmengen stellt in der Tat eine große Herausforderung für heutige Unternehmen dar. Dabei sind die Datenmengen in den Datenbanken und Data Warehouses noch das kleinste Problem. Lange sind die Zeiten vorbei, in denen der Terabyte-Club von Data-Warehouse-Betreibern ein kleiner, elitärer Kreis war. Heute gehört es schon zum guten Ton, ein Data Warehouse zu betreiben, das mehrere Terabyte groß ist. Das gilt insbesondere für Unternehmen aus dem Einzelhandel (Bon-, Katalog- und Transaktionsdaten), für Telecom-Anbieter (Transaktionsdaten, Call Detail Records (CDR), Wirknetzdaten) oder Finanzdienstleister (Zeitreihen und Transaktionsdaten). Auf der anderen Seite sind die Preise für Plattensysteme ins Bodenlose gefallen, sodass die Beschaffungskosten – zu einer Zeit, in der Terabyte-Rohplatten für unter 100 € zu haben sind – sicher kein Argument mehr sein können. Allerdings werden in Data-Warehouse-Systemen heute praktisch ausschließlich strukturierte Daten, also solche, die sich eindeutig in klassischen Datenbankfeldern speichern lassen, abgelegt. Diese Typen von Daten machen aber nach allgemein akzeptierter Ansicht nur etwa 20 % des Datenvolumens in Unternehmen aus. Das gesamte Datenvolumen hingegen umfasst auch semi- oder polystrukturierte Daten. Dabei wird hier explizit nicht von unstrukturierten Daten gesprochen. Denn diese Sorte von Daten existiert – bis auf weißes Rauschen – praktisch nicht. Auch Bilder, Textdokumente oder Spread Sheets haben eine oder mehrere Strukturen. Wer das nicht glaubt, sollte einmal einem Juristen sagen, dass sein Schriftsatz nicht strukturiert sei, einem Redakteur, dass sein Artikel unstrukturiert sei, oder einem Maler oder Fotografen, dass sein Werk keine Struktur habe. Es folgt also, dass alle in Unternehmen gespeicherten Daten eine Struktur haben. Diese Struktur – auch auf höherer Abstraktionsebene – gilt es zu erkennen und in Werte für das jeweilige Unternehmen umzumünzen.

Zunächst aber zurück zu den Datenmengen. Nach IDC-Schätzungen umfasst das weltweite Datenvolumen im Jahr 2011 etwa Big Data als Katalysator für neue Business-Analytics-Projekte 1,8 Zeta-Byte, also 1,8 × 1021 Byte. Als Erinnerung: Die Potenzen in Dreierschrittzunahme: Giga = 109, Tera = 1012, Peta = 1015, Exa = 1018, Zeta 1021. Diese Datenmenge verdoppelt sich etwa alle zwei Jahre. Ein realistisches Bild des zu erwartenden Datenwachstums sieht also so aus: Von knapp 2 Zetabytes im jahre 2011 bis zu über 14 Zetabytes im jahre 2017.

Ein derartiges Wachstum hat auf unvorbereitete IT-Abteilungen eine fatale Wirkung. Dabei ist nicht die Speicherung das Problem, sondern vielmehr ein sinnvoller Umgang mit den Informationen, die in den Daten verborgen sind.

Variety – Vielfalt/Variabilität

Als zweite wichtige Komponente von Big Data ist die Vielschichtigkeit der Datentypen anzusehen. Es geht nicht nur um Daten mit einer klaren bekannten Struktur, sondern in der Mehrzahl der Fälle um Texte, Bilder, Sound, Tabellen, E-Mails, Voicemails/ Transkripte, Social-Media-Daten etc. Der Strukturiertheit dieser Art von Daten wurde bereits weiter oben Rechnung getragen. Man könnte jetzt einwenden, dass es sich hier um Datentypen handelt, die bisher ausschließlich in Content-Management-Systemen (CMS) verwaltet wurden. Teilweise ist das richtig. Und genau hier liegt auch das damit einhergehende Problem: Es macht heute keinen Sinn mehr, Auftragsdaten, die in Papierform in ein Unternehmen gekommen sind, von Transaktions- oder Rechnungsdaten die auch wieder auf Papier verschickt werden könnten, desselben Kunden zu trennen. Folglich ist ein wesentlicher Aspekt bei Big Data eine Integration von Daten unterschiedlichen Typs, deren Gesamtmenge alle bisher in Unternehmen verwalteten Daten umfasst: Einerseits strukturierte Daten aus klassischen Unternehmensanwendungen à la ERP, CRM, SCM, HR etc. und andererseits anders strukturierte Daten (semi- oder polystrukturiert). Beide müssen mit einer einheitlichen Sicht erfassbar sein und den Anwendern verfügbar gemacht werden.

Velocity – Geschwindigkeit

Darüber hinaus strömen zusätzliche Daten in die Unternehmen. Insbesondere im Marketing- oder auch im Service-Bereich setzen zukunftsorientierte Unternehmen auf eine Integration von Social Media à la Facebook, Twitter, Google+ etc. in die Unternehmenskommunikation. Dabei werden Zugänge zu Social Media ganz unterschiedlich genutzt: Einerseits als originäres Kommunikationsmittel zur Kommunikation mit Kunden und Interessenten. Andererseits lassen sich aus Social-Media-Datenströmen auch wertvolle Erkenntnisse über Vorlieben und Bedürfnisse von Kunden ableiten. Dazu müssen die Datenströme online durchforstet bzw. gescannt und gefiltert werden, um relevante Daten direkt abzuleiten oder in einem Strom der Daten vorgegebene oder neue Muster zu erkennen. Hierbei kommt es darauf an, online zu entscheiden, welche Daten relevant sind, welche gespeichert werden sollten und welche unerheblich sind und gleich wieder »vergessen« werden können. Nebenbei bemerkt lassen sich derartige Verfahren auch für Sicherheitsthemen einsetzen: Dazu werden aktuelle Netzwerkdaten nach unbekannten und potenziell verdächtigen Mustern durchsucht. Einschlägige Hersteller bieten dazu bereits Produkte an.
Ein andere Variante besteht darin, eingehende Briefe von Kunden und Lieferanten zu scannen, E-Mail oder Voicemail oder Callcenter-Dialoge digital zu erfassen – und wo erforderlich zu transkribieren. Im Anschluss daran werden sie mithilfe von BI-Technologien analysiert, um wiederkehrende Muster bei Kundenanfragen zu erkennen – und damit mögliche Problemfelder gar nicht erst entstehen zu lassen. Andererseits können diese Techniken auch dazu genutzt werden, die eingehenden Dokumente automatisch an den richtigen Mitarbeiter weiterzuleiten, ohne dass es einer manuellen Post- bzw. Aufgabenverteilung bedarf. Insofern hat Big Data auch Einfluss auf Business-Process-Management-Systeme und Prozessflüsse in Unternehmen. Damit geht der Einfluss von Big Data weit über eine übliche Datenanalyse nach Data-Warehouse- und BI-Kriterien hinaus. Ohne weitere Beispiele anzuführen und ohne im Detail auf die Wirkung mobiler Kommunikation und dazugehöriger Datenmengen eingegangen zu sein, lässt sich sagen, dass praktisch jeder IT-Bereich von Big Data berührt werden wird.

Value – Wert

An dieser Stelle wird es für den unternehmensorientierten CIO interessant. Denn Big Data werden ja nicht um ihrer selbst willen gespeichert und verwaltet. Letztlich geht es um die Frage: Wie lässt sich aus den Big Data ein zusätzlicher Beitrag zum Unternehmenserfolg ableiten? An dieser Stelle schließt sich der Kreis teilweise wieder zu Data Warehousing bzw. BI. BI lässt sich allerdings jetzt viel besser als Business Analytics anstelle von Business Intelligence darstellen. Denn es geht darum, die bisher bekannten Analytics-Technologien auf eine Vielzahl bisher nicht berücksichtigter Datentypen anzuwenden. Das geht auch einher mit dem Verständnis von IDC: Dabei werden technologische Ansätze der klassischen Analyse strukturierter Daten zu den Business-Intelligence-Komponenten gezählt. Zum erweiterten Kreis von Business Analytics zählen deshalb auch verwandte Felder wie Performance Management und Analytics (Financial Performance and Strategy Management, CRM Analytics und Supply Chain Analytics, Production Planning Analytics, Workforce Analytics sowie Services-Analytics-Anwendungen) und artverwandte Analytics-Umgebungen wie geografiebasierte Analysen und Content-Analysen (auch Text Mining). Im Gegensatz dazu umfassen die klassischen BI-Felder: Query and Reporting sowie einfache und komplexe Analysen. Das Feld von Data Mining liegt zwischen den beiden Schwerpunkten.

Unternehmerisch geprägte CIOs und IT-Abteilungen haben mit Big Data zwei große Chancen in Unternehmen: Zum einen können sie ihre technische Kompetenz im Umgang mit Big Data und einer Verknüpfung unterschiedlicher Datentypen, Quellen und Zielrichtungen darstellen, zum anderen können sie deutlich machen, dass die IT wertvolle Informationen für das Unternehmen bereitstellt, die allerdings erst aus den Unmengen an Daten unterschiedlichen Typs, unterschiedlicher Quelle, unterschiedlicher Relevanz und Lebensdauer isoliert werden müssen. Genau an dieser Stelle kommt es wieder auf eine gute Zusammenarbeit zwischen Fachbereichen und IT-Abteilungen an. Ein gut gemanagtes IT Business Alignment ist also auch hier unverzichtbar.

Weitere »Vs«

Je nach Blickwinkel lassen sich noch weitere »Vs« ergänzen. Variability ist beispielsweise eine weitere Eigenschaft, die Daten zugeordnet werden kann. Damit ist gemeint, dass sich die Typen der Daten für Analysen schnell ändern können und nicht alle Aufgabenstellungen mit dem gleichen Satz an Tools bearbeitet werden kann. Damit wird auch klar, dass die Anzahl der eingesetzten Tools nicht geringer wird, sondern eher zunimmt. Auch dies muss von IT-Abteilungen gut »maskiert« werden: Anwender sollten immer mit derselben Benutzeroberfläche arbeiten, auch wenn sich dahinert eine Vielzahl von Tools verbirgt. Deshalb wird es in Zukunft darauf ankommen, die Analysefunktionen im Kontext normaler Geschäftsanwendungen anzubieten. Dabei sollte eine bekannte Benutzeroberfläche nicht verlassen, sondern weitergenutzt werden.

Für die IT ergibt sich aus den verschiedenen »Vs« die Anforderung nach einer sauberen IT-Strategie, die die diskutierten Elemente aufgreift. Angesichts von Big Data werden IT-Architekturen eine höheren Stellenwert bekommen. Zur Erinnerung: Eine IT-Architektur lässt sich grob gesagt in vier Schritten erarbeiten: Ausgehend von einer

Geschäftsarchitektur (siehe Geschäftsstrategie im Jahresbericht eines Unternehmens) über eine Prozessarchitektur und eine Informationsarchitektur hin zu einer technischen Architektur. Die Informationsarchitektur bildet also im Zusammenhang mit Big Data die Brücke zwischen der Unternehmensarchitektur und der technischen Architektur. Hier entscheidet sich, ob ein Unternehmen fit für Big Data ist.

Als weiterer Aspekt für Big Data wird gelegentlich Validity genannt. Auch hier ist ein deutlicher Unterschied zu klassischen Data-Warehouse- und BI-Ansätzen zu erkennen. In der klassischen BI-Welt ging es auch darum, Daten kontinuierlich zu erfassen und Analysefunktionen zur Verfügung zu stellen. Harmonisierung der Daten und Datenqualität spielen dabei eine zentrale Rolle. Aus »falschen Daten« lassen sich nur »falsche Analysen« generieren. Das ändert sich bei Big Data. Aufgrund der stetig wachsenden Datenmenge ist eine vollständige Harmonisierung und 100%-ige Datenqualität nie zu erreichen. Es gibt viele Daten, die nur im Hier und Jetzt wichtig sind und dann keine Rolle mehr spielen – sie können jedoch auch widersprüchlich sein. Es wird eine wichtige Aufgaben von Big-Data-Verantwortlichen sein, unternehmensspezifisch festzulegen, welche Regeln für nicht kongruente Datensätze gelten sollen. Auch das lässt sich nur im Dialog mit den Fachabteilungen herausarbeiten. Validity kann somit als Maß für die Widerspruchsfreiheit einer Datenmenge angesehen werden. Man sieht also, dass sich die herkömmlichen Maßstäbe für große Datenmengen, zum Beispiel im Data Warehouse, auf Big Data nicht übertragen lassen.

Wichtige neue Technologien im Kontext von Big Data
Wie bereits erkennbar ist, lassen sich Big-Data-Projekte nicht mit herkömmlichen Data-Warehouse-Ansätzen abwickeln. Einerseits gibt es ganz erhebliche Einflüsse einerseits von neuen Anwendertechnologien und andererseits von Computing-Technologien.

Anwendertechnologien und Anforderungen

Die wichtigste neue Anwendertechnologie, die Einfluss auf das Big-Data-Phänomen hat, ist das ungeheure Anwachsen von mobilen Endgeräten in Form von Smartphones, Tablet-Computern, aber auch dezidiert mobilen Devices (z. B. Handheld Devices in der Logistik-Branche). Auf der einen Seite werden über sie zusätzliche Datenmengen produziert (z. B. Chat- und Social-Media-Daten sowie Geodaten). Auf der anderen Seite ist bei den Anwendern aber gleichzeitig ein großes Bedürfnis vorhanden, auf alle Arten von Unternehmensdaten zuzugreifen, d. h. sowohl auf strukturierte als auch auf alle Arten von Multimediadaten. Dieser Trend ist insbesondere im Marketing und Vertrieb, aber auch im Servicebereich zu beobachten. Insofern hat das Big-Data-Phänomen auch starke Auswirkungen auf vorhandene Unternehmensnetzwerke, die die neuen umfangreicheren Datenströme aufnehmen müssen. Insbesondere im Finanzdienstleistungsbereich kommt es durch in Smartphones integrierte NFC-Systeme (Near Field Communcations) zu neuen Minitransaktionen, mit denen beispielsweise Bahn- und Busfahrkarten gelöst werden können. Um den Neuerungen im Mobility-Umfeld gerecht zu werden, haben fortschrittliche Unternehmen ein Center of Competence für Mobility eingerichtet.
Darüber hinaus erwarten Anwender auch von Analytics-Systemen – sowohl für klassisches BI- als auch für komplexere Analytics-Anforderungen im Bereich von Big Data – ähnlich schnelle Antwortzeiten, wie sie sie von Suchmaschinen wie Google, Yahoo oder Bing kennen. Das gilt insbesondere dann, wenn mobile Geräte für Queries und Abfragen genutzt werden. Und weil der Wert einer Anwendung bzw. Analyse- oder Big-Data-Anwendung mit der Nutzung der Anwendung wächst, tun CIOs gut daran, dafür zu sorgen, dass Business-Analytics-Anwendungen eine hohe Performance liefern. Denn je mehr Anwender die Anwendung nutzen, desto einfacher ist es, ROI-Ziele für Anwendungen zu erfüllen.

Computing-Technologien

Parallelverarbeitung

Seit einiger Zeit ist klar, dass eine Erhöhung der Rechengeschwindigkeit von Einzelprozessoren praktisch nicht mehr möglich ist. Die physikalischen Grenzen sind bei etwa fünf bis sechs GHz Taktfrequenz erreicht. Eine Erhöhung der Prozessorleistung wird demnach nur möglich, wenn parallel gerechnet wird. Moderne Prozessorarchitekturen haben deshalb auch mehrere Rechenkerne (cores), die parallel arbeiten. Zusätzlich werden auch mehrere Prozessoren, die jeweils mehrere Rechenkerne besitzen, eingesetzt. Das hat Auswirkungen auf die zugrunde liegenden Programmiersysteme. Einfache lineare Programmierung zur Erzielung eines Rechenergebnisses reicht also in Zukunft nicht mehr aus. Folglich hat das auch Auswirkungen auf Business-Analytics-Anwendungen. Diese müssen in Zukunft wesentlich mehr die beschriebenen parallelen Prozessorarchitekturen nutzen, um effizient zu sein. Das gilt insbesondere im Zusammenhang mit Big Data, da hier die Rechenleistungsanforderungen deutlich höher sind als bei den schon an ihre Grenzen stoßenden BI-Rechenleistungsanforderungen.

In-Memory-Systeme

In letzter Zeit haben In-Memory-Technologien für Datenbanken – oder allgemeiner: Datenhaltung und -verarbeitung – von sich reden gemacht. Auch wenn In-Memory-Techniken nicht grundsätzlich neu sind und schon seit etlichen Jahren für Spezialaufgaben genutzt werden, sollten sich CIO und Enterprise-Architekten mit den jetzt zur Verfügung stehenden Möglichkeiten zügig vertraut machen, um entscheiden zu können, ob sich diese Technik auch für Big-Data-Vorhaben in ihrem Unternehmen eignet. Derzeit ist davon auszugehen, dass zunächst erst einmal strukturierte Daten in In-Memory-Systemen gehalten und verarbeitet werden. Hier ist im Moment der größte Erfolg zu erwarten. Allerdings wird diese Technologie nicht vor Big Data Halt machen. Im Moment ist es jedoch noch eine Frage des Preises, ob sich In-Memory-Systeme für Business Analytics, bei der eine große

Menge an semi-/polystrukturierten Daten verarbeitet werden, lohnt. Diese Situation wird sich aber wohl in spätestens drei Jahren – also um 2015 – grundlegend ändern.

Hadoop

Ein weiterer Weg der Parallelisierung ist Hadoop. Zu dem von der Apache Foundation als Open Source betreuten Projekt für eine Analyse – derzeit im Wesentlichen Search for Content – gibt es derzeit keine wirklich ernst zu nehmenden Alternative. Allerdings ist Hadoop kein Produkt, das man einfach installieren und nutzen kann, sondern vielmehr eine Toolbox. Dazu haben praktisch alle wichtigen Hersteller Interfaces zu ihren Produkten oder Benutzeroberflächen geschrieben, sodass Hadoop praktisch von allen gängigen Business-Analytics-Produkt-Suiten für eine Analyse von semi-/polystrukturierten Daten nutzbar ist.

Hadoop nutzt quasi-standardisierte x86-basierte Prozessoren und Systeme, sodass die genutzte Hardware sehr preiswert zu beschaffen ist. Vereinfacht ausgedrückt wird eine Such- bzw. Analyseanfrage in mehrere parallel auszuführende Teilaufgaben, die jeweils auf einem der x86-Systeme abgearbeitet wird, aufgespalten. Die so ermittelten Teilergebnisse werden anschließend in einem zweiten Teilschritt wieder zusammengeführt. Diese sogenannte MapReduce-Technologie wird sehr erfolgreich bei Google eingesetzt. Google besitzt auch ein Patent für diese Technologie. Zwar wird auch hierfür viel Hauptspeicher eingesetzt; die Technologie sollte aber nicht mit den oben erwähnten In-Memory-Systemen verwechselt werden. Hadoop baut nach wie vor auf einer plattenbasierten Datenhaltung auf.

Ein bekanntes, sehr erfolgreiches Projekte, das auch Hadoop nutzt, ist IBMs Watson-System. Dieses wurde sehr erfolgreich in der amerikanischen Fernsehshow Jeopardy [2] in Szene gesetzt. In dieser Quizshow hat das Watson-System die besten bekannten Spieler auf Anhieb geschlagen. Das in den USA sehr beliebte Spiel verlangt das Verstehen einer natürlichsprachlichen Aussage, zu der die passende Frage gefunden und in natürlicher Sprache ausgegeben werden muss. Dabei gewinnt der schnellste Spieler. IBM verwendet allerdings noch weitere Techniken wie DeepQA, auf die hier nicht weiter eingegangen werden kann. Weiterführenden Informationen können auch unter [3] gefunden werden.
Business-Analytics-Verantwortliche sollten die genannten Techniken nachdrücklich verfolgen, da erwartet werden kann, dass sich der gesamte Business-Analytics-Bereich stark in diese Richtung entwickeln wird. Auf den Punkt gebracht kann man sagen: BI war gestern – semantische Analyse ist morgen. Dabei werden die klassischen BI-Technologien nicht ersetzt, sondern durch zusätzliche Funktionen ergänzt. Diese neuen Funktionen müssen sich auch in der IT-Architektur wiederfinden.

Eine zeitnahe Implementierung könnte deshalb folgendermaßen aussehen:
Man erkannt deutlich die klassischen BI-Elemente auf der linken Seite der Grafik, die um die Hadoop-Elemente – insbesondere HDFS, MapReduce und Hive and Pig – auf der rechten Seite ergänzt wurden.

Es kann erwartet werden, dass im Laufe der Zeit mehr und mehr Elemente auf der rechten Seite dazukommen, wodurch der klassische BI-Bereich mehr und mehr in den Hintergrund tritt. Allerdings wird diese Entwicklung keine zehn Jahre dauern, sondern die Entwicklungsgeschwindigkeit wird hier sehr hoch sein. Das liegt unter anderem auch daran, dass alle wichtigen Schlüsseltechnologien – wie oben besprochen – nun zu erschwinglichen Preisen verfügbar sind und die Verantwortlichen in den Unternehmen erkannt haben, dass es zukünftig um den War of Content and Context geht. Er reicht einfach nicht mehr, nur strukturierte Daten auszuwerten. Der Datenschatz liegt in den weniger strukturierten Daten. Damit können neue Geschäftsmodelle entwickelt und Wettbewerbsvorteile aufgebaut werden.


Erfolgskriterien für Big-Data-Projekte und Ausblick

Erfolgskriterien

An dieser Stelle kann nur kurz angerissen werden, was zu erfolgreichen Big-Data-Projekten beitragen kann. Zunächst ist wie für alle strategischen IT-Projekte eine solide Unterstützung der Geschäftsführung erforderlich. Dann sollte sich der Projektleiter mit seinem Big-Data-Projekt auf innovative Felder konzentrieren, die einen guten und schnellen ROI versprechen und im Kontext von Kunden stehen. Die Kunden sollten einen wirklichen Mehrwert von dem implementierenden Unternehmen auf der Basis des Big-Data-Projekts erfahren können. Ein Big-Data-Projekt, das Erfolg für ein Unternehmen, also einen Mehrwert oder ROI generieren soll, startet also mit der Mehrwertbetrachtung. Der Mehrwert sollte wie bei jedem guten Projekt aus den Geschäftszielen des Unternehmens abgeleitet werden. Typischerweise handelt es sich um ein kundenorientiertes Projekt, das Daten einbezieht, die bisher einer eingehenden Analyse verschlossen geblieben sind (z. B. Social-Media-Daten, Streaming-Daten aus Image-Analysen, Mitbewerberbeobachtungen usw.). Andere Bereiche umfassen Qualitätsverbesserungsprojekte, die z. B. Transkriptionsdaten aus Callcentern, Kundendienstprotokolle in Textform oder auch Röntgenbilder oder Video-Auswertungen einbeziehen. Das Feld ist also weit und der Kreativität sind kaum Grenzen gesetzt. Letztlich geht es um die Digitalisierung der belebten Welt und um eine Anwendung von Auswertungs- und Analysefunktionen, die bisher nur für strukturierte Daten in klassischen relationalen Datenbanken sinnvoll einsetzbar waren.

Dabei ist es ein bestechender Gedanke, gleich zwei innovative Felder, die in der IT drängend sind, miteinander zu kombinieren: Mobility und Big Data. Aus diesem Grunde kann CIOs empfohlen werden, die Projektbüros für Big Data und Mobility zur Zusammenarbeit zu motivieren. Dadurch wird mindesten zweierlei erreicht:
  • Zum einen wird das Big-Data-Projekt nicht zur akademischen Übung, sondern zwingt zu schnellen Ergebnissen, die bei Mobility-Projekten ohnehin unabdingbar sind.
  • Andererseits haben Mobility-Projekte davon einen unmittelbaren Nutzen, der über klassische Formen von E-Mail-Zugriff und Spesenabrechnung hinausgeht.
Allerdings ist ein sehr enges Projektmanagement und eine solide Projektüberwachung seitens des CIOs erforderlich, der im Übrigen ein solches Kombiprojekt zur Chefsache erklären sollte.

Ausblick

Wir Analysten jedweder Provenienz gehen gemeinhin davon aus, dass sich Business Analytics inklusive Big Data weiterhin sehr dynamisch entwickeln werden. In einer Zeit, in der Intangible Assets für Unternehmen immer wichtiger werden und häufig den Wert von Tangible Assets schon lange überflügelt haben, ist ein professioneller Umgang mit Daten jedweder Art ein kritischer Erfolgsfaktor. Nach Business Process Reengineering und Einführung von fast allumfassenden ERP-Systemen ist eine Einbeziehung von semi-/polystrukturierten Daten die nächste große Welle, die die Unternehmen erreichen wird. Dabei kommen die verschiedensten Technologien zum Einsatz. Allerdings muss mit einer weiter dramatisch zunehmenden Geschwindigkeit bei der Speicherung von Daten und deren Auswertung bzw. Analyse gerechnet werden. Neben plattenbasierten Speichern haben derzeit schon vielfach SSD-Speicher (Solid State Disk) in die Computersysteme Einzug gehalten. Das wird aber nicht das Ende sein.
In diesem Zusammenhang sei auf einige weitere Technologiesprünge hingewiesen, die insbesondere auch auf Big Data nachhaltigen Einfluss haben werden. Massiv-Parallel-Systeme wurden bereits weiter oben diskutiert.

Als neue Speicherform könnten auf Nanotechnologie basierende Race-Track-Speicher [4] [5] mit sehr viel höherer Speicherkapazität zum Einsatz kommen. Diese unterstützen allerdings nach wie vor zweiwertige Logik.

Darüber hinaus ist mit dem Einsatz mehrwertiger Logik zu rechnen, da auf diese Weise eine weitere Parallelisierung vorangetrieben werden kann. Eine Unterstützung für mehrwertige Logik, die gerade auch für den Umgang von Big Data mit Kontextanalysen und semantischer Suche elementar werden können, könnte auf Phase-Change-Memory oder Memristoren basieren [6] [7]. Praktisch alle führenden Halbleiterhersteller arbeiten an derartigen Speicherelementen, deren Name ein Kunstwort aus Memory und Resistor ist. Auf diese Weise würde die hohe Parallelität der Prozessoren auch im Speichersystem abgebildet, ein Umstand, der gerade einer Verarbeitung von Big Data sehr entgegenkommt.

In einem nächsten Schritt könnten dann neuromorphische Chips zum Einsatz kommen [8]. Sie kombinieren klassische Digitalschaltungen mit Matrizen biologischer Neuronen. Damit würde die Leistungsfähigkeit des menschlichen Gehirns – insbesondere der hohe Grad der Parallelverarbeitung, mehrwertige Logik und die Logik neuronaler Netze – für Datenanalysen zugänglich. Wir befinden uns hier allerdings noch auf spekulativem Gebiet. Trotzdem ist diese Zukunft in Bezug auf Big Data Analytics nicht mehr sehr weit
entfernt. Vorausschauende CIOs beschäftigen sich besser heute als morgen mit diesen Themen, um nicht überrumpelt zu werden und um die eigenen IT-Architektur rechtzeitig darauf vorzubereiten. Vorboten dieser neuen Ära der Datenanalyse haben wir bereits in Form von Watson – einem System, das heute bereits in kommerziellen Projekten eingesetzt wird – kennengelernt. Und der nächste Schritt ist nicht weit: Neurosynaptic Chips und Cognitive Computing, das von der klassischen Von-Neumann-Architektur, wie wir sie heute praktisch ausschließlich nutzen, wegführt und dann in erster Linie zur Datenanalyse, Mustererkennung, semantischen Analyse und logischen Kombination eingesetzt werden wird. Die Defense Advanced Research Projects Agency (DARPA) der USA finanziert derzeit die Phase 2 des Systems-of-Neuromorphic-Adaptive-Plastic-Scalable-Electronics(SyNAPSE)-Projekts [9].

Literatur

[1] Worldwide Big Data Technology and Services, 2012–2015 Forecast, IDC Doc#233485, March 2012
[2] »The DeepQA Project« unter http://www.research.ibm.com/deepqa/deepqa.shtml (letzter Zugriff am 18.5.2012)
[3] »IBM‘s Watson supercomputer destroys all humans in Jeopardy« unter http://www.youtube.com/watch?v=WFR3lOm_xhE (letzter Zugriff am 18.5.2012)
[4] Wikipedia Racetrack Memory unter http://en.wikipedia.org/wiki/Racetrack_memory (letzter Zugriff am 18.5.2012)
[5] Spintronics Devices Research unter http://www.almaden.ibm.com/spinaps/research/sd/?racetrack (letzter Zugriff am 18.5.2012)
[6] Wikipedia Phase-change memory unter http://en.wikipedia.org/wiki/Phase-change_memory (letzter Zugriff am 18.5.2012)
[7] Wikipedia Memristor unter http://en.wikipedia.org/wiki/Memristor (letzter Zugriff am 18.5.2012)
[8] Scientific America, May 2005, Volume 292 number 5, Neuromorphic Chips
[9] International Business Times, 19. August 2011, »DARPA awards 21 Mio. US-Dollars …«