Datenexplosion in der Unternehmens-IT
Laut einer aktuellen Studie von BT Germany erwarten IT-Entscheider in den kommenden zwei Jahren einen Zuwachs des Datenvolumens von mehr als 40 Prozent. Damit ist Big Data und Big Data Analytics offensichtlich  in den Unternehmen angekommen – zumindest in den Köpfen, denn alle befragten IT-Verantwortlichen sehen in dieser Entwicklung eine erhebliche strategische Relevanz. Allerdings besteht noch erheblicher Handlungsbedarf, laut den befragten IT-Entscheidern unter anderem bei der Speicherung und effizienten Verarbeitung der Datenmengen.

Die Ergebnisse der Studie „Datenexplosion in der Unternehmens-IT“ zeigen: Big Data ist längst mehr als ein reiner Trendbegriff. Für die strategische Relevanz des Themas spricht ebenfalls, dass sich knapp über die Hälfte der Unternehmen bereits mit dem Thema Big Data beschäftigt hat; ein weiteres Viertel der Befragten plant, sich künftig mit dem Thema zu befassen. Konkret haben jedoch lediglich acht Prozent der Unternehmen entsprechende Lösungen schon in ihre Prozesse integriert.

mehr Lesen »

(© Bild: GSVA)

Gewonnen!

ParStream hat das Silicon-Valley-Förderprogramm des German Silicon Valley Accelerator (GSVA) gewonnen. Als eines von sechs aus über 40 Unternehmen wurde ParStream aufgrund seiner innovativen und wachstumsstarken Big Data Analytics Plattform ausgewählt, um drei Monate lang im Silicon Valley Kontakte zu Investoren, Neukunden und Partnern zu knüpfen.

Der Grund für die Förderung ist klar: Big Data ist das IT-Thema des Jahres 2012 – nicht nur hierzulande, sondern erst recht im Silicon Valley. Schließlich ist das Valley immer noch einer der wichtigsten Marktplätze für IT-Innovationen weltweit. Hier tummeln sich Venture-Capital-Firmen, die sogar spezielle Fonds eigens für das Thema Big Data aufgelegt haben. Hier gibt es risikobereite Unternehmen, die nach Innovationen verlangen, um den entscheidenden Wettbewerbsvorsprung zu erreichen. Und hier finden sich starke Partner, die das internationale Enterprise-Software-Geschäft in- und auswendig kennen.

Für uns als deutsches IT-Unternehmen ist die Förderung eine riesige Chance, um unser Netzwerk zu stärken. Der deutsche Markt ist eher zurückhaltend und vorsichtig, wenn es um neue Ideen junger Unternehmen geht. Die IT-Entscheider im Valley sind deutlich offener – das haben wir schon in ersten Gesprächen gemerkt. Mit Hilfe der hervorragend vernetzten GSVA-Spezialisten vor Ort werden wir sicher bald noch mehr spannende Kontakte dort haben.

Wenn Sie wissen wollen, welche Fortschritte und Erfahrungen wir im Silicon Valley machen, dann kommen Sie wieder hier vorbei. Wir halten Sie auf dem Laufenden.

P.S.: Die Medien interessieren sich übrigens auch für unsere Aktivitäten im US-Markt. Sehen Sie selbst: Financial Times Deutschland, VentureCapital Magazine, digitalbusiness Magazin, initiative mittelstand, FKT

Letzte Woche war ich auf der Konferenz für „Extremely Large Databases“ auf dem Gelände des SLAC in Palo Alto. Die Veranstaltung war mit mehr als 300 Besuchern und über 50 Gästen auf der Warteliste mehr als überbucht. Vertreter von Linkedin, Facebook, Zynga, ebay gaben Einblick in die Praxis von Big Data Management in ihren Unternehmen. Daneben gab es eine Reihe von spannenden Vorträgen über die Massendatenverarbeitung in Wissenschaft und Forschung.

Ein zentrales, auch sehr kontrovers diskutiertes Thema war die Fragestellung, ob klassische Datenbankenarchitekturen oder NoSQL Ansätze wie Hadoop oder Cassandra bessere Big Data Lösungen bereitstellen können. Datenbankpapst Michael Stonebraker brachte es in seinem ersten Vortrag auf den Punkt. Seiner Meinung nach sind die Shared-Nothing Architekturen der verteilten RDBMS auf jeden Fall besser skalierbar als die Shared-Disk Ansätze von Hadoop & Co. Dabei provozierter er auch bewusst mit der Aussage: „Um aus dem Hadoop Framework eine Datenbank zu machen, muss man fast alles drumherum bauen, was eine richtige DB ausmacht“.

Wie man die Stärken beider Ansätze nutzen kann zeigte, Thomas Fastner von ebay, der übrigens auch auf dem Big Data Forum am 29. /30 11 in Düsseldorf präsentieren wird. Während Linkedin, Facebook und weitere sich auf NoSQL fokussieren und dabei enorme Server-Infrastrukturen und große Entwicklungsleistungen benötigen, kombiniert ebay die existierende Teradata Infrastruktur mit dem Einsatz von Hadoop. Der Einsatz von Hadoop beschränkt sich hierbei aber auf die Verarbeitung von unstrtukturierten Daten.

Zum Abschluss gab es dann noch drei Präsentation über Big Data Analytics in der Cloud und auch hier wurde heftig debattiert über die Bedeutung von Cloud Computing für Big Data. Während einige Vertreter behaupteten zukünftig werde alle Datenverarbeitung in der Wolke stattfinden (Zitat „your own datacenter is so 90`s“), zeigten andere auf die Problematiken mit Datensicherheit und garantierter Verfügbarkeit.

Alles in allem eine klasse Veranstaltung mit spannenden Beiträgen und interessanten Gesprächen in den Pausen. Wer mehr über die dort gehaltenen Vorträge erfahren möchte, kann mich gerne unter Joerg.Bienert@ParStream.com kontaktieren.

PS: Zum Lunch gab es dann sogar “German Bratwurst with Kraut”; kam dem Original schon ziemlich nah.



Gartner hat Big Data zum ersten mal in den aktuellen Hypecycle aufgenommen.

Der Hype Cycle zum Thema „Emerging Technologies“ wird von Gartner seit 1995 jährlich veröffentlicht. Hierbei werden von den Analysten Reifegrad, Geschäftsnutzen und Potential von neuen Technologien bewertet. Die Kurve stellt dabei den Verlauf von anfänglicher Begeisterung, nachfolgender Desillusionierung und einsetzendem Realismus dar, der jede neue Technik und Innovation begleitet.

In den Studien von Gartner wird der Begriff Big Data meist durch „Extreme Information Processing“ ergänzt, eine aus meiner Sicht passende Interpretation, da die Herausforderungen nicht in der puren Speicherung von Daten, sondern in der schnellen und flexiblen Verarbeitung von Massendaten liegen.

Der Artikel kann hier nachgelesen werden.



Der Markt für Big Data -Technologien wächst rasant und Anwendern fällt es zunehmend schwerer eine Produktauswahl zu treffen.

Laufend entstehen neue Anwendungsfelder und Produkte, so dass eine Einordnung immer schwieriger wird. Die uneinheitliche Verwendung von Fachbegriffen wie z.B. „low latency“ erleichtert die Orientierung nicht.

Kurt Monash, Berater und Autor des DBMS2 Blogs, hat sich mit dieser Frage befasst und macht einen Vorschlag zur Kategorisierung von Big Data Analyse-Technologien. Monash erklärt „Eine Kategorisierung kann niemals perfekt sein, allerdings weisen die Kategorien zumindest ein gewisses Maß an technischer Homogenität auf“.

Monash schlägt folgende 8 Kategorien für Big Data Analytics Produkte vor:

-Enterprise data warehouse (Full or partial)

-Traditional data mart

-Investigative data mart – agile

-Investigative data mart – big

-Bit bucket

-Archival data store

-Outsourced data mart

-Operational analytic(s) server

Wünschenswert und Notwendig ist eine Strukturierung des Marktes da sie den Anwendern und auch Anbietern die Orientierung und Positionierung erleichtert. Die großen Research-Firmen wie Gartner, TDWI und IDC haben jeweils eigene Kategorisierungen und so darf man gespannt sein, welche Struktur sich schlussendlich durchsetzt.

Eight kinds of analytic database (Part 1)

Eight kinds of analytic database (Part 2)

DBMS2 Blog-Kurt Monash


Big Data erhält in den USA immer mehr Aufmerksamkeit. So hat das Mckinsey Global Institute gerade eine 159 Seiten starke Studie veröffentlicht unter dem Thema „Big Data: The Next Frontier for Innovation, Competition and Productivity“ (sehr lesenswert). Und die Financial Times nimmt dies zum Anlass, einen ausgiebigen Artikel zu verfassen. Hier die Highlights:
Daten sind ein wichtiger Rohstoff der Informationswirtschaft, ähnlich wie es Kohle und Eisenerz in der industriellen Revolution waren. Aber die Wirtschaft lernt gerade erst, wie man große Datenmengen richtig verarbeitet.

Die Menge an Geschäftsdaten verdoppelt sich circa alle 1,2 Jahre. Es gibt viele Bereiche, in denen die Menge der Daten derzeit rapide ansteigt. Dazu zählen zum Beispiel Sendungsverfolgung, E-Mail, Web-Datenverkehr und Social Media.

Große Datenmengen fallen in allen Branchen an und sind ein wesentlicher Faktor der Produktion. Big Data wird dazu beitragen, neue Wachstumsmöglichkeiten und völlig neue Kategorien von Unternehmen zu schaffen, So könnten z.B. durch die Nutzung von Big Data Analysis im US-Gesundheitssystem jährlich 300 Milliarden Dollar eingespart werden.

Es gibt fünf Herausforderungen im Management von Big Data:

  • Große Datenmengen besser und schneller verfügbar machen
  • Mit Hilfe von Analysetechniken Reaktionen und Leistungen zu verbessern.
  • Sinnvolle Segmentierung durchzuführen und ständig anzupassen.
  • Durch automatisierte Algorithmen die Entscheidungsfindung zu unterstützen und zu automatisieren
  • Neue und innovative Geschäftsmodelle, Produkte und Dienstleistungen zu gestalten.

Ende Juni wird sich das Who-is-Who der High Performance Computing Szene im Rahmen der International Supercomputing Conference im Hamburger CCH versammeln.

Die ISC ist ein globales Event und beinhaltet eine internationale wissenschaftliche Konferenz und Ausstellung zu den Themen Supercomputing, Hochleistungsrechnen, Networking und Storage. Traditionell wird im Rahmen dieser Konferenz die erste der beiden jährlichen Aktualisierungen der Supercomputer-Rangliste TOP500 veröffentlicht.
Die Ausstellung ist vom 20. bis 22. Juni geöffnet.

Das Datum sollte man sich auf jeden Fall freihalten. Aus Deutschland ist übrigens das Kölner ParStream-Team vor Ort.

Das ParStream-Team besucht die diesjährige ISC erstmalig als Aussteller und ist gespannt was es zu erwarten hat, und vor allem wie die HPC Szene auf die parallele analytische Datenbank ParStream reagieren wird. Sie sind in der Ausstellungshalle mit ihrem eigenen Stand (Nr. 813) zu finden.

Weitere Informationen unter :

www.parstream.com

www.isc11.org

Ende März in New York – es ist nahe null Grad, neblig und es schneit. Die eigentlich tolle Aussicht vom Konferenzzentrum am Chelsea Pier auf den Hudson kann man so auch nicht gerade genießen.

Die Veranstaltung war aber sehr interessant und erfolgreich. Den besten (und unterhaltsamsten) Vortrag hat Jeff Jonas gleich zu Anfang gehalten. Jeff ist Distinguished Engineer bei IBM, seitdem er sein Unternehmen, das sich mit der Analyse von Gambling Daten in Las Vegas beschäftigte, an Big Blue verkauft hat. Er berichtete u.a., dass es in den USA täglich 600 Milliarden Datensätze zu Handy-Ortungs Informationen anfallen. Hierüber kann man abenteuerliche Analysen fahren, und z.B. mit 87%iger Wahrscheinlichkeit vorhersagen, wo sich eine Person in zwei Stunden aufhalten wird. In Deutschland wird bei dem Gedanken jedem Datenschützer natürlich sofort schlecht, in den USA wird darüber geschmunzelt.

Generell waren die Vorträge sehr eng getaktet und dauerten jeweils nur zwischen 10 und maximal 40 Minuten für Panel-Diskussion. Die aktuellen Herausforderungen von Big Data wurden natürlich in jedem Beitrag intensiv besprochen, leider nur in wenigen Fällen mit konkreten Beispielen. Breiten Platz nimmt hierbei immer noch das Thema Map-Reduce / Hadoop ein. Das ist halt derzeit in Mode, aber eigentlich weiß jeder, dass dieser Ansatz nur für Batch Processing und nicht für Realtime Anfragen geeignet ist. Stattdessen versucht man mit jeder Menge zusätzlichen Software-Produkten (Hadoop-Ecosystem), die Funktionalitäten zu ergänzen und nachzubauen, die ein anständiges Datenbanksystem schon mit sich bringt.

Die ganz großen Anbieter (IBM, Oracle, Microsoft) suchte man in der Ausstellung vergeblich, was nicht wirklich verwunderlich ist. Sybase hatte eine kurze Präsentation und der CEO von Netezza (“an IBM Company”) war in einer Panel Diskussion.

Alles in allem hat sich der Trip nach New York wirklich gelohnt, hauptsächlich aber wegen der interessanten Gespräche, die ich in den Pausen und am Rande führen konnte.

Datenbank-Technologien für BigData

verfasst von Michael Hummel unter Artikel, Definition

Ich habe jüngst einen guten Grundlagenartikel zu den verfügbaren Datenbank-Technologien für BigData gefunden den ich für so gut halte, dass ich ihn hier referenzieren möchte.
Im Artikel von Park Kieun (CUBRID Cluster Architect) geht es nicht in erster Linie um Datenbank-Produkte sondern um die grundsätzliche Unterscheidung der Technologie-Ansätze. Insofern muss man die aufgeführten Produkte als Beispiele und nicht als vollständige Liste verstehen. Die wesentlichen Passagen will ich hier kurz zitieren… eine ausführliche Beschreibung der von ihm vorgeschlagenen Kategorien finden sich in seinem Blog-Artikel “Database Technology for Large Scale Data”

  • Massively Parallel Processing (MPP) or parallel DBMS – A system that parallelizes the query execution of a DBMS, and splits queries and allocates them to multiple DBMS nodes in order to process massive amounts of data concurrently.
    Examples: EBay DW, Yahoo! Everest Architecture, Greenplum, AsterData
  • Column-oriented database – A system that stores the values in the same field as a column, as opposed to the conventional ow method that stores them as individual records.
    Examples: Vertica, Sybase IQ, MonetDB
  • Streaming processing (ESP or CEP) – A system that processes a constant data (or events) stream, or a concept in which the content of a database is continuously changing over time.
    Examples: Truviso
  • Key-value storage (with MapReduce programming model) – A storage system that focuses on enhancing the performance when reading a single record by adopting the key-value data model, which is simpler than the relational data model.
    Examples: many of the NoSQL databases covered here.

Ich habe bei Kieun nachgefragt ob er diese vier Begriffe exklusiv im Sinne von Kategorien versteht oder um es sich um Eigenschaften handelt.  Beispiel: muss man ParStream – ist eine spaltenorientierte Datenbank mit massiv-paralleler verteilter Verarbeitung der Abfragen, i.e. erfüllt die von ihm aufgeführten Kriterien für MPP und Columinar DBs und sogar schon einige aus der Kategorie Streaming – in eine der obigen Kategorien zwängen oder bezeichnet man s.E. so eine Datenbank als “MPP-Columinar-Streaming-DB”?    I will keep you posted.

Big Data Gruppe auf Xing

verfasst von Jörg Bienert unter Community

Wir haben in XING die Gruppe Big Data gegründet und möchten alle interessierten XING Mitglieder einladen, am Informationsaustausch und Diskussionen teilzunehmen