Archiv fürFebruar, 2011

Datenbank-Technologien für BigData

verfasst von Michael Hummel unter Artikel, Definition

Ich habe jüngst einen guten Grundlagenartikel zu den verfügbaren Datenbank-Technologien für BigData gefunden den ich für so gut halte, dass ich ihn hier referenzieren möchte.
Im Artikel von Park Kieun (CUBRID Cluster Architect) geht es nicht in erster Linie um Datenbank-Produkte sondern um die grundsätzliche Unterscheidung der Technologie-Ansätze. Insofern muss man die aufgeführten Produkte als Beispiele und nicht als vollständige Liste verstehen. Die wesentlichen Passagen will ich hier kurz zitieren… eine ausführliche Beschreibung der von ihm vorgeschlagenen Kategorien finden sich in seinem Blog-Artikel “Database Technology for Large Scale Data”

  • Massively Parallel Processing (MPP) or parallel DBMS – A system that parallelizes the query execution of a DBMS, and splits queries and allocates them to multiple DBMS nodes in order to process massive amounts of data concurrently.
    Examples: EBay DW, Yahoo! Everest Architecture, Greenplum, AsterData
  • Column-oriented database – A system that stores the values in the same field as a column, as opposed to the conventional ow method that stores them as individual records.
    Examples: Vertica, Sybase IQ, MonetDB
  • Streaming processing (ESP or CEP) – A system that processes a constant data (or events) stream, or a concept in which the content of a database is continuously changing over time.
    Examples: Truviso
  • Key-value storage (with MapReduce programming model) – A storage system that focuses on enhancing the performance when reading a single record by adopting the key-value data model, which is simpler than the relational data model.
    Examples: many of the NoSQL databases covered here.

Ich habe bei Kieun nachgefragt ob er diese vier Begriffe exklusiv im Sinne von Kategorien versteht oder um es sich um Eigenschaften handelt.  Beispiel: muss man ParStream – ist eine spaltenorientierte Datenbank mit massiv-paralleler verteilter Verarbeitung der Abfragen, i.e. erfüllt die von ihm aufgeführten Kriterien für MPP und Columinar DBs und sogar schon einige aus der Kategorie Streaming – in eine der obigen Kategorien zwängen oder bezeichnet man s.E. so eine Datenbank als “MPP-Columinar-Streaming-DB”?    I will keep you posted.

Big Data Gruppe auf Xing

verfasst von Jörg Bienert unter Community

Wir haben in XING die Gruppe Big Data gegründet und möchten alle interessierten XING Mitglieder einladen, am Informationsaustausch und Diskussionen teilzunehmen

Big Data in Medizin und Biologie

verfasst von Jörg Bienert unter Anwendungsgebiete

Über das Medinfo Blog bin ich auf einen Artikel aufmerksam geworden, der Big Data schon in 2008 intensiv behandelte. In dem Special von Nature geht es dabei natürlich im Wesentlichen um die Bedeutung von Big Data in Medizin, Biologie und Genetik.

„The next big thing will come from connecting people and ideas together with a Google-like simplicity — making Wikipedia, Facebook and all sorts of other things completely seamless.

Pioneering biologists are trying to use wiki-type web pages to manage and interpret data, reports Mitch Waldrop. But will the wider research community go along with the experiment?”

Big Data ist Kernkompetenz

verfasst von Jörg Bienert unter Interviews

Roger Magoulas, ist Director of Research bei O’Reilly. In einem Interview nimmt er Stellung zur Bedeutung von Big Data:

„Big Data has become really the key core competence in the information age, what distinguishes the current era. It’s really when data is large enough that you really have to think about it: How you’re going to organise it, how you’re going to store it, how you’re going to manage it, in order to gain some benefit from it. Big data can confer enormous competitive advantage for those who can make the most sense out of it and take actions based on what they’re learning.”

Weitere Interviews auch zu konkreten Anwendungsfällen finden sich im Fischmarkt Blog-Eintrag.

Big Data is the next Big Thing

verfasst von Jörg Bienert unter Interviews

Jeff Jonas ist Chief Scientist bei IBM Entity Analytics Group und gibt bei Techcrunch TV ein ausführliches Interview über Big Data.

Data Data Everywhere

verfasst von Jörg Bienert unter Artikel

Einer aus der Business-Perskeptive interessantesten und umfassendendsten Artikel über Big Data ist bereits im April letzten Jahres bei „The Econonist” erschienen und kann hier heruntergeladen werden.

Zitate:

  • „Wir sind einem neuen Zeitalter aufgrund der Menge an Daten“ James Cortada of IBM
  • „..die Herausforderung besteht darin, Informationen aus den Daten zu gewinnen„Hal Varian, Google’s chief economist
  • “Jeden Tag frage ich mich aufs Neue, wie kann ich Daten besser verarbeiten und analysierenRollin Ford, the CIO of Wal-Mart.
  • “Die Daten zentrierte Wirtschaft beginnt gerade erst“ Mr Mundie of Microsoft. “
  • Der Marktwert der Branche beträgt mehr als $100 Milliarden $ und wächst jährlich um 10%, doppelt so schnell wie das der restliche Softwaremarkt.
  • In den vergangenen Jahren haben Oracle, IBM, Microsoft and SAP mehr als 15 Milliarden Dollar für die Übernahme von Unternehmen ausgegeben, die sich auf Datenanalyse spezialisiert haben.

Lars Hinrich über Big Data

verfasst von Jörg Bienert unter Interviews

Während sich in den USA ein Hype zu Big Data entwickelt (mehr dazu später) , schlummert das Thema in Deutschland noch. Hierzulande richtet sich das Interesse der öffentlichen IT-Aufmerksamkeit, Presse und Konferenzwelt vor allem um das Thema Cloud Computing

Auf Fischmarkt habe ich folgendes Interview mit Xing Gründer Lars Hinrich, der mit hackfwd eine neuartige Investitionsfirma gegründet hat und die Bedeutung von Big Data früh erkannt hat, gefunden.

„Wir glauben, dass der große Trend hingeht zu Big Data. Big Data bedeutet, wie verarbeite ich Millionen von Daten gleichzeitig um daraus neue interessante Applikationen für den Kunden zu schaffen.“