Datenbank-Technologien für BigData
Ich habe jüngst einen guten Grundlagenartikel zu den verfügbaren Datenbank-Technologien für BigData gefunden den ich für so gut halte, dass ich ihn hier referenzieren möchte.
Im Artikel von Park Kieun (CUBRID Cluster Architect) geht es nicht in erster Linie um Datenbank-Produkte sondern um die grundsätzliche Unterscheidung der Technologie-Ansätze. Insofern muss man die aufgeführten Produkte als Beispiele und nicht als vollständige Liste verstehen. Die wesentlichen Passagen will ich hier kurz zitieren… eine ausführliche Beschreibung der von ihm vorgeschlagenen Kategorien finden sich in seinem Blog-Artikel “Database Technology for Large Scale Data”
- Massively Parallel Processing (MPP) or parallel DBMS – A system that parallelizes the query execution of a DBMS, and splits queries and allocates them to multiple DBMS nodes in order to process massive amounts of data concurrently.
Examples: EBay DW, Yahoo! Everest Architecture, Greenplum, AsterData - Column-oriented database – A system that stores the values in the same field as a column, as opposed to the conventional ow method that stores them as individual records.
Examples: Vertica, Sybase IQ, MonetDB - Streaming processing (ESP or CEP) – A system that processes a constant data (or events) stream, or a concept in which the content of a database is continuously changing over time.
Examples: Truviso - Key-value storage (with MapReduce programming model) – A storage system that focuses on enhancing the performance when reading a single record by adopting the key-value data model, which is simpler than the relational data model.
Examples: many of the NoSQL databases covered here.
Ich habe bei Kieun nachgefragt ob er diese vier Begriffe exklusiv im Sinne von Kategorien versteht oder um es sich um Eigenschaften handelt. Beispiel: muss man ParStream – ist eine spaltenorientierte Datenbank mit massiv-paralleler verteilter Verarbeitung der Abfragen, i.e. erfüllt die von ihm aufgeführten Kriterien für MPP und Columinar DBs und sogar schon einige aus der Kategorie Streaming – in eine der obigen Kategorien zwängen oder bezeichnet man s.E. so eine Datenbank als “MPP-Columinar-Streaming-DB”? I will keep you posted.



