Archiv für die Kategorie ‘Definition’



Der Markt für Big Data -Technologien wächst rasant und Anwendern fällt es zunehmend schwerer eine Produktauswahl zu treffen.

Laufend entstehen neue Anwendungsfelder und Produkte, so dass eine Einordnung immer schwieriger wird. Die uneinheitliche Verwendung von Fachbegriffen wie z.B. „low latency“ erleichtert die Orientierung nicht.

Kurt Monash, Berater und Autor des DBMS2 Blogs, hat sich mit dieser Frage befasst und macht einen Vorschlag zur Kategorisierung von Big Data Analyse-Technologien. Monash erklärt „Eine Kategorisierung kann niemals perfekt sein, allerdings weisen die Kategorien zumindest ein gewisses Maß an technischer Homogenität auf“.

Monash schlägt folgende 8 Kategorien für Big Data Analytics Produkte vor:

-Enterprise data warehouse (Full or partial)

-Traditional data mart

-Investigative data mart – agile

-Investigative data mart – big

-Bit bucket

-Archival data store

-Outsourced data mart

-Operational analytic(s) server

Wünschenswert und Notwendig ist eine Strukturierung des Marktes da sie den Anwendern und auch Anbietern die Orientierung und Positionierung erleichtert. Die großen Research-Firmen wie Gartner, TDWI und IDC haben jeweils eigene Kategorisierungen und so darf man gespannt sein, welche Struktur sich schlussendlich durchsetzt.

Eight kinds of analytic database (Part 1)

Eight kinds of analytic database (Part 2)

DBMS2 Blog-Kurt Monash


Big Data erhält in den USA immer mehr Aufmerksamkeit. So hat das Mckinsey Global Institute gerade eine 159 Seiten starke Studie veröffentlicht unter dem Thema „Big Data: The Next Frontier for Innovation, Competition and Productivity“ (sehr lesenswert). Und die Financial Times nimmt dies zum Anlass, einen ausgiebigen Artikel zu verfassen. Hier die Highlights:
Daten sind ein wichtiger Rohstoff der Informationswirtschaft, ähnlich wie es Kohle und Eisenerz in der industriellen Revolution waren. Aber die Wirtschaft lernt gerade erst, wie man große Datenmengen richtig verarbeitet.

Die Menge an Geschäftsdaten verdoppelt sich circa alle 1,2 Jahre. Es gibt viele Bereiche, in denen die Menge der Daten derzeit rapide ansteigt. Dazu zählen zum Beispiel Sendungsverfolgung, E-Mail, Web-Datenverkehr und Social Media.

Große Datenmengen fallen in allen Branchen an und sind ein wesentlicher Faktor der Produktion. Big Data wird dazu beitragen, neue Wachstumsmöglichkeiten und völlig neue Kategorien von Unternehmen zu schaffen, So könnten z.B. durch die Nutzung von Big Data Analysis im US-Gesundheitssystem jährlich 300 Milliarden Dollar eingespart werden.

Es gibt fünf Herausforderungen im Management von Big Data:

  • Große Datenmengen besser und schneller verfügbar machen
  • Mit Hilfe von Analysetechniken Reaktionen und Leistungen zu verbessern.
  • Sinnvolle Segmentierung durchzuführen und ständig anzupassen.
  • Durch automatisierte Algorithmen die Entscheidungsfindung zu unterstützen und zu automatisieren
  • Neue und innovative Geschäftsmodelle, Produkte und Dienstleistungen zu gestalten.

Datenbank-Technologien für BigData

verfasst von Michael Hummel unter Artikel, Definition

Ich habe jüngst einen guten Grundlagenartikel zu den verfügbaren Datenbank-Technologien für BigData gefunden den ich für so gut halte, dass ich ihn hier referenzieren möchte.
Im Artikel von Park Kieun (CUBRID Cluster Architect) geht es nicht in erster Linie um Datenbank-Produkte sondern um die grundsätzliche Unterscheidung der Technologie-Ansätze. Insofern muss man die aufgeführten Produkte als Beispiele und nicht als vollständige Liste verstehen. Die wesentlichen Passagen will ich hier kurz zitieren… eine ausführliche Beschreibung der von ihm vorgeschlagenen Kategorien finden sich in seinem Blog-Artikel “Database Technology for Large Scale Data”

  • Massively Parallel Processing (MPP) or parallel DBMS – A system that parallelizes the query execution of a DBMS, and splits queries and allocates them to multiple DBMS nodes in order to process massive amounts of data concurrently.
    Examples: EBay DW, Yahoo! Everest Architecture, Greenplum, AsterData
  • Column-oriented database – A system that stores the values in the same field as a column, as opposed to the conventional ow method that stores them as individual records.
    Examples: Vertica, Sybase IQ, MonetDB
  • Streaming processing (ESP or CEP) – A system that processes a constant data (or events) stream, or a concept in which the content of a database is continuously changing over time.
    Examples: Truviso
  • Key-value storage (with MapReduce programming model) – A storage system that focuses on enhancing the performance when reading a single record by adopting the key-value data model, which is simpler than the relational data model.
    Examples: many of the NoSQL databases covered here.

Ich habe bei Kieun nachgefragt ob er diese vier Begriffe exklusiv im Sinne von Kategorien versteht oder um es sich um Eigenschaften handelt.  Beispiel: muss man ParStream – ist eine spaltenorientierte Datenbank mit massiv-paralleler verteilter Verarbeitung der Abfragen, i.e. erfüllt die von ihm aufgeführten Kriterien für MPP und Columinar DBs und sogar schon einige aus der Kategorie Streaming – in eine der obigen Kategorien zwängen oder bezeichnet man s.E. so eine Datenbank als “MPP-Columinar-Streaming-DB”?    I will keep you posted.

Was ist Big data?

verfasst von Jörg Bienert unter Allgemeines, Definition

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terrabytes, Petabytes und Zettabytes.

Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle 5 Jahre. Dieser Trend wird verstärkt durch die zunehmende maschinelle Erzeugung von Daten z.B. über Protokolle von Telekommunikationsverbinden (CDR) und Web-Zugriffen (Weblogs), automatische Erfassungen von RFID Lesern, Kameras, Microphonen und sonstigen Sensoren. Weitere Beispiele für Big Data gibt es in der Finanzindustrie (Finanz-Transaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen) und in vielen anderen Bereichen. In der Wissenschaft fallen ebenfalls große Datenmengen an, z.B. in der Geologie, Genetik, Klimaforschung und Kernphysik.

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zu Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und die Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind.

  • Zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
  • Bessere, schnellere Marktforschung
  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection).
  • Einführung und Optimierung von intelligenter Energie-Verbrauchssteuerung (Smart-Meetering)
  • Erkennung von Interpendenzen in der medizinischen Behandlin
  • Real-Time Cross- und Upsellung im eCommerce und stationären Vertrieb
  • Aufbau von flexiblen Billing-Systemen in der Telekommunikation

Klassische relationale Datenbanksysteme sowie Statistik und Visualisierungstools sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen

  • Verarbeitung von vielen Datensätzen
  • Verarbeitung von vielen Spalten innerhalb eines Datensatzes
  • Schneller Import von großen Datenmengen
  • Sofortige Abfragemöglichkeit von importieren Daten (Real-Time-Processing)
  • Kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung von vielen gleichzeitigen Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der Map Reduce Ansatz, der in der Open Source Software Hadoop, sowie in einigen kommerziellen Produkten (Aster Data, Greenplum, etc) zum Einsatz kommt.

Interessant ist auch der Ansatz, neuartige Indizierungstechniken für die hochparallel Verarbeitung zum Einsatz zu bringen wie bei ParStream.