Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terrabytes, Petabytes und Zettabytes.
Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle 5 Jahre. Dieser Trend wird verstärkt durch die zunehmende maschinelle Erzeugung von Daten z.B. über Protokolle von Telekommunikationsverbinden (CDR) und Web-Zugriffen (Weblogs), automatische Erfassungen von RFID Lesern, Kameras, Microphonen und sonstigen Sensoren. Weitere Beispiele für Big Data gibt es in der Finanzindustrie (Finanz-Transaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen) und in vielen anderen Bereichen. In der Wissenschaft fallen ebenfalls große Datenmengen an, z.B. in der Geologie, Genetik, Klimaforschung und Kernphysik.
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zu Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und die Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind.
- Zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
- Bessere, schnellere Marktforschung
- Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection).
- Einführung und Optimierung von intelligenter Energie-Verbrauchssteuerung (Smart-Meetering)
- Erkennung von Interpendenzen in der medizinischen Behandlin
- Real-Time Cross- und Upsellung im eCommerce und stationären Vertrieb
- Aufbau von flexiblen Billing-Systemen in der Telekommunikation
Klassische relationale Datenbanksysteme sowie Statistik und Visualisierungstools sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen
- Verarbeitung von vielen Datensätzen
- Verarbeitung von vielen Spalten innerhalb eines Datensatzes
- Schneller Import von großen Datenmengen
- Sofortige Abfragemöglichkeit von importieren Daten (Real-Time-Processing)
- Kurze Antwortzeiten auch bei komplexen Abfragen
- Möglichkeit zur Verarbeitung von vielen gleichzeitigen Abfragen (Concurrent Queries)
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der Map Reduce Ansatz, der in der Open Source Software Hadoop, sowie in einigen kommerziellen Produkten (Aster Data, Greenplum, etc) zum Einsatz kommt.
Interessant ist auch der Ansatz, neuartige Indizierungstechniken für die hochparallel Verarbeitung zum Einsatz zu bringen wie bei ParStream.