Archiv für die Kategorie ‘Allgemeines’

(© Bild: GSVA)

Gewonnen!

ParStream hat das Silicon-Valley-Förderprogramm des German Silicon Valley Accelerator (GSVA) gewonnen. Als eines von sechs aus über 40 Unternehmen wurde ParStream aufgrund seiner innovativen und wachstumsstarken Big Data Analytics Plattform ausgewählt, um drei Monate lang im Silicon Valley Kontakte zu Investoren, Neukunden und Partnern zu knüpfen.

Der Grund für die Förderung ist klar: Big Data ist das IT-Thema des Jahres 2012 – nicht nur hierzulande, sondern erst recht im Silicon Valley. Schließlich ist das Valley immer noch einer der wichtigsten Marktplätze für IT-Innovationen weltweit. Hier tummeln sich Venture-Capital-Firmen, die sogar spezielle Fonds eigens für das Thema Big Data aufgelegt haben. Hier gibt es risikobereite Unternehmen, die nach Innovationen verlangen, um den entscheidenden Wettbewerbsvorsprung zu erreichen. Und hier finden sich starke Partner, die das internationale Enterprise-Software-Geschäft in- und auswendig kennen.

Für uns als deutsches IT-Unternehmen ist die Förderung eine riesige Chance, um unser Netzwerk zu stärken. Der deutsche Markt ist eher zurückhaltend und vorsichtig, wenn es um neue Ideen junger Unternehmen geht. Die IT-Entscheider im Valley sind deutlich offener – das haben wir schon in ersten Gesprächen gemerkt. Mit Hilfe der hervorragend vernetzten GSVA-Spezialisten vor Ort werden wir sicher bald noch mehr spannende Kontakte dort haben.

Wenn Sie wissen wollen, welche Fortschritte und Erfahrungen wir im Silicon Valley machen, dann kommen Sie wieder hier vorbei. Wir halten Sie auf dem Laufenden.

P.S.: Die Medien interessieren sich übrigens auch für unsere Aktivitäten im US-Markt. Sehen Sie selbst: Financial Times Deutschland, VentureCapital Magazine, digitalbusiness Magazin, initiative mittelstand, FKT

Ende Juni wird sich das Who-is-Who der High Performance Computing Szene im Rahmen der International Supercomputing Conference im Hamburger CCH versammeln.

Die ISC ist ein globales Event und beinhaltet eine internationale wissenschaftliche Konferenz und Ausstellung zu den Themen Supercomputing, Hochleistungsrechnen, Networking und Storage. Traditionell wird im Rahmen dieser Konferenz die erste der beiden jährlichen Aktualisierungen der Supercomputer-Rangliste TOP500 veröffentlicht.
Die Ausstellung ist vom 20. bis 22. Juni geöffnet.

Das Datum sollte man sich auf jeden Fall freihalten. Aus Deutschland ist übrigens das Kölner ParStream-Team vor Ort.

Das ParStream-Team besucht die diesjährige ISC erstmalig als Aussteller und ist gespannt was es zu erwarten hat, und vor allem wie die HPC Szene auf die parallele analytische Datenbank ParStream reagieren wird. Sie sind in der Ausstellungshalle mit ihrem eigenen Stand (Nr. 813) zu finden.

Weitere Informationen unter :

www.parstream.com

www.isc11.org

Ende März in New York – es ist nahe null Grad, neblig und es schneit. Die eigentlich tolle Aussicht vom Konferenzzentrum am Chelsea Pier auf den Hudson kann man so auch nicht gerade genießen.

Die Veranstaltung war aber sehr interessant und erfolgreich. Den besten (und unterhaltsamsten) Vortrag hat Jeff Jonas gleich zu Anfang gehalten. Jeff ist Distinguished Engineer bei IBM, seitdem er sein Unternehmen, das sich mit der Analyse von Gambling Daten in Las Vegas beschäftigte, an Big Blue verkauft hat. Er berichtete u.a., dass es in den USA täglich 600 Milliarden Datensätze zu Handy-Ortungs Informationen anfallen. Hierüber kann man abenteuerliche Analysen fahren, und z.B. mit 87%iger Wahrscheinlichkeit vorhersagen, wo sich eine Person in zwei Stunden aufhalten wird. In Deutschland wird bei dem Gedanken jedem Datenschützer natürlich sofort schlecht, in den USA wird darüber geschmunzelt.

Generell waren die Vorträge sehr eng getaktet und dauerten jeweils nur zwischen 10 und maximal 40 Minuten für Panel-Diskussion. Die aktuellen Herausforderungen von Big Data wurden natürlich in jedem Beitrag intensiv besprochen, leider nur in wenigen Fällen mit konkreten Beispielen. Breiten Platz nimmt hierbei immer noch das Thema Map-Reduce / Hadoop ein. Das ist halt derzeit in Mode, aber eigentlich weiß jeder, dass dieser Ansatz nur für Batch Processing und nicht für Realtime Anfragen geeignet ist. Stattdessen versucht man mit jeder Menge zusätzlichen Software-Produkten (Hadoop-Ecosystem), die Funktionalitäten zu ergänzen und nachzubauen, die ein anständiges Datenbanksystem schon mit sich bringt.

Die ganz großen Anbieter (IBM, Oracle, Microsoft) suchte man in der Ausstellung vergeblich, was nicht wirklich verwunderlich ist. Sybase hatte eine kurze Präsentation und der CEO von Netezza (“an IBM Company”) war in einer Panel Diskussion.

Alles in allem hat sich der Trip nach New York wirklich gelohnt, hauptsächlich aber wegen der interessanten Gespräche, die ich in den Pausen und am Rande führen konnte.

Was ist Big data?

verfasst von Jörg Bienert unter Allgemeines, Definition

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terrabytes, Petabytes und Zettabytes.

Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle 5 Jahre. Dieser Trend wird verstärkt durch die zunehmende maschinelle Erzeugung von Daten z.B. über Protokolle von Telekommunikationsverbinden (CDR) und Web-Zugriffen (Weblogs), automatische Erfassungen von RFID Lesern, Kameras, Microphonen und sonstigen Sensoren. Weitere Beispiele für Big Data gibt es in der Finanzindustrie (Finanz-Transaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen) und in vielen anderen Bereichen. In der Wissenschaft fallen ebenfalls große Datenmengen an, z.B. in der Geologie, Genetik, Klimaforschung und Kernphysik.

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zu Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und die Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind.

  • Zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
  • Bessere, schnellere Marktforschung
  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection).
  • Einführung und Optimierung von intelligenter Energie-Verbrauchssteuerung (Smart-Meetering)
  • Erkennung von Interpendenzen in der medizinischen Behandlin
  • Real-Time Cross- und Upsellung im eCommerce und stationären Vertrieb
  • Aufbau von flexiblen Billing-Systemen in der Telekommunikation

Klassische relationale Datenbanksysteme sowie Statistik und Visualisierungstools sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen

  • Verarbeitung von vielen Datensätzen
  • Verarbeitung von vielen Spalten innerhalb eines Datensatzes
  • Schneller Import von großen Datenmengen
  • Sofortige Abfragemöglichkeit von importieren Daten (Real-Time-Processing)
  • Kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung von vielen gleichzeitigen Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der Map Reduce Ansatz, der in der Open Source Software Hadoop, sowie in einigen kommerziellen Produkten (Aster Data, Greenplum, etc) zum Einsatz kommt.

Interessant ist auch der Ansatz, neuartige Indizierungstechniken für die hochparallel Verarbeitung zum Einsatz zu bringen wie bei ParStream.

Willkommen im Big Data Blog

verfasst von Jörg Bienert unter Allgemeines

Herzlich Willkommen im Big Data Blog. Meine Kollegen und ich, wir werden hier in unregelmäßigen aber nicht zu großen Abständen über das Thema Big Data berichten. Hierzu zählen wir unter anderem folgende Bereiche

  • Aktuelle Herausforderungen in der Analyse von Massendaten
  • Verfahren zur Verarbeitung von großen Datenmengen
  • Infrastrukturen, Tools, Datenbanken
  • Praxisberichte aus verschiedenen Industrien
  • Produktentwicklungen
  • Internationale Nachrichten

Wir freuen uns über jede Art von Input, Diskussionsbeiträgen, Kritiken, Hinweisen etc.

Viele Grüße

Jörg Bienert