HadoopDB – Hybrid aus Hadoop und PostgreSQL

Die Skalierbarkeit von Hadoop, kombiniert mit der Geschwindigkeit eines parallelen Datenbanksystems. Das soll HadoopDB bieten – ein freies paralleles shared-nothing Datenbanksystem, das mit einer an SQL angelehnten Sprache abgefragt werden kann.

Daniel Abadi, Informatik-Professor an der Universität Yale, hat zusammen mit seinen Studenten Azza Abouzeid und Kamil Bajda-Pawlikowski HadoopDB entwickelt. Das System basiert auf PostgreSQL, Hadoop und Hive mit einer Verbindung zwischen PostgreSQL und Hadoop und einem Interface, das Anfragen in MapReduce oder SQL verarbeitet. Das System generiert Anfragepläne, die zum Teil in Hadoop und zum Teil in verschiedenen PostgreSQL-Instanzen verteilt über mehrere Nodes eines Shared-Nothing-Clusters ausgeführt werden.

Letztendlich ist HadoopDB als ein Hybrid aus MapReduce und parallelen Datenbank-Management-System auf tiefer Ebene. Dadurch soll es sich von Systemen wie Aster Data, Greenplum, Pig und Hive unterscheiden. Zudem ist HadoopDB Open Source.

HadoopDB soll laut Abadi eine ähnliche Fehlertoleranz wie Hadoop aufweisen und robust gegen Laufzeitschwankungen sein, die in großen Clustern auftreten. Die Leistung des System solls dabei an die kommerzieller Datenbanksysteme heranreichen.

Das genutzte Datenbanksystem, derzeit PostgreSQL, soll sich theoretisch auch gegen andere Systeme austauschen lassen. MySQL wurde als Basis bereits mit Erfolg ausprobiert. Zudem wird an der Anbindung an Column-Store-Datenbanken wie MonetDB und Infobright gearbeitet, wovon sich die Wissenschaftler eine Leistungssteigerung bei analytischen Arbeitsaufgaben versprechen.

Quelle: http://www.golem.de/0907/68643.html

Hinterlasse jetzt einen Kommentar

Kommentar hinterlassen

E-Mail Adresse wird nicht veröffentlicht.


*