All posts tagged: YARN

Übersicht über das Apache Hadoop Ökosystem

Die Apache Hadoop Technologie erfreut sich einigen Jahren sowohl als On-premise Installation als auch als Cloud Lösung großer Beliebtheit bei Unternehmen. Google, Facebook, AOL, Baidu, IBM, Yahoo und viele Unternehmen setzen auf die bewährten Werkzeuge des Hadoop Ökosystems im die eigenen Daten zu extrahieren, aufzubereiten und auszuwerten. Diese Zusammenstellung von einzelnen Komponenten zur Hortonworks Apache Hadoop Distribution funktioniert analog zu der Zusammenstellung vieler vieler open-source Einzelwerkzeuge zu einer GNU/Linux Distribution.

Apache Hadoop selbst ist eine Sammlung (Framework) von open-source Softwarekomponenten, welche zusammen die Entwicklungen von Softwarellösungen ermöglichen die Probleme mit großen Datenmengen und viel Rechenleistung lösen können. Verteilte Datenhaltung und verteiltes Rechnen wird meist auf Rechnerverbünden (Clustern) aus Standardhardware (PC, Server) durchgeführt. Alle Hadoop Module sind so entwickelt worden, dass Hardwareversagen jederzeit berücksichtigt wird und von den Modulen selbst abgefangen werden kann – ein Job, der auf einem Rechner ausgeführt wurde bei dem ein Defekt eingetreten ist, wird automatisch auf einem anderen, verfügbaren Knoten nochmals gestartet, so dass für den Endnutzer kein Ausfall sondern allenfalls eine kurze Verzögerung bemerbar ist.

Mit diesem Blogartikel möchten wir zunächst einen Überblick über die Hadoop Kerntechnologien und das darauf aufbauende Ökosystem vermitteln. Anschließend gehen wir auf einzelne, wichtige Bausteine mit Schlüsselfunktionen nochmals einzeln ein. Nach dem Lesen des Artikels haben Sie einen umfassenden Überblick über die wichtigsten Apache Hadoop Komponenten.

Maurice KnoppÜbersicht über das Apache Hadoop Ökosystem
Mehr