FAQ HadoopConsultez toutes les FAQ

Nombre d'auteurs : 4, nombre de questions : 78, dernière mise à jour : 10 août 2020 Ajouter une question

Cette FAQ a été réalisée à partir des questions fréquemment posées sur les forums de http://www.developpez.com et de l'expérience personnelle des auteurs et de la traduction de la documentation officielle d'Hadoop.

Nous tenons à souligner que cette FAQ ne garantit en aucun cas que les informations qu'elle propose sont correctes. Les auteurs font leur maximum, mais l'erreur est humaine. Cette FAQ ne prétend pas non plus être complète. Si vous trouvez une erreur, ou que vous souhaitez nous aider en devenant rédacteur, lisez ceci.

Sur ce, nous vous souhaitons une bonne lecture.

L'équipe Big Data

Sommaire →Écosystème Hadoop →HBase (7)

Qu'est-ce que HBase ?
Qu'est-ce qu'un HMaster dans HBase ? Quelle est sa fonction ?
Qu'est-ce qu'un serveur de région (RegionServer) dans HBase ?
Quels sont les principaux composants d'un serveur de région dans HBase ?
Quel est le rôle de ZooKeeper dans un cluster HBase ?
Quels sont les différents modes d'installation/configuration de HBase ?
Comment la réplication se fait-elle dans un cluster HBase ?

Qu'est-ce que HBase ?

Apache HBase est un système de stockage distribué et évolutif qui offre un accès aléatoire en lecture/écriture en temps réel à de très grands ensembles de données hébergés sur HDFS. L'objectif du projet HBase est d'héberger de très grandes tables avec des milliards de lignes et des millions de colonnes sur des clusters de machines standard. Apache HBase est une base de données open source, versionnée et non relationnelle, inspirée du système de stockage distribué BigTable de Google. Comme HDFS, HBase implémente une architecture maître/travailleur : la gestion des données est implémentée par des serveurs de région, qui sont eux-mêmes gérés par un serveur maitre (HBase Master ou HMaster). HBase exploite HDFS pour le stockage persistant de données, ce qui lui permet de tirer parti de toutes les fonctionnalités avancées fournies par HDFS, notamment les sommes de contrôle, la réplication et le failover (basculement vers un équipement ou système alternatif en cas de panne).

Les principaux composants de l'architecture HBase sont le HMaster et les serveurs de région (RegionServers). Notons qu'il est possible de configurer plusieurs HMasters backups pour assurer la haute disponibilité du cluster HBase. Une instance HBase distribuée dépend également de ZooKeeper, un logiciel de gestion de configuration et de coordination de systèmes distribués.

Mis à jour le 10 août 2020 Michael Guilloux Mickael Baron

Qu'est-ce qu'un HMaster dans HBase ? Quelle est sa fonction ?

Le HMaster est le serveur maitre dans une architecture HBase. Il assure deux principales fonctions. La première consiste à surveiller les serveurs de région dans le cluster HBase en vue de détecter des défaillances (via ZooKeeper) et gérer les (ré)affectations de régions. Au démarrage du cluster HBase, le HMaster affecte les régions ou partitions de tables aux différents serveurs de région. Le HMaster peut également procéder à une réaffectation des régions à des fins d'équilibrage de charge ou de récupération lorsqu'un RegionServer tombe en panne. Étant donné que toutes les données de région sont stockées sur HDFS, le HMaster peut facilement les réaffecter à n'importe quel autre serveur de région opérationnel.

Le HMaster a également une fonction d'administration : il gère les opérations de définition de données (création, suppression des tables).