Hadoop, un outil pionnier pour la technologie du Big Data

QU’EST-CE QUE L’OUTIL HADOOP ?

L’émergence de la technologie Big Data nous invite à stocker de très gros volumes de données en un temps restreint afin, a posteriori, d’établir des modèles prédictifs intelligents permettant de constamment améliorer nos processus. Ainsi, c’est au service du Big Data que le Hadoop natif est initié par Google en 2004 et développé par Apache. La première version officielle ouverte au grand public est divulguée par Yahoo en 2009. Hadoop (dont l’étymologie fait référence à un type de mammouth) est un framework open source écrit en Java dont la principale fonction consiste à entreposer d’importants volumes de données en quelques ms sans avoir à instaurer de structures de condition pour les différents formats de fichiers (.txt, .png, .doc. .pdf, etc.).

Les informations, une fois compressées, vont se multiplier sur plusieurs noeuds distribués sur plusieurs serveurs : en termes de sécurité, si une problématique est rencontrée avec un serveur, il existe une copie de l’information sur un autre serveur qui pourra être extraite au moment voulu.

 

QUELS SONT LES AVANTAGES D’HADOOP ?

•  Communique directement au disque dur sans passer par un système d’exploitation, comme Windows ou linux
•  Exploite rapide des données
•  N’impose pas de limites quant à la mémoire ou la performance (système de noeuds)
•  Assure la pérennité des données à l’aide du HDFS (Hadoop File System)
•  Possibilité d’avoir des données propriétaires

 

QUELLE EST LA PRINCIPALE LIMITATION D’HADOOP ?

• Difficulté une fois les données stockées de les extraire manière intelligente
(indexation des fichiers mais pas de leur contenu)

 

EXEMPLES D’APPLICATIONS

• Domaine ferroviaire : contrôle de la position de tous les wagons en temps réel
• Domaine hôtelier : multiples réservations en parallèle en quelques ms

 

Expert : Gabriel Cantin

Retour aux actualités