Twitter Facebook Google Plus Linkedin email Imprimer Pdf

||| BIG DATA

SPARK : Le big data accélère vers le Fast Data

Le 09 juillet 2014 par par J-F. VANNIER, Business Intelligence Infrastructures, Bull

Le Big Data OpenSource vient de se doter d’un argument choc avec la publication de la version 1.0 de apache SPARK. En peu de temps, ce nouveau framework s’est rallié un grand nombre de supporters – dont MAPR et Cloudera – parce qu’il apporte à HADOOP tout ce qui lui manquait : La vitesse, la facilité de programmation et la flexibilité.

HADOOP est un modèle de traitement réparti des données devenu un standard. Dans ce modèle, les traitements sont exécutés en parallèle sur des fermes de serveurs par un système qui fournit automatiquement la distribution des données, la tolérance de panne et la répartition des traitements. Il permet donc de traiter de grands volumes de données de tout type – en particulier structurées ou non structurées – avec une garantie de disponibilité et de linéarité de la performance.

Au-dessus de ce modèle, se décline tout un écosystème, fait d’applications spécialisées dans le traitement de données : outils de développement, moteurs de base de données, librairies statistiques, moteurs de règles, machine learning, analyse de graphe, visualisation, etc.

HADOOP, très orienté sur la gestion de gros volumes sur disques est peu adapté au Temps réel et à l’interactivité. Pour pallier cette limitation, nombre d’outils et d’applications ont été enrichis de mécanismes de montée de données en mémoire, contournant les mécanismes du modèle, permettant ainsi d’obtenir des performances meilleures.

L’intérêt du projet SPARK est d’avoir repris les principes généraux d’HADOOP et de les avoir transposés pour un usage en mémoire.
SPARK permet de charger des ensembles de données en mémoire, de les rendre persistants, distribués, tolérants aux pannes et partageables. SPARK vient se fondre dans HADOOP, accède à ses espaces de stockage et est accessible par ces outils de développement et de management.

SPARK rajoute une couche « In-Memory » disponible simplement pour les applications sans dégrader la qualité de service offerte par le modèle. Les applications pourront choisir de travailler sur des données sur disques, sur des données en mémoire pour des calculs complexes, pour des traitements en temps réel ou pour de l’interactivité.

Par-delà les performances qu’il apporte, SPARK démontre également le dynamisme, l’extraordinaire réactivité et l’inventivité de l’écosystème HADOOP. Il ouvre un terrain immense pour l’innovation dans le calcul et l’analyse numérique. Il montre à quel point il est important de ne pas rater ce train qui vient brusquement de prendre encore plus de vitesse.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*