Les meilleurs livres Big Data

5 livres et 6 critiques, dernière mise à jour le 29 avril 2017 , note moyenne : 4.2

Livres en français

  1. Hadoop - Devenez opérationnel dans le monde du Big Data
  2. Bases de données orientées graphes avec Neo4j - Manipuler et exploiter vos bases de données orientées graphes
  3. Hadoop par la pratique
  4. Data Science : fondamentaux et études de cas - Machine Learning avec Python et R
  5. Big Data et Machine Learning - Manuel du data scientist
couverture du livre Hadoop

drapeau
Détails du livre
Sommaire
Critiques (0)
0 commentaire
 
 

Hadoop

Devenez opérationnel dans le monde du Big Data

de

Résumé de l'éditeur

Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde «Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.

Édition : ENI - 373 pages , 1re édition, 12 avril 2017

ISBN10 : 2409007619 - ISBN13 : 9782409007613

Commandez sur www.amazon.fr :

39.00 € TTC (prix éditeur 39.00 € TTC)
  • Introduction
  • Contexte de création d'Hadoop
  • Architecture infrastructurelle d'Hadoop
  • MapReduce
  • Hadoop
  • HDFS
  • Futur d'Hadoop : limites d'Hadoop et YARN
  • SQL dans Hadoop
  • Streaming 101
  • Apache Storm
  • Adoption d'Hadoop
  • Transition numérique
  • Conclusion
  • Liens et références utiles
  • Réponses des guides d'étude
Aucune critique n'a été faite pour l'instant



 Poster une réponse

Avatar de Malick SECK Malick SECK - Community Manager https://www.developpez.com
le 29/04/2017 à 1:58
Hadoop
Devenez opérationnel dans le monde du Big Data
Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde «Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.

[Lire la suite]



couverture du livre Bases de données orientées graphes avec Neo4j

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Bases de données orientées graphes avec Neo4j

Manipuler et exploiter vos bases de données orientées graphes

de
Public visé : Débutant

Résumé de l'éditeur

Ces dernières années, les besoins relatifs au traitement des données ont évolué à un rythme soutenu. Les sites web aux millions d'utilisateurs (réseaux sociaux, plates-formes de diffusion de contenus) sont à l'origine de l'essor de la plus dynamique des familles de moteurs de données : le NoSQL.

Une base de données optimisée pour le big data

Parmi les bases de données NoSQL, celles orientées "graphes" connaissent un succès fulgurant du fait de leur souplesse et de leur évolutivité extrême. Ne reposant sur aucun schéma, un graphe peut accepter de nouveaux flux de données sans nécessiter d'interventions lourdes. A l'heure où les sociétés ont compris que la fusion de leurs silos de données (CRM, ERP, Web, etc.) est une condition sine qua non pour créer de la valeur (solutions d'intelligence prédictive, moteurs de recommandation), cette propriété du graphe se révèle essentielle.

En considérant les relations entre objets comme des données de premier ordre, de nouvelles perspectives d'exploration et d'analyse apparaissent et favorisent la découverte d'informations inédites. L'absence de barrières logiques ouvre également la porte à des modalités d'exploitation de la donnée en profondeur, sans nuire aux performances. Installés depuis de nombreuses années au coeur des infrastructures des géants du Web (Google, Facebook, Linkedln), les graphes sont désormais accessibles au plus grand nombre grâce à l'émergence des moteurs de graphes et notamment au leader du domaine : Neo4j.

Un ouvrage de référence sur Neo4j

Le présent ouvrage s'adresse à tous les publics confrontés au volet data d'un projet informatique : développeurs, DSI, directeurs techniques, chefs de projets, data miners et data scientists. Son objectif majeur est de vous aider à identifier les projets informatiques qui gagneront à mettre en oeuvre un graphe.

Après une introduction au concept de graphe et une présentation de Neo4j et de son langage de requête (Cypher), le présent ouvrage illustre à l'aide d'exemples concrets la puissance des graphes pour traiter des problèmes aussi pointus que la recommandation et l'analyse de réseaux sociaux. Les grandes étapes d'un projet data-driven reposant sur le graphe sont illustrées de la conception à la mise en place de modèles prédictifs, en passant par l'ingestion des données et l'analyse.

À qui s'adresse cet ouvrage ?
  • Aux administrateurs de bases NoSQL de type graphe.
  • Aux développeurs et architectes, pour mettre en pratique les concepts avec Neo4j.
  • Aux data scientists qui trouveront avec les graphes un outil complémentaire pour concevoir leurs modèles.

Édition : Eyrolles - 181 pages , 1re édition, 18 février 2016

ISBN10 : 2212138040 - ISBN13 : 9782212138047

Commandez sur www.amazon.fr :

32.00 € TTC (prix éditeur 32.00 € TTC)
  • Réseaux et graphes
  • Bases de données et modèles de graphes
  • Installation de Neo4j
  • Le langage Cypher
  • Serveur Neo4j
  • Exemples pratiques de modélisation des données
  • Analyse prédictive et recommandation
  • Outils de visualisation
  • Graphes et réseaux sociaux
Critique du livre par la rédaction Nicolas Vallée le 5 juin 2016
Cet ouvrage est destiné à un public initié aux concepts de base de données, mais ne nécessite aucune expérience particulière. Il commence par une présentation de l'approche NoSQL, et en particulier de la famille « orientée graphes » dont fait partie Neo4j. À ce stade, un léger reproche serait à émettre : il n'y a pas de comparaison des grandes familles en termes de type de requête, de volumétrie, etc. Or c'est parfois le critère pour choisir le type de base.

Ensuite, les différents chapitres exposent progressivement les notions utiles, depuis l'installation, le langage Cypher, jusqu'à la représentation graphique des graphes, etc. Tout est bien illustré et suit un fil conducteur grâce à l'exemple de la notation des films par une communauté.
À la fin, le fil conducteur est abandonné au profit d'un exemple autour d'une API Twitter. Ce choix s'explique par l'impossibilité du premier exemple d'illustrer le concept que les auteurs souhaitaient alors présenter : l'analyse d'influence dans une communauté d'utilisateurs.

Pour résumer, il s'agit d'un bon ouvrage pour débutants ou pour toute personne souhaitant obtenir des notions autour des bases orientées graphes. Il est très simple d'accès, peut-être trop finalement… on reste un peu sur sa faim, surtout avec l'absence de comparatifs autour des analyses présentées sur d'autres modèles.




 Poster une réponse

Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
le 04/06/2016 à 22:00
Bases de données orientées graphes avec Neo4j
Manipuler et exploiter vos bases de données orientées graphes
Ces dernières années, les besoins relatifs au traitement des données ont évolué à un rythme soutenu. Les sites web aux millions d'utilisateurs (réseaux sociaux, plates-formes de diffusion de contenus) sont à l'origine de l'essor de la plus dynamique des familles de moteurs de données : le NoSQL.

Une base de données optimisée pour le big data

Parmi les bases de données NoSQL, celles orientées "graphes" connaissent un succès fulgurant du fait de leur souplesse et de leur évolutivité extrême. Ne reposant sur aucun schéma, un graphe peut accepter de nouveaux flux de données sans nécessiter d'interventions lourdes. A l'heure où les sociétés ont compris que la fusion de leurs silos de données (CRM, ERP, Web, etc.) est une condition sine qua non pour créer de la valeur (solutions d'intelligence prédictive, moteurs de recommandation), cette propriété du graphe se révèle essentielle.

En considérant les relations entre objets comme des données de premier ordre, de nouvelles perspectives d'exploration et d'analyse apparaissent et favorisent la découverte d'informations inédites. L'absence de barrières logiques ouvre également la porte à des modalités d'exploitation de la donnée en profondeur, sans nuire aux performances. Installés depuis de nombreuses années au coeur des infrastructures des géants du Web (Google, Facebook, Linkedln), les graphes sont désormais accessibles au plus grand nombre grâce à l'émergence des moteurs de graphes et notamment au leader du domaine : Neo4j.

Un ouvrage de référence sur Neo4j

Le présent ouvrage s'adresse à tous les publics confrontés au volet data d'un projet informatique : développeurs, DSI, directeurs techniques, chefs de projets, data miners et data scientists. Son objectif majeur est de vous aider à identifier les projets informatiques qui gagneront à mettre en oeuvre un graphe.

Après une introduction au concept de graphe et une présentation de Neo4j et de son langage de requête (Cypher), le présent ouvrage illustre à l'aide d'exemples concrets la puissance des graphes pour traiter des problèmes aussi pointus que la recommandation et l'analyse de réseaux sociaux. Les grandes étapes d'un projet data-driven reposant sur le graphe sont illustrées de la conception à la mise en place de modèles prédictifs, en passant par l'ingestion des données et l'analyse.

À qui s'adresse cet ouvrage ?
  • Aux administrateurs de bases NoSQL de type graphe.
  • Aux développeurs et architectes, pour mettre en pratique les concepts avec Neo4j.
  • Aux data scientists qui trouveront avec les graphes un outil complémentaire pour concevoir leurs modèles.


[Lire la suite]




couverture du livre Hadoop par la pratique

Note 3 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Hadoop par la pratique

de
Public visé : Intermédiaire

Résumé de l'éditeur

Hadoop par la pratique s'articule autour d’explications approfondies et d’exemples de code. Chaque chapitre décrit un problème technique puis propose une solution découpée en étapes faciles à suivre. Au programme :
  • ETL, compression, sérialisation et importation/exportation de données ;
  • analyse simple et élaborée d’agrégats ;
  • analyse graphique ;
  • apprentissage automatique ;
  • dépannage et débogage ;
  • persistance évolutive ;
  • administration et configuration de cluster.


Vous trouverez dans cet ouvrage :
  • un contenu direct et facile à suivre ;
  • une sélection des tâches et des problèmes les plus importants ;
  • des instructions parfaitement organisées pour résoudre efficacement les problèmes ;
  • des explications claires sur les actions réalisées ;
  • une application des solutions à d’autres situations.


La lecture de cet ouvrage vous permettra de développer facilement des applications massivement parallèles et d’exploiter toute la puissance d’Hadoop.

Édition : Campus Press - 330 pages , 25 avril 2014

ISBN10 : 2744026247 - ISBN13 : 9782744026249

Commandez sur www.amazon.fr :

37.00 € TTC (prix éditeur 37.00 € TTC)
  1. Importation et exportation de données dans HDFS
  2. HDFS
  3. Extraction et transformation des données
  4. Exécution de tâches récurrentes avec Hive, Pig et MapReduce
  5. Jointures élaborées
  6. Analyses Big Data
  7. Analyses Big Data élaborées
  8. Débogage
  9. Administration système
  10. Persistance avec Apache Accumulo
Critique du livre par la rédaction Nicolas Vallée le 2 février 2016
Cet ouvrage est destiné à un public initié à l'utilisation du langage Java et souhaitant commencer ses expérimentations Big-Data sur la plateforme Hadoop. Il sera guidé via de nombreux exemples de code, tout au long de ces travaux pratiques. Il abordera ainsi les notions d'ETL, de sérialisation, de cluster, etc.

En revanche, l'auteur passe beaucoup trop de temps à expliquer des notions simples. Il semble inutile de montrer comment recompiler chaque paquet utilisé : un seul exemple aurait suffi.
En effet, l'ouvrage finit par être lassant et n'explique pas réellement des notions essentielles autour de l'architecture d'un projet autour de Hadoop (un comble pour un ouvrage dit « par la pratique ») et ne fait qu'en effleurer les finalités. À moins qu'il ne cherche que des exemples à réutiliser en l'état et qu'il dispose d'une bonne connaissance des concepts, le lecteur devrait rester sur sa faim...




 Poster une réponse

Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
le 02/02/2016 à 9:28
Hadoop par la pratique
Hadoop par la pratique s'articule autour d’explications approfondies et d’exemples de code. Chaque chapitre décrit un problème technique puis propose une solution découpée en étapes faciles à suivre. Au programme :
  • ETL, compression, sérialisation et importation/exportation de données ;
  • analyse simple et élaborée d’agrégats ;
  • analyse graphique ;
  • apprentissage automatique ;
  • dépannage et débogage ;
  • persistance évolutive ;
  • administration et configuration de cluster.


Vous trouverez dans cet ouvrage :
  • un contenu direct et facile à suivre ;
  • une sélection des tâches et des problèmes les plus importants ;
  • des instructions parfaitement organisées pour résoudre efficacement les problèmes ;
  • des explications claires sur les actions réalisées ;
  • une application des solutions à d’autres situations.


La lecture de cet ouvrage vous permettra de développer facilement des applications massivement parallèles et d’exploiter toute la puissance d’Hadoop.

[Lire la suite]




couverture du livre Data Science : fondamentaux et études de cas

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Data Science : fondamentaux et études de cas

Machine Learning avec Python et R

de
Public visé : Intermédiaire

Résumé de l'éditeur

Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte : avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration !

À qui s'adresse cet ouvrage ?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

Édition : Eyrolles - 296 pages , 1er octobre 2015

ISBN10 : 2212142439 - ISBN13 : 9782212142433

Commandez sur www.amazon.fr :

35.00 € TTC (prix éditeur 35.00 € TTC)
  • LE B-A BA du data scientist
  • Les basiques du data scientist
  • Les algorithmes et leurs usages : visite guidée
  • La data science en pratique : quelques concepts généraux
  • La data science en pratique : au-delà des algorithmes !
  • La temporalité dans les modèles, un cas particulier d'application
Critique du livre par la rédaction Nicolas Vallée le 19 décembre 2015
Cet ouvrage est destiné à un public initié à la programmation R et/ou Python. Pour profiter pleinement de son contenu, les bases de ces langages doivent être totalement maîtrisées.
Il permet au lecteur de survoler un vaste panel de techniques d'analyse de données. Chaque chapitre est illustré, un cas pratique est présenté et enfin il contient des références pour approfondir ses connaissances.

Les auteurs font preuve d'un sens de la vulgarisation, et permettent au lecteur de mieux appréhender le travail de « data scientist ».
En revanche, il faut signaler que cet ouvrage est bien plus adapté aux techniques d'apprentissage qu'à des usages purement statistiques.




 Poster une réponse

Avatar de djibril djibril - Responsable Perl et Outils https://www.developpez.com
le 17/12/2015 à 19:01
Data Science : fondamentaux et études de cas
Machine Learning avec Python et R
Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte : avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration !

À qui s'adresse cet ouvrage ?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

[Lire la suite]




couverture du livre Big Data et Machine Learning

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (3)
0 commentaire
 
 

Big Data et Machine Learning

Manuel du data scientist

de
Public visé : Intermédiaire

Résumé de l'éditeur

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :
  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.

Édition : Dunod - 240 pages , 1re édition, 18 février 2015

ISBN10 : 2100720740 - ISBN13 : 9782100720743

Commandez sur www.amazon.fr :

29.90 € TTC (prix éditeur 29.90 € TTC)
Sommaire Les fondements du Big Data.
  • Les origines du Big Data.
    • Le Big Data dans les organisations.
    • Le mouvement NoSQL.
    • L’algorithme MapReduce et le framework Hadoop.
  • Le métier de data scientist.
    • Le quotidien du data scientist.
    • Exploration et préparation de données.
    • Le machine learning.
    • La visualisation des données.
  • Les outils du Big Data.
    • L’écosystème Hadoop.
    • Analyse de logs avec Pig et Hive.
    • Les architectures λ.
    • Apache Storm.

Critique du livre par la rédaction Mickael BARON le 31 mars 2015
La couverture du livre donne le ton, c'est un ouvrage qui s'adresse aux personnes intéressées par le métier de « Data Scientist », le buzz word du moment. L'ouvrage se décompose en trois grandes parties. La première discute du Big Data, de ses origines, comment il est intégré dans les entreprises et des nouveaux outils pour le stockage (NoSQL) et le traitement (MapReduce). Dans une deuxième partie, les auteurs s'intéressent principalement au cycle de vie de la donnée et présentent essentiellement de nombreux algorithmes de machine Learning. Enfin une dernière partie se focalise sur les outils pour faire du Big Data. De manière générale, cet ouvrage est très agréable à lire. Il propose de nombreux retours d'expérience et d'exemples simples qui illustrent la présentation des algorithmes de machine Learning.

Cet ouvrage n'est pas du tout technique, vous ne trouverez pas de code Java sur comment développer un algorithme MapReduce. Il ne demande pas de connaissance approfondie. Il s'agit d'un livre qui présente les concepts autour du machine Learning et donne un horizon de l'écosystème existant concernant les outils dédiés. De mon point de vue, ce livre a su compléter mes connaissances en termes d'usage des technologies BigData. En effet, je me suis intéressé au monde du Big Data en commençant par la technique via Hadoop et certains NoSQL. Toutefois, il m'était toujours difficile de savoir à quel moment exploiter ces technologies, les cas réels. Il est difficile de s'y émerger quand on ne travaille pas explicitement dessus. Ce livre apporte des débuts de réponse. J'apprécie aussi l'honnêteté des auteurs qui mettent en garde les lecteurs : tout problème ne se résout pas forcément par un problème Big Data !

Concernant les quelques points négatifs, j'en ai relevé quelques-uns qui sont globalement très légers.
  • Le premier concerne la troisième partie qui se focalise sur les outils pour faire du Big Data. Je trouve qu'un grand nombre de chapitres de cette dernière partie auraient pu être mis en première partie et consacrer une partie exclusive aux études de cas. Certes, il y a un chapitre sur l'utilisation de Hive et Pig pour le traitement de logs, mais un chapitre spécifique avec plusieurs études de cas aurait pu être intéressant. J'ai eu quelque mal à trouver comment appliquer les algorithmes de machine Learning sur le modèle de programmation MapReduce.
  • Le deuxième concerne l'utilisation exclusive MapReduce comme unique modèle de programmation. Certes les auteurs citent clairement qu'il y a un nouveau besoin de modèle de programmation temps réel, que le modèle de programmation de Spark est plus efficace face à MapReduce, mais tout au long de la lecture, on peut penser qu'il n'y a que celui-ci. J'ai hésité à donner ce point négatif, mais le livre est quand même récent, il date de 2015.

En conclusion, il s'agit d'un très bon livre, qui structure le cycle de vie de la donnée et donne des informations pertinentes.
Critique du livre par la rédaction Nassima BENAMMAR le 31 mars 2015
Ce livre expose des notions de base sur big data, comme l'indique son titre, et du data science. Il se compose de trois parties.

La première et la troisième partie portent principalement sur le big data et les technologies nouvelles dans ce domaine telles que l'algorithme Map Reduce, l'architecture Lambda et la plateforme Hadoop.

La deuxième partie porte sur le data science et principalement sur l'application du machine learning en citant ses différents algorithmes et en exposant les démarches d'un data scientist dans la conception de sa solution.

Le livre présente des explications simples de multiples notions liées au big data et au data science, grâce à des illustratifs faciles à comprendre, notamment dans la deuxième partie où il expose quelques exemples concrets sur l'impact du data science sur le succès des entreprises ainsi que sur l'interprétation des données dans des cas réels.

Ce qui doit être pris en considération (et qui est d'ailleurs mentionné au début du livre) est le fait que ces trois parties sont indépendantes et peuvent être lues séparément, autrement le lecteur risque de se perdre, car il n'y a pas d’enchaînement logique entre ces trois parties.

Enfin, ce livre est un bon manuel pour les professionnels de l'informatique décisionnelle qui veulent mieux exploiter leurs données et aussi pour les développeurs et architectes qui souhaitent connaitre des généralités sur le big data et le data science.
Critique du livre par la rédaction Lucas Girardin le 15 janvier 2016
Big Data et Data Scientist deux mots (quatre en réalité mais qui ne marche que par deux) que l'on entend et trouve un peu partout. Cependant dur de réussir à comprendre ce qui se cache derrière. Qu'est-ce qui fait qu'un gisement de donnée est appelé Big Data alors que d'autre non ? Quel est le véritable boulot d'un Data Scientist et comment le devient-on ? Comment différencier le baratin commercial de la réalité du terrain ? Voila déjà a quoi sert ce livre et rien que pour ça il mérite d'être lu. Mais il va encore plus loin en expliquant quel outil existe pour faire du big data et les différents algorithmes. Sans connaissance mathématique et notamment en statistique ces passages sont assez durs à lire et à comprendre mais il reste nécessaire de connaitre leurs utilités et leurs cas d’utilisations.

Ce livre explique aussi ce qu'est le célèbre algorithme MapReduce. A quoi il sert et les problématique qu'il résout. Hadoop est aussi passer à la moulinette pour comprendre son principe, des rappels sur le NoSQL sont abordés sans trop rentrer dans le détail toute fois. Avec ce livre on fait un grand bon dans la compréhension de l'informatique aujourd'hui. Pour quiconque qui s’intéresse au différent mouvement de nos jours, c'est le livre à lire. Mieux même, toute personne souhaitant aborder le big data pour la première fois, c'est aussi le meilleurs point de départ que l'on puisse conseiller. En plus des étudiants en informatique, des DSI, des développeurs et de toute personne qui est informaticiens à qui on conseille de lire des livres en général, celui-ci je le conseillerai aussi au métier car en plus de peaufiner leur culture sur le Big Data ils se doivent de connaitre le métier de Data Scientist qui a mon sens représente une véritable évolution dans la relation Métier-DSI.

Avec ce livre j’ai pu participer à des conférences et des présentations d’outils de Big Data comme Zepelin ou Spark et comprendre ce qui m’était raconté. Je ne regrette définitivement pas la lecture de ce livre.




 Poster une réponse

Avatar de Lana.Bauer Lana.Bauer - Community Manager https://www.developpez.com
le 31/03/2015 à 23:51
Bonjour,

La rédaction Developpez a lu pour vous :

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :

  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.


Critiques de livres
gorgonite
Rédacteur / Modérateur

(3 livres)
benammarn
Nouveau membre du Club
(1 livre)
MarieKisSlaJoue
Membre émérite
(1 livre)
Mickael Baron
Responsable Java

(1 livre)
Contacter le responsable de la rubrique Big Data