IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Livres en français

11 livres et 13 critiques, dernière mise à jour le 30 décembre 2022 , note moyenne : 4.2

  1. Big Data & Streaming - Le Traitement Streaming et temps réel des données en Big Data
  2. Data science pour l'entreprise - Principes fondamentaux pour développer son activité
  3. Data Science par la pratique - fondamentaux avec Python
  4. Maîtrisez l'utilisation des technologies Hadoop : initiation à l'écosystème Hadoop
  5. Les bases de données NoSQL et le Big Data - Comprendre et mettre en oeuvre
  6. Hadoop - Devenez opérationnel dans le monde du Big Data
  7. Bases de données orientées graphes avec Neo4j - Manipuler et exploiter vos bases de données orientées graphes
  8. Hadoop par la pratique
  9. Data Science : fondamentaux et études de cas - Machine Learning avec Python et R
  10. Big Data et Machine Learning - Manuel du data scientist
  11. Big Data et Machine Learning - Les concepts et les outils de la data science
couverture du livre Big Data & Streaming

Note 3.5 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Big Data & Streaming

Le Traitement Streaming et temps réel des données en Big Data

de
Public visé : Débutant

Résumé de l'éditeur

Le Big Data est désormais bien établi ! Il a atteint son paroxysme ces dernières années avec les objets connectés, l'intégration des capteurs dans les objet de la vie courante (voiture, réfrigérateur, télévision, etc.). Ces objets produisent des données en streaming. Beaucoup de cas d'usage et de modèles économiques s'appuient aujourd'hui sur des données générées en streaming. Cet ouvrage est un manuel didactique qui a pour but de vous aider à développer les compétences de base nécessaires pour valoriser les données produites en streaming.

Il vous aidera à atteindre trois objectifs majeurs :

comprendre les concepts et notions indispensables pour aborder avec aisance la gestion des données streaming, notamment la sémantique de livraison des messages (Exactement-Une Fois, Au-Moins-Une-Fois, Au-PlusUne-Fois), la sémantique de traitement, le domaine temporel, l’idempotence, le persistance anticipée de messages (Write Ahead Logging), la sémantique de résultat, les bus d’événements, les systèmes de messageries Publish/Subscribe, le fenêtrage, le micro-batch, les états, les modèles de collecte de données streaming, la cohérence streaming, la diffusion atomique, etc.
appréhender et mettre en œuvre les architectures nécessaires pour ingérer efficacement les données générées en streaming, notamment le Data Lake, les bus d'événements, les architectures Lambda, les architectures kappa, et les architectures hybrides ;
apprendre les technologies de l'écosystème Hadoop dédiées à l’ingestion et au traitement des données produites en streaming, notamment Apache Kafka, Spark Streaming, Flume, Apache Samza, Apache Storm et S4.

L'ouvrage est un kit d’apprentissage technique. Il a été rédigé uniquement à l’endroit de cinq types de profls :

Le consultant ou freelance, qui veut aiguiser ses compétences BI/Big Data, en y rajoutant l’aspect streaming ;
Le Data Scientist, qui veut développer des modèles de "Machine Learning streaming" ;
L’architecte, qui veut comprendre les architectures des systèmes streaming et comment celles-ci s’intègrent dans le SI global d’une entreprise ;
Le développeur, qui souhaite développer des applications streaming à large échelle ;
et le Manager, qui veut développer une vision holistique sur la façon de capitaliser les données des projets streaming ;

Pour faciliter la compréhension de l ouvrage, chaque chapitre s achève par un rappel des points clés et un guide d étude qui permettent au lecteur de consolider ses acquis. En bonus pour vous, l'ouvrage est offert avec une mini-formation gratuite composée de 3 sessions de cours -vidéo sur le streaming librement téléchargeable sur le site web suivant : https://www.data-transitionnumerique.com/bonus_formation_streaming

Édition : Les éditions Juvénal & Associés - 354 pages, 1re édition, 1er juillet 2019

ISBN10 : 2956811304 - ISBN13 : 9782956811305

Commandez sur www.amazon.fr :

19.90 € TTC (prix éditeur 35.99 € TTC)
Généralités sur Hadoop
Apache YARN
Apache ZooKeeper
Le nouveau paradigme d'ingestion de données
Apache Kafka & Apache Flume
Principes du traitement streaming
Caractéristiques des systèmes de traitement streaming et temps réel
Apache Storm
Apache Samza
Spark Streaming
Apache S4
Benchmark des technologies Streaming & Temps réel
Critique du livre par la rédaction Thibaut Cuvelier le 4 mai 2020
Le flux de données valorisables n'est pas près de se tarir, il a plutôt tendance à se diversifier, par exemple du côté des données à traiter en flux tendu. Pour les gérer, il faut utiliser des outils adaptés, notamment pour garantir un traitement rapide, sans quoi les données n'ont plus tellement d'intérêt. Ce livre porte uniquement sur ces problématiques : bien que le sujet semble restreint de prime abord, sa richesse se dévoile petit à petit. Il montre pourquoi autant d'outils différents existent et, surtout, pourquoi tous ont leur utilité. En bref, l'auteur aide à s'y retrouver dans la jungle des technologies Hadoop, en explicitant les liens entre les briques logicielles.

L'ouvrage est conçu comme une série de tutoriels plus ou moins spécifiques, en suivant une approche pas à pas. Les prérequis sont assez légers (des connaissances de base en programmation et en traitement des données), il n'est par exemple pas nécessaire de déjà savoir utiliser Hadoop ou Spark avant de se lancer dans la lecture. Les présentations des briques logicielles cherchent à montrer en quoi un logiciel peut résoudre un certain nombre de défis techniques, mais aussi en quoi il ne sert à rien pour d'autres. Ces chapitres possèdent aussi une partie bien plus technique, en expliquant comment utiliser l'outil, avec du vrai code (et pas seulement en Java !). Par contre, ce livre évite soigneusement les problématiques d'administration de grappes de serveurs. Il vise uniquement un public de développeurs et de décideurs.

Chaque chapitre se termine par un résumé des points principaux et une liste concise des points clés abordés. Aussi, pour ceux qui cherchent à s'évaluer, des guides d'étude sont proposés, avec une approche bien plus scolaire (des questions à choix multiples et des questions ouvertes, avec des solutions types en fin d'ouvrage). Du contenu plus avancé est aussi proposé en formations vidéo.

Le texte est régulièrement agrémenté d'illustrations pour expliquer le propos, qui aident parfois plus à comprendre que le texte chaloupé. Le tableau est vraiment terni par la qualité de la rédaction, avec une moyenne de deux à trois fautes d'orthographe par page et un style parfois lourd, ce qui rend la lecture difficile. Vu qu'il s'agit d'une nouvelle maison d'édition, on peut espérer que les phases de relecture s'amélioreront avec les prochaines parutions.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 03/05/2020 à 18:49
Big Data & Streaming
Le Traitement Streaming et temps réel des données en Big Data


Le Big Data est désormais bien établi ! Il a atteint son paroxysme ces dernières années avec les objets connectés, l'intégration des capteurs dans les objet de la vie courante (voiture, réfrigérateur, télévision, etc.). Ces objets produisent des données en streaming. Beaucoup de cas d'usage et de modèles économiques s'appuient aujourd'hui sur des données générées en streaming. Cet ouvrage est un manuel didactique qui a pour but de vous aider à développer les compétences de base nécessaires pour valoriser les données produites en streaming.

Il vous aidera à atteindre trois objectifs majeurs :

comprendre les concepts et notions indispensables pour aborder avec aisance la gestion des données streaming, notamment la sémantique de livraison des messages (Exactement-Une Fois, Au-Moins-Une-Fois, Au-PlusUne-Fois), la sémantique de traitement, le domaine temporel, l’idempotence, le persistance anticipée de messages (Write Ahead Logging), la sémantique de résultat, les bus d’événements, les systèmes de messageries Publish/Subscribe, le fenêtrage, le micro-batch, les états, les modèles de collecte de données streaming, la cohérence streaming, la diffusion atomique, etc.
appréhender et mettre en œuvre les architectures nécessaires pour ingérer efficacement les données générées en streaming, notamment le Data Lake, les bus d'événements, les architectures Lambda, les architectures kappa, et les architectures hybrides ;
apprendre les technologies de l'écosystème Hadoop dédiées à l’ingestion et au traitement des données produites en streaming, notamment Apache Kafka, Spark Streaming, Flume, Apache Samza, Apache Storm et S4.

L'ouvrage est un kit d’apprentissage technique. Il a été rédigé uniquement à l’endroit de cinq types de profls :

Le consultant ou freelance, qui veut aiguiser ses compétences BI/Big Data, en y rajoutant l’aspect streaming ;
Le Data Scientist, qui veut développer des modèles de "Machine Learning streaming" ;
L’architecte, qui veut comprendre les architectures des systèmes streaming et comment celles-ci s’intègrent dans le SI global d’une entreprise ;
Le développeur, qui souhaite développer des applications streaming à large échelle ;
et le Manager, qui veut développer une vision holistique sur la façon de capitaliser les données des projets streaming ;

Pour faciliter la compréhension de l ouvrage, chaque chapitre s achève par un rappel des points clés et un guide d étude qui permettent au lecteur de consolider ses acquis. En bonus pour vous, l'ouvrage est offert avec une mini-formation gratuite composée de 3 sessions de cours -vidéo sur le streaming librement téléchargeable sur le site web suivant : https://www.data-transitionnumerique...tion_streaming

[Lire la suite]



 
couverture du livre Data science pour l'entreprise

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (1)
2 commentaires
 
 

Data science pour l'entreprise

Principes fondamentaux pour développer son activité

de
Public visé : Débutant

Résumé de l'éditeur



Cet ouvrage traite de façon détaillée mais non technique les principes fondamentaux de la data science. Tout au long d'un processus de "raisonnement orienté données", il vous guidera pour acquérir des connaissances utiles et extraire une valeur économique des données que vous collectez. L'apprentissage de la data science vous permettra de comprendre les nombreuses techniques de data mining utilisées aujourd'hui. Ces principes sous-tendent tous les processus et stratégies de data mining qui servent à résoudre des problèmes d'entreprise.

"Ce livre est bien plus qu'une introduction à l'analyse de données. C'est un guide essentiel pour ceux d'entre nous (nous tous ?) qui ont entièrement fondé leur entreprise sur l'ubiquité des données et la nécessité, aujourd'hui, de la prise de décision orientée données." Tom Phillips, PDG, Dstillery ; ex-Directeur de Google Search and Analytics.

"Les auteurs de ce livre, tous deux experts en data science avant même que la discipline soit nommée ainsi, présentent ici un sujet complexe en le rendant accessible à tous les niveaux. Cet ouvrage est une première du genre : il se concentre sur les concepts de la data science tels qu'ils doivent être appliqués aux problèmes concrets des entreprises. Il est rempli de captivants exemples réels qui illustrent les pro- blèmes courants auxquels les entreprises sont confrontées : l'attrition client, le marketing ciblé, et même une analyse des données sur les whiskies ! Ce livre se distingue par le fait qu'il n'est pas un traité d'algorithmique. Les auteurs ont pour objectif d'aider le lecteur à comprendre les concepts sous-jacents de la data science, mais également et surtout ils expliquent comment aborder un problème de data science et mettre au point une solution qui marche. Si vous avez besoin d'un aperçu complet de la data science, ou si vous êtes un data scientist en herbe qui veut maîtriser les bases de la discipline, ce livre est un indispensable pour vous." – Chris Volinsky, Directeur, Statistics Research,
AT&T Labs, Gagnant du Netflix Challenge à 1 M$.

Édition : Eyrolles - 370 pages, 16 août 2018

ISBN10 : 2212675704 - ISBN13 : 9782212675702

Commandez sur www.amazon.fr :

39.00 € TTC (prix éditeur 39.00 € TTC)
  • Le raisonnement orienté données
  • Problèmes d'entreprises et solutions de data science
  • Introduction à la modélisation prédictive : des corrélations à la segmentation supervisée
  • Ajuster un modèle aux données
  • Le surajustement et comment l'éviter
  • Similarité, voisins et clusters
  • L'analyse décisionnelle I : qu'est-ce qu'un bon modèle ?
  • Visualiser les performances d'un modèle &
  • Preuves et probabilités
  • Représentation et exploration de textes
  • L'analyse décisionnelle II : vers l'ingénierie analytique
  • Autres problèmes et techniques de data science
  • Data science et stratégie commerciale
  • Conclusion
  • Annexes
    • Guide d'évaluation des propositions de projet
    • Un autre exemple de proposition de projet

Critique du livre par la rédaction Nicolas Vallée le 27 juillet 2019
Depuis quelque temps, un grand nombre d'entreprises lancent des initiatives digitales en vue d'exploiter les possibilités offertes par le big data. Derrière ce terme se cache bon nombre de socles technologiques, qui offrent tous les outils nécessaires pour que les data scientists exercent leur talent. En revanche, pour gérer ces initiatives aussi bien internalisées qu'externalisées et faire le lien avec les équipes des métiers d'origine de l'entreprise, il est assez rare de placer un profil techniquement apte à appréhender ce qui se passe réellement dans ces projets.

Si vous espérez qu'un livre vous permettra d'atteindre un tel niveau, vous risquez de vite déchanter. Par contre, cet ouvrage vous donnera les clés pour appréhender la prise de décision sur ce type d'activités.
Les auteurs commencent par une introduction à la modélisation prédictive. Des exemples évoluent au fil de la lecture et vous indiqueront en partie comment évaluer les résultats qui pourraient sortir de ces activités sans pourtant avoir à en maîtriser l'aspect technique et mathématique sous-jacent.




 Commenter Signaler un problème

Avatar de Malick Malick - Community Manager https://www.developpez.com
l 28/07/2019 à 0:06
Bonjour chers membres du Club,

Je vous invite encore à lire la critique que Nicolas Vallée a faite pour vous au sujet du livre :

Depuis quelque temps, un grand nombre d'entreprises lancent des initiatives digitales en vue d'exploiter les possibilités offertes par le big data. Derrière ce terme se cache bon nombre de socles technologiques, qui offrent tous les outils nécessaires pour que les data scientists exercent leur talent. Lire la suite de la critique...

Bonne lecture
Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
l 27/07/2019 à 0:35
Data science pour l'entreprise
Principes fondamentaux pour développer son activité




Cet ouvrage traite de façon détaillée mais non technique les principes fondamentaux de la data science. Tout au long d'un processus de "raisonnement orienté données", il vous guidera pour acquérir des connaissances utiles et extraire une valeur économique des données que vous collectez. L'apprentissage de la data science vous permettra de comprendre les nombreuses techniques de data mining utilisées aujourd'hui. Ces principes sous-tendent tous les processus et stratégies de data mining qui servent à résoudre des problèmes d'entreprise.

"Ce livre est bien plus qu'une introduction à l'analyse de données. C'est un guide essentiel pour ceux d'entre nous (nous tous ?) qui ont entièrement fondé leur entreprise sur l'ubiquité des données et la nécessité, aujourd'hui, de la prise de décision orientée données." Tom Phillips, PDG, Dstillery ; ex-Directeur de Google Search and Analytics.

"Les auteurs de ce livre, tous deux experts en data science avant même que la discipline soit nommée ainsi, présentent ici un sujet complexe en le rendant accessible à tous les niveaux. Cet ouvrage est une première du genre : il se concentre sur les concepts de la data science tels qu'ils doivent être appliqués aux problèmes concrets des entreprises. Il est rempli de captivants exemples réels qui illustrent les pro- blèmes courants auxquels les entreprises sont confrontées : l'attrition client, le marketing ciblé, et même une analyse des données sur les whiskies ! Ce livre se distingue par le fait qu'il n'est pas un traité d'algorithmique. Les auteurs ont pour objectif d'aider le lecteur à comprendre les concepts sous-jacents de la data science, mais également et surtout ils expliquent comment aborder un problème de data science et mettre au point une solution qui marche. Si vous avez besoin d'un aperçu complet de la data science, ou si vous êtes un data scientist en herbe qui veut maîtriser les bases de la discipline, ce livre est un indispensable pour vous." – Chris Volinsky, Directeur, Statistics Research,
AT&T Labs, Gagnant du Netflix Challenge à 1 M$.

[Lire la suite]


Avatar de Yoossef2023 Yoossef2023 - Nouveau Candidat au Club https://www.developpez.com
l 15/02/2023 à 1:17
tres interesser pour ce livre
priere de partager avec moi le livre pdf

 
couverture du livre Data Science par la pratique

Note 5 drapeau
Détails du livre
Sommaire
Critiques (1)
2 commentaires
 
 

Data Science par la pratique

fondamentaux avec Python

de
Public visé : Débutant

Résumé de l'éditeur

Un ouvrage de référence pour les (futurs) data scientists.

Les bibliothèques, les frameworks, les modules et les boîtes à outils sont parfaits pour faire de la data science. Ils sont aussi un bon moyen de plonger dans la discipline sans comprendre la data science. Dans cet ouvrage, vous apprendrez comment fonctionnent les outils et algorithmes les plus fondamentaux de la data science, en les réalisant à partir de zéro.

Si vous êtes fort en maths et que vous connaissez la programmation, l'auteur, Joël Grus, vous aidera à vous familiariser avec les maths et les statistiques qui sont au coeur de la data science et à acquérir les compétences informatiques indispensables pour démarrer comme data scientist. La profusion des données d'aujourd'hui contient les réponses aux questions que personne n'a encore pensé à poser. Ce livre vous enseigne comment obtenir ces réponses.

Suivez un cours accéléré de Python.
Apprenez les fondamentaux de l'algèbre linéaire, des statistiques et des probabilités, et comprenez comment et quand les utiliser en data science.
Collectez, explorez, nettoyez, bricolez et manipulez les données.
Plongez dans les bases de l'apprentissage automatique.
Implémentez des modèles comme les k plus proches voisins, le Bayes naïf, les régressions linéaire ou logistique, les arbres de décision, les réseaux neuronaux et le clustering.
Explorez les systèmes de recommandation, le traitement du langage naturel, l'analyse de réseau, MapReduce et les bases de données.

A qui s'adresse cet ouvrage ?
Aux développeurs, statisticiens, étudiants et chefs de projet ayant à résoudre des problèmes de data science.
Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art de ce métier du futur.

Édition : Eyrolles - 307 pages, 1re édition, 11 mai 2017

ISBN10 : 2212118686 - ISBN13 : 9782212118681

Commandez sur www.amazon.fr :

39.00 € TTC (prix éditeur 39.00 € TTC) livraison gratuite !
  • Introduction
    Cours accéléré de Python
    Visualisation des données
    Algèbre linéaire
    Statistique
    Probabilités
    Hypothèse et inférence
    Descente de gradient
    Collecte des données
    Travail sur les données
    Apprentissage automatique
    k plus proches voisins
    Classification naïve bayésienne
    Régression linéaire simple
    Régression linéaire multiple
    Régression logistique
    Arbres de décision
    Réseaux neuronaux
    Clustering
    Traitement automatique du langage naturel
    Analyse des réseaux
    Systèmes de recommandation
    Base de données et SQL
    MapReduce
    En avant pour la data science
Critique du livre par la rédaction Vincent PETIT le 1er octobre 2018
Pour qui ? Cet ouvrage est une introduction destinée aux développeurs Python, statisticiens et étudiants ayant à résoudre des problèmes de data science et bien sûr, à toute personne curieuse d'avoir une vue d'ensemble de ce métier du futur. Mais ce livre s’adresse aussi, de manière détournée, à un public bien plus large ; car il permet d’en apprendre un peu plus sur la manipulation de la bibliothèque Matplotlib et permet de voir comment travailler des notions mathématiques plus générales qui ne sont pas forcément orientées science des données.

À l’intérieur : le livre démarre par une introduction très concrète à cette discipline, suivie par deux préalables, un cours accéléré de Python et un autre sur la visualisation des données grâce à Matplotlib.

Puis on se consacre à l’algèbre linéaire, les statistiques et les probabilités, pour ensuite aborder les notions d’analyse et d’apprentissage automatique, pas dans l’ordre exact, mais le tout au travers d’exemples parlants ou de cas réels, avec une approche très majoritairement informatique.

Enfin, le dernier chapitre donne les clés pour aller plus loin : les bibliothèques les plus répandues, les sites où trouver des jeux de données, les notions à approfondir, etc.

Détails : l’auteur réussit à expliquer beaucoup de notions mathématiques avec le minimum de connaissances requises en mathématiques. Dans chaque chapitre, on démarre l’explication par un exemple très concret pour entrer rapidement dans le code et très souvent, lorsque le sujet le permet, on trouve une illustration ou un graphique permettant de se rendre compte visuellement du concept mis en œuvre. À la fin de chaque chapitre, l’auteur indique comment aller plus loin en faisant référence à des ouvrages ou en dirigeant le lecteur vers les notions supplémentaires à acquérir.

J’ai apprécié qu’un certain nombre de fonctions aient été réécrites simplement pour améliorer la compréhension du livre tout en laissant le lecteur libre d’utiliser des fonctions optimisées dans des bibliothèques spécialisées. Cependant, cet ouvrage part du principe que vous connaissez Python et le cours accéléré du chapitre 2 ne peut pas se substituer à un vrai cours dédié à ce langage.

Comment s’en sert-on ? Ce livre se met en application avec IPython ou avec SciLab en se projetant, et un jeu de données.




 Commenter Signaler un problème

Avatar de Vincent PETIT Vincent PETIT - Modérateur https://www.developpez.com
l 22/09/2018 à 14:01
Data Science par la pratique
fondamentaux avec Python


Un ouvrage de référence pour les (futurs) data scientists.

Les bibliothèques, les frameworks, les modules et les boîtes à outils sont parfaits pour faire de la data science. Ils sont aussi un bon moyen de plonger dans la discipline sans comprendre la data science. Dans cet ouvrage, vous apprendrez comment fonctionnent les outils et algorithmes les plus fondamentaux de la data science, en les réalisant à partir de zéro.

Si vous êtes fort en maths et que vous connaissez la programmation, l'auteur, Joël Grus, vous aidera à vous familiariser avec les maths et les statistiques qui sont au coeur de la data science et à acquérir les compétences informatiques indispensables pour démarrer comme data scientist. La profusion des données d'aujourd'hui contient les réponses aux questions que personne n'a encore pensé à poser. Ce livre vous enseigne comment obtenir ces réponses.

Suivez un cours accéléré de Python.
Apprenez les fondamentaux de l'algèbre linéaire, des statistiques et des probabilités, et comprenez comment et quand les utiliser en data science.
Collectez, explorez, nettoyez, bricolez et manipulez les données.
Plongez dans les bases de l'apprentissage automatique.
Implémentez des modèles comme les k plus proches voisins, le Bayes naïf, les régressions linéaire ou logistique, les arbres de décision, les réseaux neuronaux et le clustering.
Explorez les systèmes de recommandation, le traitement du langage naturel, l'analyse de réseau, MapReduce et les bases de données.

A qui s'adresse cet ouvrage ?
Aux développeurs, statisticiens, étudiants et chefs de projet ayant à résoudre des problèmes de data science.
Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art de ce métier du futur.

[Lire la suite]


Avatar de Supernul Supernul - Membre actif https://www.developpez.com
l 07/10/2018 à 18:07
J'ai acheté cet ouvrage pour voir si la version française valait le coup par rapport à l'originale. Outre un une traduction du titre original aux antipodes (Data Science for Scratch First Principles with Python) il y a une erreur presque toutes les pages voire plusieurs par page. Avant d'atteindre la page 100, j'en étais déjà à plus de 40 erreurs de traduction et de code (notamment des erreurs d'indentation !) sans les chercher. Un seul conseil : excepté si corriger des dizaines d'erreurs d'un ouvrage est votre passe-temps, acheter la version originale dont la version française ne traduit pas certains aspects d'humour de langage.

4 étoiles pour la version anglaise et 0 pour la version française !
Avatar de francis60 francis60 - Membre habitué https://www.developpez.com
l 30/11/2018 à 12:15
Bonjour,

Dans la critique du livre, il est indiqué:
Comment s’en sert-on ? Ce livre se met en application avec IPython ou avec SciLab en se projetant, et un jeu de données.
Est-ce qu'on peut mettre en application les exemples avec PyCharm.
Ou est-ce que IPython ou SciLab sont indispensables pour bien mettre en pratique ?

 
couverture du livre Maîtrisez l'utilisation des technologies Hadoop : initiation à l'écosystème Hadoop

Note 4.25 drapeau
Détails du livre
Sommaire
Critiques (2)
2 commentaires
 
 

Maîtrisez l'utilisation des technologies Hadoop : initiation à l'écosystème Hadoop

de

Résumé de l'éditeur

L'explosion de données qui caractérise le monde dans lequel nous vivons actuellement a entraîné un foisonnement de problématiques qui nécessitent des réponses technologiques aussi différentes les unes que les autres. Hadoop est le socle technologique de stockage et de traitement de ces données, mais n'est pas à lui seul capable de répondre à toutes ces problématiques. C'est pourquoi un ensemble de technologies, l'écosystème Hadoop, a été développé. On peut citer dans cet écosystème des technologies comme SPARK, TEZ, YARN, Lucene, HBase, Accumulo, Kafka, ou encore Storm. La fondation Apache est aujourd'hui le dépositaire de cet écosystème. La particularité d'Hadoop et de son écosystème technologique est qu'ils s'appuient sur des approches conceptuelles et techniques différentes de celles sur lesquelles les technologies traditionnelles sont fondées. Ces approches n'ont pour la plupart jamais été étudiées de façon sérieuse au cours des formations des professionnels de la génération actuelle et sont rarement abordées, même dans des tutoriels. Combinez à cela le rythme d'innovation soutenue d'Hadoop et des technologies de la Big Data en général et vous vous retrouvez rapidement sur un marché avec une forte divergence entre le niveau d'innovation technologique et les compétences autour de ces innovations. L'ouvrage est un manuel d'apprentissage pratique qui aide à monter en compétences sur toutes les technologies centrales de l'écosystème Hadoop. L'ouvrage atteint trois objectifs :
  • faire monter en compétence sur toutes les technologies centrales de l'écosystème Hadoop, entre autres : MapReduce, SPARK, TEZ, LUCENE, ELASTICSEARCH, IMPALA, HBASE, Storm, Phoenix, etc. ;
  • aider à maîtriser les principes et les approches conceptuelles qui sont à la base des technologies de l'écosystème Hadoop ;
  • rendre capable d'identifier la portée fonctionnelle de chacune des technologies de l'écosystème Hadoop
.

Édition : Eyrolles - 431 pages, 1re édition, 31 mai 2018

ISBN10 : 2212674783 - ISBN13 : 9782212674781

Commandez sur www.amazon.fr :

39.00 € TTC (prix éditeur 39.00 € TTC)
  • Les modèles de calcul de l'écosystème Hadoop
    • Les modèles de calcul batch
    • Les modèles de calcul interactifs

  • Les abstractions des modèles de calcul d'Hadoop
    • Les langages d'abstraction d'Hadoop
    • Le SQL sur Hadoop

  • Le stockage de données en Hadoop
    • Généralités sur le stockage des données
    • HBase
    • L'indexation de contenu
    • Apache Lucene
    • ElasticSearch

  • La gestion du cluster Hadoop
    • YARN
    • Apache ZooKeeper

  • Le streaming en temps réel dans Hadoop
    • Apache Storm

  • Les outils annexes de l'écosystème Hadoop
    • Oozie et Sqoop
    • Hue et Ambari

  • Adoption à grande échelle d'Hadoop
    • Distributions d'Hadoop
    • Solutions Hadoop embarquées
    • Hadoop dans le Cloud
    • Le big data

Critique du livre par la rédaction Thibaut Cuvelier le 14 juillet 2018
Hadoop est probablement l'une des technologies phares actuelles dès que l'on s'approche du traitement de données à grande échelle. Cependant, l'écosystème ne cesse de grandir, avec de plus en plus de composants à connaître pour bien exploiter sa grappe de serveurs Hadoop. Ce livre fournit une introduction exhaustive à cet environnement, il vous familiarise rapidement avec l'ensemble des composants qui constituent Hadoop aujourd'hui.

L'un des grands avantages de cet ouvrage est qu'il recontextualise en permanence les éléments les uns par rapport aux autres : il devient aisé de se retrouver dans la jungle Hadoop. De même, chaque brique est présentée avec les objectifs et les contraintes qui l'ont vue naître, ce qui permet d'apprécier les choix techniques qui ont été posés. Le côté véritablement technique est largement présent : dès le premier chapitre, le lecteur est plongé dans des détails de l'organisation de Hadoop. L'un des maîtres-mots était de chercher à comprendre avant d'utiliser. Pari tenu !

À la fin de la lecture de l'ouvrage, vous êtes censés atteindre un niveau « professionnel » avec Hadoop. Les exemples vous montreront au moins comment utiliser chaque partie de Hadoop, d'une manière relativement basique, mais néanmoins suffisante pour bon nombre d'utilisations. L'aspect administration des machines n'est pas abordé, il ne fait pas partie du périmètre visé par l'auteur.

On peut regretter que le niveau attendu du lecteur ne soit pas clair : l'ouvrage rappelle (assez brièvement) ce qu'est une classe, une fonction, etc., alors que le public cible semble plutôt fin connaisseur de ces notions. Un point bien plus gênant est le nombre d'erreurs techniques, qui diminuent la crédibilité du texte. Par exemple, selon l'auteur, le format PDF est propriétaire (alors qu'il correspond à la norme ISO 32000-1 depuis 2008), W3Schools est un site officiel du W3C, Google utilise l'algorithme PageRank pour l'indexation (en réalité, uniquement pour mesurer la popularité de pages). De même, certains exemples ne sont pas toujours très bien choisis. Par exemple, présenter le NoSQL avec une application extrêmement bien traitée par des systèmes relationnels à très grande échelle (listes du personnel, des commandes) n'est pas le plus judicieux.

En résumé, ce livre aide à se forger une vue d'ensemble de Hadoop pour envisager de l'utiliser efficacement. Il ne fera pas du lecteur un maître, mais lui donnera les éléments nécessaires pour commencer son utilisation sereinement.
Critique du livre par la rédaction Nicolas Vallée le 10 novembre 2018
Hadoop est désormais un environnement dans lequel s'intègrent de nombreux composants, ayant parfois la même finalité. Cet ouvrage ne pourra bien entendu pas se montrer exhaustif dans la présentation de l'écosystème Hadoop. Toutefois, il saura exposer au moins une brique de chaque type.

Tout au long des présentations, des illustrations pratiques sont effectuées afin de permettre même aux débutants de recontextualiser et d'expérimenter dans une certaine mesure. À la fin, le lecteur saura quelles sont sont les briques types, pourquoi elles ont été créées, comment les utiliser sommairement au moins, et le nom de briques équivalentes si jamais il est amené à les rencontrer sur un projet existant.

Bien entendu, chaque brique méritant à elle seule un livre, il faudra approfondir chaque étape. Mais ce n'est clairement pas la finalité de cet ouvrage.




 Commenter Signaler un problème

Avatar de Malick Malick - Community Manager https://www.developpez.com
l 23/07/2018 à 23:06
Bonjour chers membres du Club,

Je vous invite à lire la critique de Thibaut Cuvelier au sujet du livre écrit par Juvénal CHOKOGOUE :


Bonne lecture
Avatar de Malick Malick - Community Manager https://www.developpez.com
l 13/11/2018 à 13:09
Bonjour chers membres du Club,

Je vous invite encore à lire la critique que Nicolas Vallée a faite pour vous au sujet du livre Juvénal CHOKOGOUE :

Hadoop est désormais un environnement dans lequel s'intègrent de nombreux composants, ayant parfois la même finalité. Cet ouvrage ne pourra bien entendu pas se montrer exhaustif dans la présentation de l'écosystème Hadoop. Toutefois il saura exposer au moins une brique de chaque type. Lire la suite de la critique...

Bonne lecture
Avatar de Malick Malick - Community Manager https://www.developpez.com
l 31/05/2018 à 15:57
Maîtrisez l'utilisation des technologies Hadoop : Initiation à l'écosystème Hadoop

L'explosion de données qui caractérise le monde dans lequel nous vivons actuellement a entraîné un foisonnement de problématiques qui nécessitent des réponses technologiques aussi différentes les unes que les autres. Hadoop est le socle technologique de stockage et de traitement de ces données, mais n'est pas à lui seul capable de répondre à toutes ces problématiques. C'est pourquoi un ensemble de technologies, l'écosystème Hadoop, a été développé. On peut citer dans cet écosystème des technologies comme SPARK, TEZ, YARN, Lucene, HBase, Accumulo, Kafka, ou encore Storm. La fondation Apache est aujourd'hui le dépositaire de cet écosystème. La particularité d'Hadoop et de son écosystème technologique est qu'ils s'appuient sur des approches conceptuelles et techniques différentes de celles sur lesquelles les technologies traditionnelles sont fondées. Ces approches n'ont pour la plupart jamais été étudiées de façon sérieuse au cours des formations des professionnels de la génération actuelle et sont rarement abordées, même dans des tutoriels. Combinez à cela le rythme d'innovation soutenue d'Hadoop et des technologies de la Big Data en général et vous vous retrouvez rapidement sur un marché avec une forte divergence entre le niveau d'innovation technologique et les compétences autour de ces innovations. L'ouvrage est un manuel d'apprentissage pratique qui aide à monter en compétences sur toutes les technologies centrales de l'écosystème Hadoop. L'ouvrage atteint trois objectifs :
  • faire monter en compétence sur toutes les technologies centrales de l'écosystème Hadoop, entre autres : MapReduce, SPARK, TEZ, LUCENE, ELASTICSEARCH, IMPALA, HBASE, Storm, Phoenix, etc. ;
  • aider à maîtriser les principes et les approches conceptuelles qui sont à la base des technologies de l'écosystème Hadoop ;
  • rendre capable d'identifier la portée fonctionnelle de chacune des technologies de l'écosystème Hadoop.




 
couverture du livre Les bases de données NoSQL et le Big Data

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Les bases de données NoSQL et le Big Data

Comprendre et mettre en oeuvre

de
Public visé : Intermédiaire

Résumé de l'éditeur

Des bases pour la performance et le Big Data

En quelques années, le volume des données brassées par les entreprises a considérablement augmenté. Émanant de sources diverses (transactions, comportements, réseaux sociaux, géolocalisation...), elles sont souvent structurées autour d'un seul point d'entrée, la clé, et susceptibles de croître très rapidement. Autant de caractéristiques qui les rendent très difficiles à traiter avec des outils classiques de gestion de données. Par ailleurs, l'analyse de grands volumes de données, ce qu'on appelle le Big Data, défie également les moteurs de bases de données traditionnels.

C'est pour répondre à ces différentes problématiques que sont nées les bases de données NoSQL (Not Only SQL), sous l'impulsion de grands acteurs du Web comme Facebook ou Google, qui les avaient développées à l'origine pour leurs besoins propres. Grâce à leur flexibilité et leur souplesse, ces bases non relationnelles permettent en effet de gérer de gros volumes de données hétérogènes sur un ensemble de serveurs de stockage distribués, avec une capacité de montée en charge très élevée. Elles peuvent aussi fournir des accès de paires clé-valeur en mémoire avec une très grande célérité. Réservées jusqu'à peu à une minorité, elles tendent aujourd'hui à se poser en complément du modèle relationnel qui dominait le marché depuis plus de 30 ans.

Du choix de la base NoSQL à sa mise en oeuvre

Cet ouvrage d'une grande clarté dresse un panorama complet des bases de données NoSQL, en analysant en toute objectivité leurs avantages et inconvénients. Dans une première partie, il présente les grands principes de ces bases non relationnelles : interface avec le code client, architecture distribuée, paradigme MapReduce, etc.

Il détaille ensuite dans une deuxième partie les principales solutions existantes (les solutions de Big Data autour de Hadoop, MongoDB, Cassandra, Couchbase Server...), en précisant spécificités, forces et faiblesses de chacune. Complétée par une étude de cas réel, la dernière partie du livre est consacrée au déploiement concret de ces bases : dans quel cas passer au NoSQL ? quelle base adopter selon ses besoins ? quelles données basculer en NoSQL ? comment mettre en place une telle base ? comment la maintenir et superviser ses performances ?

Édition : Eyrolles - 322 pages, 2e édition, 24 avril 2015

ISBN10 : 2212141556 - ISBN13 : 9782212141559

Commandez sur www.amazon.fr :

32.00 € TTC (prix éditeur 32.00 € TTC) livraison gratuite !
  1. Qu'est-ce qu'une base de données NoSQL ?
    • Des SGBD relationnels au NoSQL
    • NoSQL versus SQL : quelles différences ?
    • Les choix techniques du NoSQL
    • Les schémas de données dans les bases NoSQL

  2. Panorama des principales bases de données NoSQL.
    • Hadoop et HBase
    • Le Big Data analytique
    • CouchDB et Couchbase Server
    • MongoDB
    • Riak
    • Redis
    • Cassandra
    • Les autres bases de données de la mouvance NoSQL

  3. Mettre en oeuvre une base NoSQL
    • Quand aller vers le NoSQL et quelle base choisir ?
    • Mettre en place une solution NoSQL
    • Maintenir et superviser ses bases NoSQL
    • Etude de cas : le NoSQL chez Skyrock

  4. Conclusion - Comment se présente le futur ?
Critique du livre par la rédaction Fabien Celaia le 5 juillet 2017
Souvent malheureusement, l’utilisation d’une base NoSQL est « poussée » par des développeurs plus enclins à éviter les bases traditionnelles qu’à envisager le NoSQL comme un complément. Le fait que l’auteur soit issu du monde des bases relationnelles fut – pour moi - un facteur déterminant pour le choix de ce livre… et je n’ai pas été déçu.

La première partie est passionnante : elle traite des principaux thèmes du Big Data et des bases NoSql et les aborde de façon conviviale... Théorème, CAP, distribution des données, impédance… tout y passe… L'auteur a un évident sens de la vulgarisation qui rend des sujets absconds tout à fait passionnants…

La seconde partie décrit les principaux logiciels du marché, avec leurs spécificités, leurs carences et leurs forces... et chaque fois, un bref descriptif (ne vous attendez pas à un manuel d’installation !) de l'installation sur Linux qui permet de gagner passablement de temps si vous voulez tester vous-même.

Après avoir survolé tous ces logiciels, le début de la troisième partie vient à point nommé pour nous aider à faire notre choix. La suite de cette partie est consacrée à la mise en place plus en détail d'une solution NoSQL : c'est la partie "cas pratique" de l'ouvrage.

Ce livre atteint son but si vous comprenez que
  • le NoSQL est là pour palier des carences des bases relationnelles, et pas pour les remplacer,
  • vous ne pourrez choisir UNE base NoSQL, mais certaines s'imposeront selon vos besoins spécifiques... à ce titre, les pages 256 à 260 de comparaison enfouies dans la partie 3 de l'ouvrage, méritent à elles seules intérêt...


Quelques petits bémols cependant :
  • on tombe parfois dans des détails qui amènent passablement de code et n'apportent techniquement pas grand-chose... L'explication sur Lisp en est un exemple... Hormis démontrer que le sujet est maîtriser, cela n'apporte rien à la démonstration.
  • la conclusion n'amène rien de bien profond...
  • quelques bases manquent à l'analyse...


En résumé, un ouvrage de vulgarisation indispensable… même si vous ne voulez pas implémenter une base NoSQL dans un avenir proche... Plusieurs thèmes abordés peuvent vous donner des pistes de développement / d’administration de vos bases relationnelles pour leur permettre des montées en charge moins pénibles…





 Commenter Signaler un problème

Avatar de Fabien Celaia Fabien Celaia - Rédacteur/Modérateur https://www.developpez.com
l 27/06/2017 à 16:48
Les bases de données NoSQL et le Big Data
Comprendre et mettre en oeuvre


Des bases pour la performance et le Big Data

En quelques années, le volume des données brassées par les entreprises a considérablement augmenté. Émanant de sources diverses (transactions, comportements, réseaux sociaux, géolocalisation...), elles sont souvent structurées autour d'un seul point d'entrée, la clé, et susceptibles de croître très rapidement. Autant de caractéristiques qui les rendent très difficiles à traiter avec des outils classiques de gestion de données. Par ailleurs, l'analyse de grands volumes de données, ce qu'on appelle le Big Data, défie également les moteurs de bases de données traditionnels.

C'est pour répondre à ces différentes problématiques que sont nées les bases de données NoSQL (Not Only SQL), sous l'impulsion de grands acteurs du Web comme Facebook ou Google, qui les avaient développées à l'origine pour leurs besoins propres. Grâce à leur flexibilité et leur souplesse, ces bases non relationnelles permettent en effet de gérer de gros volumes de données hétérogènes sur un ensemble de serveurs de stockage distribués, avec une capacité de montée en charge très élevée. Elles peuvent aussi fournir des accès de paires clé-valeur en mémoire avec une très grande célérité. Réservées jusqu'à peu à une minorité, elles tendent aujourd'hui à se poser en complément du modèle relationnel qui dominait le marché depuis plus de 30 ans.

Du choix de la base NoSQL à sa mise en oeuvre

Cet ouvrage d'une grande clarté dresse un panorama complet des bases de données NoSQL, en analysant en toute objectivité leurs avantages et inconvénients. Dans une première partie, il présente les grands principes de ces bases non relationnelles : interface avec le code client, architecture distribuée, paradigme MapReduce, etc.

Il détaille ensuite dans une deuxième partie les principales solutions existantes (les solutions de Big Data autour de Hadoop, MongoDB, Cassandra, Couchbase Server...), en précisant spécificités, forces et faiblesses de chacune. Complétée par une étude de cas réel, la dernière partie du livre est consacrée au déploiement concret de ces bases : dans quel cas passer au NoSQL ? quelle base adopter selon ses besoins ? quelles données basculer en NoSQL ? comment mettre en place une telle base ? comment la maintenir et superviser ses performances ?

[Lire la suite]



 
couverture du livre Hadoop

drapeau
Détails du livre
Sommaire
Critiques (0)
0 commentaire
 
 

Hadoop

Devenez opérationnel dans le monde du Big Data

de

Résumé de l'éditeur

Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde «Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.

Édition : ENI - 373 pages, 1re édition, 12 avril 2017

ISBN10 : 2409007619 - ISBN13 : 9782409007613

Commandez sur www.amazon.fr :

39.00 € TTC (prix éditeur 39.00 € TTC)
  • Introduction
  • Contexte de création d'Hadoop
  • Architecture infrastructurelle d'Hadoop
  • MapReduce
  • Hadoop
  • HDFS
  • Futur d'Hadoop : limites d'Hadoop et YARN
  • SQL dans Hadoop
  • Streaming 101
  • Apache Storm
  • Adoption d'Hadoop
  • Transition numérique
  • Conclusion
  • Liens et références utiles
  • Réponses des guides d'étude
Aucune critique n'a été faite pour l'instant



 Commenter Signaler un problème

Avatar de Malick Malick - Community Manager https://www.developpez.com
l 29/04/2017 à 1:49
Hadoop
Devenez opérationnel dans le monde du Big Data

Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde « Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.



 
couverture du livre Bases de données orientées graphes avec Neo4j

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Bases de données orientées graphes avec Neo4j

Manipuler et exploiter vos bases de données orientées graphes

de
Public visé : Débutant

Résumé de l'éditeur

Ces dernières années, les besoins relatifs au traitement des données ont évolué à un rythme soutenu. Les sites web aux millions d'utilisateurs (réseaux sociaux, plates-formes de diffusion de contenus) sont à l'origine de l'essor de la plus dynamique des familles de moteurs de données : le NoSQL.

Une base de données optimisée pour le big data

Parmi les bases de données NoSQL, celles orientées "graphes" connaissent un succès fulgurant du fait de leur souplesse et de leur évolutivité extrême. Ne reposant sur aucun schéma, un graphe peut accepter de nouveaux flux de données sans nécessiter d'interventions lourdes. A l'heure où les sociétés ont compris que la fusion de leurs silos de données (CRM, ERP, Web, etc.) est une condition sine qua non pour créer de la valeur (solutions d'intelligence prédictive, moteurs de recommandation), cette propriété du graphe se révèle essentielle.

En considérant les relations entre objets comme des données de premier ordre, de nouvelles perspectives d'exploration et d'analyse apparaissent et favorisent la découverte d'informations inédites. L'absence de barrières logiques ouvre également la porte à des modalités d'exploitation de la donnée en profondeur, sans nuire aux performances. Installés depuis de nombreuses années au coeur des infrastructures des géants du Web (Google, Facebook, Linkedln), les graphes sont désormais accessibles au plus grand nombre grâce à l'émergence des moteurs de graphes et notamment au leader du domaine : Neo4j.

Un ouvrage de référence sur Neo4j

Le présent ouvrage s'adresse à tous les publics confrontés au volet data d'un projet informatique : développeurs, DSI, directeurs techniques, chefs de projets, data miners et data scientists. Son objectif majeur est de vous aider à identifier les projets informatiques qui gagneront à mettre en oeuvre un graphe.

Après une introduction au concept de graphe et une présentation de Neo4j et de son langage de requête (Cypher), le présent ouvrage illustre à l'aide d'exemples concrets la puissance des graphes pour traiter des problèmes aussi pointus que la recommandation et l'analyse de réseaux sociaux. Les grandes étapes d'un projet data-driven reposant sur le graphe sont illustrées de la conception à la mise en place de modèles prédictifs, en passant par l'ingestion des données et l'analyse.

À qui s'adresse cet ouvrage ?
  • Aux administrateurs de bases NoSQL de type graphe.
  • Aux développeurs et architectes, pour mettre en pratique les concepts avec Neo4j.
  • Aux data scientists qui trouveront avec les graphes un outil complémentaire pour concevoir leurs modèles.

Édition : Eyrolles - 181 pages, 1re édition, 18 février 2016

ISBN10 : 2212138040 - ISBN13 : 9782212138047

Commandez sur www.amazon.fr :

32.00 € TTC (prix éditeur 32.00 € TTC)
  • Réseaux et graphes
  • Bases de données et modèles de graphes
  • Installation de Neo4j
  • Le langage Cypher
  • Serveur Neo4j
  • Exemples pratiques de modélisation des données
  • Analyse prédictive et recommandation
  • Outils de visualisation
  • Graphes et réseaux sociaux
Critique du livre par la rédaction Nicolas Vallée le 5 juin 2016
Cet ouvrage est destiné à un public initié aux concepts de base de données, mais ne nécessite aucune expérience particulière. Il commence par une présentation de l'approche NoSQL, et en particulier de la famille « orientée graphes » dont fait partie Neo4j. À ce stade, un léger reproche serait à émettre : il n'y a pas de comparaison des grandes familles en termes de type de requête, de volumétrie, etc. Or c'est parfois le critère pour choisir le type de base.

Ensuite, les différents chapitres exposent progressivement les notions utiles, depuis l'installation, le langage Cypher, jusqu'à la représentation graphique des graphes, etc. Tout est bien illustré et suit un fil conducteur grâce à l'exemple de la notation des films par une communauté.
À la fin, le fil conducteur est abandonné au profit d'un exemple autour d'une API Twitter. Ce choix s'explique par l'impossibilité du premier exemple d'illustrer le concept que les auteurs souhaitaient alors présenter : l'analyse d'influence dans une communauté d'utilisateurs.

Pour résumer, il s'agit d'un bon ouvrage pour débutants ou pour toute personne souhaitant obtenir des notions autour des bases orientées graphes. Il est très simple d'accès, peut-être trop finalement… on reste un peu sur sa faim, surtout avec l'absence de comparatifs autour des analyses présentées sur d'autres modèles.




 Commenter Signaler un problème

Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
l 04/06/2016 à 22:00
Bases de données orientées graphes avec Neo4j
Manipuler et exploiter vos bases de données orientées graphes


Ces dernières années, les besoins relatifs au traitement des données ont évolué à un rythme soutenu. Les sites web aux millions d'utilisateurs (réseaux sociaux, plates-formes de diffusion de contenus) sont à l'origine de l'essor de la plus dynamique des familles de moteurs de données : le NoSQL.

Une base de données optimisée pour le big data

Parmi les bases de données NoSQL, celles orientées "graphes" connaissent un succès fulgurant du fait de leur souplesse et de leur évolutivité extrême. Ne reposant sur aucun schéma, un graphe peut accepter de nouveaux flux de données sans nécessiter d'interventions lourdes. A l'heure où les sociétés ont compris que la fusion de leurs silos de données (CRM, ERP, Web, etc.) est une condition sine qua non pour créer de la valeur (solutions d'intelligence prédictive, moteurs de recommandation), cette propriété du graphe se révèle essentielle.

En considérant les relations entre objets comme des données de premier ordre, de nouvelles perspectives d'exploration et d'analyse apparaissent et favorisent la découverte d'informations inédites. L'absence de barrières logiques ouvre également la porte à des modalités d'exploitation de la donnée en profondeur, sans nuire aux performances. Installés depuis de nombreuses années au coeur des infrastructures des géants du Web (Google, Facebook, Linkedln), les graphes sont désormais accessibles au plus grand nombre grâce à l'émergence des moteurs de graphes et notamment au leader du domaine : Neo4j.

Un ouvrage de référence sur Neo4j

Le présent ouvrage s'adresse à tous les publics confrontés au volet data d'un projet informatique : développeurs, DSI, directeurs techniques, chefs de projets, data miners et data scientists. Son objectif majeur est de vous aider à identifier les projets informatiques qui gagneront à mettre en oeuvre un graphe.

Après une introduction au concept de graphe et une présentation de Neo4j et de son langage de requête (Cypher), le présent ouvrage illustre à l'aide d'exemples concrets la puissance des graphes pour traiter des problèmes aussi pointus que la recommandation et l'analyse de réseaux sociaux. Les grandes étapes d'un projet data-driven reposant sur le graphe sont illustrées de la conception à la mise en place de modèles prédictifs, en passant par l'ingestion des données et l'analyse.

À qui s'adresse cet ouvrage ?
  • Aux administrateurs de bases NoSQL de type graphe.
  • Aux développeurs et architectes, pour mettre en pratique les concepts avec Neo4j.
  • Aux data scientists qui trouveront avec les graphes un outil complémentaire pour concevoir leurs modèles.


[Lire la suite]



 
couverture du livre Hadoop par la pratique

Note 3 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Hadoop par la pratique

de
Public visé : Intermédiaire

Résumé de l'éditeur

Hadoop par la pratique s'articule autour d’explications approfondies et d’exemples de code. Chaque chapitre décrit un problème technique puis propose une solution découpée en étapes faciles à suivre. Au programme :
  • ETL, compression, sérialisation et importation/exportation de données ;
  • analyse simple et élaborée d’agrégats ;
  • analyse graphique ;
  • apprentissage automatique ;
  • dépannage et débogage ;
  • persistance évolutive ;
  • administration et configuration de cluster.


Vous trouverez dans cet ouvrage :
  • un contenu direct et facile à suivre ;
  • une sélection des tâches et des problèmes les plus importants ;
  • des instructions parfaitement organisées pour résoudre efficacement les problèmes ;
  • des explications claires sur les actions réalisées ;
  • une application des solutions à d’autres situations.


La lecture de cet ouvrage vous permettra de développer facilement des applications massivement parallèles et d’exploiter toute la puissance d’Hadoop.

Édition : Campus Press - 330 pages, 25 avril 2014

ISBN10 : 2744026247 - ISBN13 : 9782744026249

Commandez sur www.amazon.fr :

37.00 € TTC (prix éditeur 37.00 € TTC)
  1. Importation et exportation de données dans HDFS
  2. HDFS
  3. Extraction et transformation des données
  4. Exécution de tâches récurrentes avec Hive, Pig et MapReduce
  5. Jointures élaborées
  6. Analyses Big Data
  7. Analyses Big Data élaborées
  8. Débogage
  9. Administration système
  10. Persistance avec Apache Accumulo
Critique du livre par la rédaction Nicolas Vallée le 2 février 2016
Cet ouvrage est destiné à un public initié à l'utilisation du langage Java et souhaitant commencer ses expérimentations Big-Data sur la plateforme Hadoop. Il sera guidé via de nombreux exemples de code, tout au long de ces travaux pratiques. Il abordera ainsi les notions d'ETL, de sérialisation, de cluster, etc.

En revanche, l'auteur passe beaucoup trop de temps à expliquer des notions simples. Il semble inutile de montrer comment recompiler chaque paquet utilisé : un seul exemple aurait suffi.
En effet, l'ouvrage finit par être lassant et n'explique pas réellement des notions essentielles autour de l'architecture d'un projet autour de Hadoop (un comble pour un ouvrage dit « par la pratique ») et ne fait qu'en effleurer les finalités. À moins qu'il ne cherche que des exemples à réutiliser en l'état et qu'il dispose d'une bonne connaissance des concepts, le lecteur devrait rester sur sa faim...




 Commenter Signaler un problème

Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
l 02/02/2016 à 9:28
Hadoop par la pratique


Hadoop par la pratique s'articule autour d’explications approfondies et d’exemples de code. Chaque chapitre décrit un problème technique puis propose une solution découpée en étapes faciles à suivre. Au programme :
  • ETL, compression, sérialisation et importation/exportation de données ;
  • analyse simple et élaborée d’agrégats ;
  • analyse graphique ;
  • apprentissage automatique ;
  • dépannage et débogage ;
  • persistance évolutive ;
  • administration et configuration de cluster.


Vous trouverez dans cet ouvrage :
  • un contenu direct et facile à suivre ;
  • une sélection des tâches et des problèmes les plus importants ;
  • des instructions parfaitement organisées pour résoudre efficacement les problèmes ;
  • des explications claires sur les actions réalisées ;
  • une application des solutions à d’autres situations.


La lecture de cet ouvrage vous permettra de développer facilement des applications massivement parallèles et d’exploiter toute la puissance d’Hadoop.

[Lire la suite]



 
couverture du livre Data Science : fondamentaux et études de cas

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Data Science : fondamentaux et études de cas

Machine Learning avec Python et R

de
Public visé : Intermédiaire

Résumé de l'éditeur

Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte : avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration !

À qui s'adresse cet ouvrage ?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

Édition : Eyrolles - 296 pages, 1er octobre 2015

ISBN10 : 2212142439 - ISBN13 : 9782212142433

Commandez sur www.amazon.fr :

35.00 € TTC (prix éditeur 35.00 € TTC)
  • LE B-A BA du data scientist
  • Les basiques du data scientist
  • Les algorithmes et leurs usages : visite guidée
  • La data science en pratique : quelques concepts généraux
  • La data science en pratique : au-delà des algorithmes !
  • La temporalité dans les modèles, un cas particulier d'application
Critique du livre par la rédaction Nicolas Vallée le 19 décembre 2015
Cet ouvrage est destiné à un public initié à la programmation R et/ou Python. Pour profiter pleinement de son contenu, les bases de ces langages doivent être totalement maîtrisées.
Il permet au lecteur de survoler un vaste panel de techniques d'analyse de données. Chaque chapitre est illustré, un cas pratique est présenté et enfin il contient des références pour approfondir ses connaissances.

Les auteurs font preuve d'un sens de la vulgarisation, et permettent au lecteur de mieux appréhender le travail de « data scientist ».
En revanche, il faut signaler que cet ouvrage est bien plus adapté aux techniques d'apprentissage qu'à des usages purement statistiques.




 Commenter Signaler un problème

Avatar de djibril djibril - Responsable Perl et Outils https://www.developpez.com
l 17/12/2015 à 19:01
Data Science : fondamentaux et études de cas
Machine Learning avec Python et R


Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte : avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration !

À qui s'adresse cet ouvrage ?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

[Lire la suite]



 
couverture du livre Big Data et Machine Learning

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (3)
0 commentaire
 
 

Big Data et Machine Learning

Manuel du data scientist

de
Public visé : Intermédiaire

Résumé de l'éditeur

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :
  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.

Édition : Dunod - 240 pages, 1re édition, 18 février 2015

ISBN10 : 2100720740 - ISBN13 : 9782100720743

Commandez sur www.amazon.fr :

29.90 € TTC (prix éditeur 29.90 € TTC)
Sommaire Les fondements du Big Data.
  • Les origines du Big Data.
    • Le Big Data dans les organisations.
    • Le mouvement NoSQL.
    • L’algorithme MapReduce et le framework Hadoop.
  • Le métier de data scientist.
    • Le quotidien du data scientist.
    • Exploration et préparation de données.
    • Le machine learning.
    • La visualisation des données.
  • Les outils du Big Data.
    • L’écosystème Hadoop.
    • Analyse de logs avec Pig et Hive.
    • Les architectures λ.
    • Apache Storm.

Critique du livre par la rédaction Mickael BARON le 31 mars 2015
La couverture du livre donne le ton, c'est un ouvrage qui s'adresse aux personnes intéressées par le métier de « Data Scientist », le buzz word du moment. L'ouvrage se décompose en trois grandes parties. La première discute du Big Data, de ses origines, comment il est intégré dans les entreprises et des nouveaux outils pour le stockage (NoSQL) et le traitement (MapReduce). Dans une deuxième partie, les auteurs s'intéressent principalement au cycle de vie de la donnée et présentent essentiellement de nombreux algorithmes de machine Learning. Enfin une dernière partie se focalise sur les outils pour faire du Big Data. De manière générale, cet ouvrage est très agréable à lire. Il propose de nombreux retours d'expérience et d'exemples simples qui illustrent la présentation des algorithmes de machine Learning.

Cet ouvrage n'est pas du tout technique, vous ne trouverez pas de code Java sur comment développer un algorithme MapReduce. Il ne demande pas de connaissance approfondie. Il s'agit d'un livre qui présente les concepts autour du machine Learning et donne un horizon de l'écosystème existant concernant les outils dédiés. De mon point de vue, ce livre a su compléter mes connaissances en termes d'usage des technologies BigData. En effet, je me suis intéressé au monde du Big Data en commençant par la technique via Hadoop et certains NoSQL. Toutefois, il m'était toujours difficile de savoir à quel moment exploiter ces technologies, les cas réels. Il est difficile de s'y émerger quand on ne travaille pas explicitement dessus. Ce livre apporte des débuts de réponse. J'apprécie aussi l'honnêteté des auteurs qui mettent en garde les lecteurs : tout problème ne se résout pas forcément par un problème Big Data !

Concernant les quelques points négatifs, j'en ai relevé quelques-uns qui sont globalement très légers.
  • Le premier concerne la troisième partie qui se focalise sur les outils pour faire du Big Data. Je trouve qu'un grand nombre de chapitres de cette dernière partie auraient pu être mis en première partie et consacrer une partie exclusive aux études de cas. Certes, il y a un chapitre sur l'utilisation de Hive et Pig pour le traitement de logs, mais un chapitre spécifique avec plusieurs études de cas aurait pu être intéressant. J'ai eu quelque mal à trouver comment appliquer les algorithmes de machine Learning sur le modèle de programmation MapReduce.
  • Le deuxième concerne l'utilisation exclusive MapReduce comme unique modèle de programmation. Certes les auteurs citent clairement qu'il y a un nouveau besoin de modèle de programmation temps réel, que le modèle de programmation de Spark est plus efficace face à MapReduce, mais tout au long de la lecture, on peut penser qu'il n'y a que celui-ci. J'ai hésité à donner ce point négatif, mais le livre est quand même récent, il date de 2015.

En conclusion, il s'agit d'un très bon livre, qui structure le cycle de vie de la donnée et donne des informations pertinentes.
Critique du livre par la rédaction Nassima BENAMMAR le 31 mars 2015
Ce livre expose des notions de base sur big data, comme l'indique son titre, et du data science. Il se compose de trois parties.

La première et la troisième partie portent principalement sur le big data et les technologies nouvelles dans ce domaine telles que l'algorithme Map Reduce, l'architecture Lambda et la plateforme Hadoop.

La deuxième partie porte sur le data science et principalement sur l'application du machine learning en citant ses différents algorithmes et en exposant les démarches d'un data scientist dans la conception de sa solution.

Le livre présente des explications simples de multiples notions liées au big data et au data science, grâce à des illustratifs faciles à comprendre, notamment dans la deuxième partie où il expose quelques exemples concrets sur l'impact du data science sur le succès des entreprises ainsi que sur l'interprétation des données dans des cas réels.

Ce qui doit être pris en considération (et qui est d'ailleurs mentionné au début du livre) est le fait que ces trois parties sont indépendantes et peuvent être lues séparément, autrement le lecteur risque de se perdre, car il n'y a pas d’enchaînement logique entre ces trois parties.

Enfin, ce livre est un bon manuel pour les professionnels de l'informatique décisionnelle qui veulent mieux exploiter leurs données et aussi pour les développeurs et architectes qui souhaitent connaitre des généralités sur le big data et le data science.
Critique du livre par la rédaction Lucas Girardin le 15 janvier 2016
Big Data et Data Scientist deux mots (quatre en réalité mais qui ne marche que par deux) que l'on entend et trouve un peu partout. Cependant dur de réussir à comprendre ce qui se cache derrière. Qu'est-ce qui fait qu'un gisement de donnée est appelé Big Data alors que d'autre non ? Quel est le véritable boulot d'un Data Scientist et comment le devient-on ? Comment différencier le baratin commercial de la réalité du terrain ? Voila déjà a quoi sert ce livre et rien que pour ça il mérite d'être lu. Mais il va encore plus loin en expliquant quel outil existe pour faire du big data et les différents algorithmes. Sans connaissance mathématique et notamment en statistique ces passages sont assez durs à lire et à comprendre mais il reste nécessaire de connaitre leurs utilités et leurs cas d’utilisations.

Ce livre explique aussi ce qu'est le célèbre algorithme MapReduce. A quoi il sert et les problématique qu'il résout. Hadoop est aussi passer à la moulinette pour comprendre son principe, des rappels sur le NoSQL sont abordés sans trop rentrer dans le détail toute fois. Avec ce livre on fait un grand bon dans la compréhension de l'informatique aujourd'hui. Pour quiconque qui s’intéresse au différent mouvement de nos jours, c'est le livre à lire. Mieux même, toute personne souhaitant aborder le big data pour la première fois, c'est aussi le meilleurs point de départ que l'on puisse conseiller. En plus des étudiants en informatique, des DSI, des développeurs et de toute personne qui est informaticiens à qui on conseille de lire des livres en général, celui-ci je le conseillerai aussi au métier car en plus de peaufiner leur culture sur le Big Data ils se doivent de connaitre le métier de Data Scientist qui a mon sens représente une véritable évolution dans la relation Métier-DSI.

Avec ce livre j’ai pu participer à des conférences et des présentations d’outils de Big Data comme Zepelin ou Spark et comprendre ce qui m’était raconté. Je ne regrette définitivement pas la lecture de ce livre.




 Commenter Signaler un problème

Avatar de Lana.Bauer Lana.Bauer - Expert éminent sénior https://www.developpez.com
l 31/03/2015 à 23:51
Bonjour,

La rédaction Developpez a lu pour vous :

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :

  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.



 
couverture du livre Big Data et Machine Learning

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Big Data et Machine Learning

Les concepts et les outils de la data science

de
Public visé : Débutant

Résumé de l'éditeur

Cet ouvrage s'adresse à tous ceux qui cherchent à tirer parti de l'énorme potentiel des « technologies Big Data », qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier.

Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l'exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.

Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?

Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents (en particulier le Machine Learning) et acquérir les compétences nécessaires à la mise en place d'un data lab.

Il combine la présentation :
  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • des outils les plus répandus (écosystème Hadoop, Storm...) ;
  • d'exemples d'applications ;
  • d'une organisation typique d'un projet de data science.


Cette deuxième édition est complétée et enrichie par des mises à jour sur les réseaux de neurones et sur le Deep Learning ainsi que sur Spark..

Édition : Dunod - 272 pages, 2e édition, 9 octobre 2016

ISBN10 : 2100754637 - ISBN13 : 9782100754632

Commandez sur www.amazon.fr :

29.87 € TTC (prix éditeur 29.90 € TTC)
Les fondements du Big Data

  • Les origines du Big Data
  • Le Big Data dans les organisations
  • Le mouvement NoSQL
  • L'algorithme MapReduce et le framework Hadoop


Le métier de data scientist

  • Le quotidien du data scientist
  • Exploration et préparation de données
  • Le Machine Learning
  • La visualisation des données


Les outils du Big Data

  • L'écosystème Hadoop
  • Analyse de logs avec Pig et Hive
  • Les architectures lambda
  • Apache Storm
Critique du livre par la rédaction Thibaut Cuvelier le 25 septembre 2017
Cet ouvrage concerne deux mots qui reviennent régulièrement à l'actualité : le « big data » et le « machine learning ». Il dresse effectivement un tour d'horizon assez large de cet univers : toutes les étapes d'un projet d'exploitation de données sont traitées, depuis les questions auxquelles on peut s'attendre à trouver une réponse au traitement des données, depuis le déploiement d'une grappe de calcul jusqu'aux algorithmes qui y tourneront, sans oublier la visualisation.

Le principal avantage du livre est qu'il présente, dans un format compact, l'ensemble des notions de base utiles à toute personne devant intervenir dans un projet d'exploitation de données. Son public est donc assez large, le contenu ne nécessite bien souvent pas une longue expérience en informatique pour s'y retrouver : les auteurs assument entièrement ce choix. Les explications sont généralement claires, ce qui cadre bien avec l'objectif ; les nombreuses illustrations aident également. Malgré les quatre auteurs, l'ensemble est extrêmement fluide.

Le livre n'hésite pas à tordre le cou à certaines idées reçues. Non, la science de données n'est pas neuve : ce qui l'est, c'est la capacité (technique) de gérer de grands volumes d'information. Non, de grandes quantités de données ne résoudront pas tout problème dans une entreprise.

Les aspects réellement techniques ne sont pas oubliés. Le livre s'appesantit sur l'architecture MapReduce avec l'outil Hadoop pour déployer les calculs à large échelle, mais n'oublie pas de présenter YARN ou Drill. Conformément à l'esprit des auteurs, l'installation des outils est mise sur le côté, puisqu'ils préfèrent parler de distributions qui facilitent en bonne partie le travail et sont très bien adaptées à ceux qui débutent dans le domaine.

On peut cependant noter l'un ou l'autre point faible. Le côté apprentissage automatique est extrêmement limité, malgré sa présence dans le titre. La section sur l'apprentissage profond dénote fortement avec le reste du chapitre, étant extrêmement mathématique (au contraire du reste de l'ouvrage !). Une seule étude de cas est présentée, ce qui est dommage, notamment au niveau de la partie sur les outils.

Pour résumer, ce livre est à mettre entre toutes les mains des personnes qui aimeraient découvrir le domaine de l'exploitation des données à grande échelle. Elles auront un aperçu complet et bon nombre de pointeurs pour continuer leur apprentissage.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 26/09/2017 à 21:16
Cet ouvrage s'adresse à tous ceux qui cherchent à tirer parti de l'énorme potentiel des « technologies Big Data », qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier.

Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l'exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.

Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?

Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents (en particulier le Machine Learning) et acquérir les compétences nécessaires à la mise en place d'un data lab.

Il combine la présentation :
  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • des outils les plus répandus (écosystème Hadoop, Storm...) ;
  • d'exemples d'applications ;
  • d'une organisation typique d'un projet de data science.


Cette deuxième édition est complétée et enrichie par des mises à jour sur les réseaux de neurones et sur le Deep Learning ainsi que sur Spark..
Voir les critiques.