Livres en anglais
6 livres et 8 critiques, dernière mise à jour le 30 décembre 2022 , note moyenne : 4.3
- Mining of Massive Datasets
- Data Algorithms with Spark - Recipes and Design Patterns for Scaling Up using PySpark
- Mastering Spark with R - The Complete Guide to Large-Scale Analysis and Modeling
- Spark - Valorisez vos données en temps réel avec Spark ML et Hadoop
- Analytics for the Internet of Things (IoT) - Intelligent analytics for your intelligent devices
- Stream Processing with Apache Flink - Fundamentals, Implementation, and Operation of Streaming Applications
Mining of Massive Datasets
Résumé de l'éditeur
The Web, social media, mobile activity, sensors, Internet commerce and so on all provide many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been used to solve key problems in data mining and can be used on even the largest datasets.
It begins with a discussion of the MapReduce framework and related techniques for efficient parallel programming. The tricks of locality-sensitive hashing are explained. This body of knowledge, which deserves to be more widely known, is essential when seeking similar objects in a very large collection without having to compare each pair of objects. Stream-processing algorithms for mining data that arrives too fast for exhaustive processing are also explained. The PageRank idea and related tricks for organizing the Web are covered next. Other chapters cover the problems of finding frequent itemsets and clustering, each from the point of view that the data is too large to fit in main memory. Two applications: recommendation systems and Web advertising, each vital in e-commerce, are treated in detail. Later chapters cover algorithms for analyzing social-network graphs, compressing large-scale data, and machine learning.
This third edition includes new and extended coverage on decision trees, deep learning, and mining social-network graphs. Written by leading authorities in database and Web technologies, it is essential reading for students and practitioners alike.
Édition : Cambridge - 565 pages, 3e édition, 9 janvier 2020
ISBN10 : 1108476341 - ISBN13 : 9781108476348
Map-Reduce and the New Software Stack
Finding Similar Items
Mining Data Streams
Link Analysis
Frequent Itemsets
Clustering
Advertising on the Web
Recommendation Systems
Mining Social-Network Graphs
Dimensionality Reduction
Large-Scale Machine Learning
Neural Nets and Deep Learnin
Pour l'analyse de grands jeux de données, ceux qui ne tiennent pas sur une seule machine, on trouve souvent des livres sur les techniques de programmation des grappes de calcul (que ce soit avec des techniques de superordinateurs comme MPI ou les plus récentes comme MapReduce ou Hadoop) ou sur les algorithmes utiles (sans réfléchir à leur implémentation à grande échelle). Cet ouvrage se situe à l'intersection des deux domaines, en présentant des méthodologies pour extraire de l'information de ces données tout en répartissant les calculs sur plusieurs machines. Il part de prérequis modestes en bases de données (pas forcément distribuées), algorithmes (sans qu'il s'agisse d'analyse de données) ou programmation.
Les auteurs commencent par présenter un environnement de programmation distribué, MapReduce. Certes, ce n'est pas le plus récent, mais il reste très utilisé en pratique et force à réfléchir à la distribution des calculs et des données sur plusieurs machines. Par la suite, les auteurs utilisent ce paradigme pour expliciter la manière d'implémenter les algorithmes qu'ils présentent (sans toutefois proposer d'exemple de code), afin de comprendre en profondeur ces techniques.
L'essentiel de l'ouvrage porte sur les algorithmes utiles pour l'analyse de données, y compris l'apprentissage automatique. En sus, deux applications très pratiques sont décortiquées : la recommandation et la publicité en ligne. Les sujets traités commencent avec les bases (comme l'évaluation de statistiques de manière efficace), mais montent rapidement en puissance (par exemple, le calcul en ligne de couplages ou le locality-sensitive hashing), en partant d'un contexte d'application.
La majorité des chapitres comporte une section sur la distribution des calculs sur une grappe en indiquant les principes à appliquer pour réaliser cette distribution de manière efficace. Les auteurs présentent aussi des approximations dans certains cas pour obtenir de meilleurs temps de calcul (au détriment de la qualité des réponses obtenues). Leur objectif est toujours de mettre en avant les principes appliqués, de telle sorte qu'on puisse les réutiliser dans d'autres contextes.
Chaque chapitre contient une série d'exercices (sans solution, mais certains ont des corrections automatiques en ligne), des notes bibliographiques, mais aussi un résumé des idées principales. L'un des plus gros regrets sur ce livre est que seuls les principes de l'apprentissage profond soient présentés, sans indiquer comment répartir les calculs.
À noter que les auteurs mettent la version PDF du livre à disposition sur le site du cours à Stanford dont l'ouvrage est issu.
Commenter Signaler un problème
The Web, social media, mobile activity, sensors, Internet commerce and so on all provide many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been used to solve key problems in data mining and can be used on even the largest datasets.
It begins with a discussion of the MapReduce framework and related techniques for efficient parallel programming. The tricks of locality-sensitive hashing are explained. This body of knowledge, which deserves to be more widely known, is essential when seeking similar objects in a very large collection without having to compare each pair of objects. Stream-processing algorithms for mining data that arrives too fast for exhaustive processing are also explained. The PageRank idea and related tricks for organizing the Web are covered next. Other chapters cover the problems of finding frequent itemsets and clustering, each from the point of view that the data is too large to fit in main memory. Two applications: recommendation systems and Web advertising, each vital in e-commerce, are treated in detail. Later chapters cover algorithms for analyzing social-network graphs, compressing large-scale data, and machine learning.
This third edition includes new and extended coverage on decision trees, deep learning, and mining social-network graphs. Written by leading authorities in database and Web technologies, it is essential reading for students and practitioners alike.
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?
Les entreprises françaises reviennent après avoir perdu des plumes à des pratiques plus raisonnables après l'engouement pour le Big Data.
Les seules applications massives qui ont un intérêt sont liées au Deep Learning : pour l'apprentissage du langage, de certains réseaux de convolution et pour la recommandation et le profilage des individus. Tout cela concerne très peu d'entreprises, la majorité des entreprises traitent de petits Dataset voir des moyens pour des problèmes de Machine Learning qui pour des raisons propres à ce type d'algorithmes ont besoin que de petit volume.
Le Big Data a été un mauvais choix stratégique, très couteux en terme humain et financier pour de nombreuses entreprises.
Merci de m'avoir lu,
Data Algorithms with Spark
Recipes and Design Patterns for Scaling Up using PySpark
Résumé de l'éditeur
Apache Spark's speed, ease of use, sophisticated analytics, and multilanguage support makes practical knowledge of this cluster-computing framework a required skill for data engineers and data scientists. With this hands-on guide, anyone looking for an introduction to Spark will learn practical algorithms and examples using PySpark.
In each chapter, author Mahmoud Parsian shows you how to solve a data problem with a set of Spark transformations and algorithms. You'll learn how to tackle problems involving ETL, design patterns, machine learning algorithms, data partitioning, and genomics analysis. Each detailed recipe includes PySpark algorithms using the PySpark driver and shell script.
With this book, you will:
Learn how to select Spark transformations for optimized solutions
Explore powerful transformations and reductions including reduceByKey(), combineByKey(), and mapPartitions()
Understand data partitioning for optimized queries
Build and apply a model using PySpark design patterns
Apply motif-finding algorithms to graph data
Analyze graph data by using the GraphFrames API
Apply PySpark algorithms to clinical and genomics data
Learn how to use and apply feature engineering in ML algorithms
Understand and use practical and pragmatic data design patterns
Édition : O'Reilly - 500 pages, 1re édition, 17 mai 2022
ISBN10 : 1492082384 - ISBN13 : 9781492082385
Introduction to Spark and PySpark
Transformations in Action
Mapper Transformations
Reductions in Spark
Working with Data
Partitioning Data
Graph Algorithms
Interacting with External Data Sources
Ranking Algorithms
Data Design Patterns
Classic Data Design Patterns
Practical Data Design Patterns
Join Design Patterns
Feature Engineering in PySpark
Ce livre, très orienté pratique, part de zéro, c'est-à-dire aucune connaissance de Spark. Il balaie tout le parcours des données, de l'ingestion (ETL) à l'extraction de variables ou au classement. Chaque algorithme est explicitement implémenté, le code étant disponible en ligne, régulièrement de plusieurs manières pour en améliorer la performance ou la mise à l'échelle (en présentant souvent des fonctionnalités plus avancées de Spark pour y arriver). Les motifs décrits servent à penser ses algorithmes comme Spark le requiert pour atteindre la meilleure performance possible.
Les API RDD et DataFrame de Spark sont présentées, la majorité des exemples étant rédigée des deux manières. Parmi les applications, la bio-informatique se taille une place de choix. Le code est régulièrement détaillé ligne par ligne. PageRank est aussi l'objet de plusieurs sections, tout d'abord à travers GraphFrames, puis en l'implémentant complètement par-dessus les API de bas niveau de Spark. Au fil des chapitres, l'auteur récapitule une série de fonctions sous la forme de tableaux. Certains chapitres supplémentaires sont disponibles en ligne.
On peut toutefois regretter que la profondeur des explications soit souvent limitée, que ce soit au niveau de l'exécution du code par Spark pour bien comprendre les compromis à effectuer pour améliorer la performance ou du fonctionnement d'algorithmes plus avancés comme PageRank.
Commenter Signaler un problème
Recipes and Design Patterns for Scaling Up using PySpark
Apache Spark's speed, ease of use, sophisticated analytics, and multilanguage support makes practical knowledge of this cluster-computing framework a required skill for data engineers and data scientists. With this hands-on guide, anyone looking for an introduction to Spark will learn practical algorithms and examples using PySpark.
In each chapter, author Mahmoud Parsian shows you how to solve a data problem with a set of Spark transformations and algorithms. You'll learn how to tackle problems involving ETL, design patterns, machine learning algorithms, data partitioning, and genomics analysis. Each detailed recipe includes PySpark algorithms using the PySpark driver and shell script.
With this book, you will:
Learn how to select Spark transformations for optimized solutions
Explore powerful transformations and reductions including reduceByKey(), combineByKey(), and mapPartitions()
Understand data partitioning for optimized queries
Build and apply a model using PySpark design patterns
Apply motif-finding algorithms to graph data
Analyze graph data by using the GraphFrames API
Apply PySpark algorithms to clinical and genomics data
Learn how to use and apply feature engineering in ML algorithms
Understand and use practical and pragmatic data design patterns
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?
Mastering Spark with R
The Complete Guide to Large-Scale Analysis and Modeling
Résumé de l'éditeur
Authors Javier Luraschi, Kevin Kuo, and Edgar Ruiz show you how to use R with Spark to solve different data analysis problems. This book covers relevant data science topics, cluster computing, and issues that should interest even the most advanced users.
Analyze, explore, transform, and visualize data in Apache Spark with R
Create statistical models to extract information and predict outcomes; automate the process in production-ready workflows
Perform analysis and modeling across many machines using distributed computing techniques
Use large-scale data from multiple sources and different formats with ease from within Spark
Learn about alternative modeling frameworks for graph processing, geospatial analysis, and genomics at scale
Dive into advanced topics including custom transformations, real-time data processing, and creating custom Spark extensions
Édition : O'Reilly - 288 pages, 1re édition, 18 octobre 2019
ISBN10 : 149204637X - ISBN13 : 9781492046370
Les deux premiers chapitres donnent une introduction rapide aux outils dont vous avez besoin pour faire de la data science à grande échelle avec Spark et R. Dans les trois chapitres suivants, vous apprendrez comment préparer, analyser et modéliser des données, mais aussi comment automatiser l'ensemble du processus pour le déploiement en production.
Jusque-là, tous les calculs se font en mode local sur votre machine ou dans votre navigateur Web si vous préférez utiliser l'édition communautaire de Databricks par exemple. Mais le cluster computing est également traité. Dans les chapitres suivants, les auteurs montrent des techniques pour exécuter Spark sur plusieurs noeuds pour l'analyse et la modélisation des données à grande échelle. Des sujets avancés tels que l'analyse de graphes, de flux de données, l'analyse géospatiale et l'apprentissage profond sont également abordés. À la fin du bouquin, vous aurez appris un large éventail d'outils et concepts du monde du big data.
Au moment de faire cette critique, c'est LE livre pour maîtriser le Big Data avec Spark et R, les ressources sur le sujet étant tellement rares.
Commenter Signaler un problème
The Complete Guide to Large-Scale Analysis and Modeling
Authors Javier Luraschi, Kevin Kuo, and Edgar Ruiz show you how to use R with Spark to solve different data analysis problems. This book covers relevant data science topics, cluster computing, and issues that should interest even the most advanced users.
Analyze, explore, transform, and visualize data in Apache Spark with R
Create statistical models to extract information and predict outcomes; automate the process in production-ready workflows
Perform analysis and modeling across many machines using distributed computing techniques
Use large-scale data from multiple sources and different formats with ease from within Spark
Learn about alternative modeling frameworks for graph processing, geospatial analysis, and genomics at scale
Dive into advanced topics including custom transformations, real-time data processing, and creating custom Spark extensions
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?
Spark
Valorisez vos données en temps réel avec Spark ML et Hadoop
Résumé de l'éditeur
Alors que vient de sortir Spark 3, les environnements simplifiés « clicks boutons » sont légion. Mais pour les utiliser à bon escient, il vous faudra comprendre le fonctionnement interne de Spark afin de paramétrer correctement votre cluster et vos applications.
C’est ce que propose ce livre : vous emmener dans une compréhension fine des tenants et aboutissants de Spark, depuis son installation et sa configuration jusqu’à l’écriture et l’exécution d’applications.
L’analyse des données n’est utile que dans des cas business précis. C’est pourquoi nous insistons sur une méthode d’analyse des données qui vous permettra de connaître les étapes d’un projet de machine learning, et les questions indispensables à se poser pour réussir une analyse pertinente. Nous l’illustrons via un exemple complet d’une entreprise (virtuelle) de location de vélo en libre service.
Ainsi, en lisant ce livre, vous maîtriserez l’outil et la méthode adéquats pour valoriser vos données de manière éclairée, vous assurant une meilleure efficacité et rentabilité de vos projets data.
Le code du livre est disponible sur Github.
Édition : Dunod - 304 pages, 1re édition, 8 janvier 2020
ISBN10 : 2100794329 - ISBN13 : 9782100794324
Spark et le big data
Les raisons du succès de Spark
Installation de Spark
Démarrer le cluster Spark
Présentation et installation d'HDFS
Premiers scripts avec Spark core et Spark SQL
Présentation de Spark Streaming
Introduction au machine learning
Étude de cas avec Spark ML
Conclusion
L'auteur ne cherche pas à décrire de manière exhaustive les possibilités offertes par le système, mais plutôt à inculquer une méthodologie pour faciliter la mise en œuvre d'un projet Spark. Par exemple, l'introduction à l'apprentissage automatique ne parle pas du tout des algorithmes disponibles : bon nombre d'ouvrages les expliquent déjà en long et en large. Par contre, très peu parlent de la manière d'introduire de l'apprentissage dans la pratique industrielle : par exemple, comment présenter les résultats d'une manière intelligible pour un public de décideurs qui n'a presque aucune connaissance en statistiques ? Il n'empêche que certains paramètres sont plus détaillés, car ils présentent un intérêt non négligeable pour améliorer la performance d'une application, par exemple.
Spark est expliqué comme une évolution logique des plateformes de traitement des mégadonnées : l'outil n'est pas apparu par magie au milieu du désert, mais dans un contexte très spécifique avec une série d'acteurs qui cherchent à effectuer des traitements similaires à très grande échelle. Ce n'est pas pour ça que les fonctionnalités de Spark sont présentées de manière chronologique : l'auteur préfère d'abord parler des tables de données (DataFrame), bien avant des RDD. De fait, avec Spark 2, ils sont devenus un sujet plutôt avancé. Néanmoins, on peut regretter que Spark 3 ne soit abordé que dans la conclusion et la quatrième de couverture.
L'un des points importants de ce livre est toutefois la présence de deux études de cas, l'une orientée Spark Core, l'autre Spark ML. Cette dernière correspond au chapitre 9, c'est-à-dire à presque un tiers du volume de l'ouvrage ! Elles partent de données brutes sur une entreprise de location de vélos et ne s'arrêtent qu'avec des résultats propres à présenter à des décideurs : ces études de cas sont réalistes, bien que simplifiées.
La mise en page est claire, notamment avec les objectifs de chaque chapitre explicités au début de chacun d'eux. Chaque section est richement illustrée, avec des figures claires, ce qui aide à la compréhension.
Un fil conducteur autour d’un suivi de trajets de cyclistes est proposé. Il a le mérite d'être clair, mais je n'ai pas trouvé qu'il approfondissait suffisamment. Mieux vaut créer son propre problème à compléter au fil des chapitres.
La partie dédiée à Spark Streaming est vraiment celle qui m'a le plus apporté. On comprend vraiment mieux comment paralléliser, via les DAG (graphes dirigés acycliques).
Seul bémol sur cette partie distribuée, tout est présenté autour d'une installation manuelle et minimaliste, alors que l'on retrouvera essentiellement des distributions clé en main. Cet aspect est toutefois évoqué dans le chapitre de conclusion.
Enfin, un dernier aspect abordé dans ce livre est l'apprentissage automatique. Ce n'est pas le point principal et il faudra avoir déjà de bonnes connaissances pour l'aborder. L'intérêt serait surtout de connecter tout cela via Spark.
La deuxième partie est très opérationnelle avec deux études de cas. Une première axée sur Spark SQL et la préparation des données et une autre à la fin de l’ouvrage qui va jusqu’à la modélisation (machine learning) et l’intégration de Spark ML et Spark Streaming pour faire des prédictions en temps réel.
Notons qu’il est nécessaire d’être doté d’une capacité à diagnostiquer les problèmes et les corriger lors de l’installation et la configuration de Spark et HDFS pour que tout se passe correctement comme décrit dans le livre. Il en est de même lors de l’utilisation de certains bouts de code : de petites modifications ou corrections sont parfois nécessaires pour obtenir les résultats attendus. Ça reste toutefois un très bon ouvrage qui peut permettre aux débutants en big data avec des notions de programmation de se lancer rapidement dans l’analyse, la modélisation de données et la prédiction en temps réel avec Spark et Python.
Commenter Signaler un problème
Alors que vient de sortir Spark 3, les environnements simplifiés « clicks boutons » sont légion. Mais pour les utiliser à bon escient, il vous faudra comprendre le fonctionnement interne de Spark afin de paramétrer correctement votre cluster et vos applications.
C’est ce que propose ce livre : vous emmener dans une compréhension fine des tenants et aboutissants de Spark, depuis son installation et sa configuration jusqu’à l’écriture et l’exécution d’applications.
L’analyse des données n’est utile que dans des cas business précis. C’est pourquoi nous insistons sur une méthode d’analyse des données qui vous permettra de connaître les étapes d’un projet de machine learning, et les questions indispensables à se poser pour réussir une analyse pertinente. Nous l’illustrons via un exemple complet d’une entreprise (virtuelle) de location de vélo en libre service.
Ainsi, en lisant ce livre, vous maîtriserez l’outil et la méthode adéquats pour valoriser vos données de manière éclairée, vous assurant une meilleure efficacité et rentabilité de vos projets data.
Le code du livre est disponible sur Github.
Analytics for the Internet of Things (IoT)
Intelligent analytics for your intelligent devices
Résumé de l'éditeur
Key Features
- Make better business decisions and acquire greater control of your IoT infrastructure
- Learn techniques to solve unique problems associated with IoT and examine and analyze data from your IoT devices
- Uncover the business potential generated by data from IoT devices and bring down business costs
Book Description
We start with the perplexing task of extracting value from huge amounts of barely intelligible data. The data takes a convoluted route just to be on the servers for analysis, but insights can emerge through visualization and statistical modeling techniques. You will learn to extract value from IoT big data using multiple analytic techniques.
Next we review how IoT devices generate data and how the information travels over networks. You’ll get to know strategies to collect and store the data to optimize the potential for analytics, and strategies to handle data quality concerns.
Cloud resources are a great match for IoT analytics, so Amazon Web Services, Microsoft Azure, and PTC ThingWorx are reviewed in detail next. Geospatial analytics is then introduced as a way to leverage location information. Combining IoT data with environmental data is also discussed as a way to enhance predictive capability. We’ll also review the economics of IoT analytics and you’ll discover ways to optimize business value.
By the end of the book, you’ll know how to handle scale for both data storage and analytics, how Apache Spark can be leveraged to handle scalability, and how R and Python can be used for analytic modeling.
What You Will Learn
- Overcome the challenges IoT data brings to analytics
- Understand the variety of transmission protocols for IoT along with their strengths and weaknesses
- Learn how data flows from the IoT device to the final data set
- Develop techniques to wring value from IoT data
- Apply geospatial analytics to IoT data
- Use machine learning as a predictive method on IoT data
- Implement best strategies to get the most from IoT analytics
- Master the economics of IoT analytics in order to optimize business value
Édition : Packt Publishing - 378 pages, 1re édition, 24 juillet 2017
ISBN10 : 9781787120730 - ISBN13 : 9781787120730
2. IoT Devices and Networking Protocols
3. IoT Analytics for the Cloud
4. Creating an AWS Cloud Analytics Environment
5. Collecting All That Data - Strategies and Techniques
6. Getting to Know Your Data - Exploring IoT Data
7. Decorating Your Data - Adding External Datasets to Innovate
8. Communicating with Others - Visualization and Dashboarding
9. Applying Geospatial Analytics to IoT Data
10. Data Science for IoT Analytics
11. Strategies to Organize Data for Analytics
12. The Economics of IoT Analytics
13. Bringing It All Together
Développer dans un seul ouvrage tous les outils et technologies qui interviennent dans la mise en œuvre d'un projet IoT de bout en bout est quelque chose d'impossible. Il en faudrait au moins un pour traiter chaque aspect : types de dispositifs IoT et capteurs, protocoles de communication réseau, mise en place d'un environnement cloud pour l'IoT, big data, data science pour l'IoT, analyse de données géospatiales, etc.
Tout cela est présenté dans ce seul livre, même si de manière introductive. Autrement dit, il ne permet pas vraiment à un débutant ou un professionnel n'ayant pas d'expertise dans plusieurs de ces domaines d'être directement opérationnels dans l'IoT Analytics. Ce bouquin a toutefois un grand mérite, celui de permettre au lecteur d'avoir une idée claire des compétences et technologies qui rentrent en compte dans la mise en œuvre d'un projet IoT.
Tout au long de l'ouvrage, les différents challenges dans l'implémentation de projets IoT sont présentés. Et pour chaque défi, l'auteur montre quelles sont les technologies à utiliser et comment cela pourrait se faire. Les aspects administratifs liés aux données IoT sont également abordés : stratégies de protection et rétention des données. Il en est de même pour l'aspect économique : quelle est la valeur ajoutée de l'IoT pour l'entreprise ? Et si un projet IoT a la bénédiction des actionnaires, est-il plus économique de l'implémenter on-premise ou dans le cloud ? C'est une bonne introduction à l'analyse des données pour l'internet des objets.
Commenter Signaler un problème
Key Features
- Make better business decisions and acquire greater control of your IoT infrastructure
- Learn techniques to solve unique problems associated with IoT and examine and analyze data from your IoT devices
- Uncover the business potential generated by data from IoT devices and bring down business costs
Book Description
We start with the perplexing task of extracting value from huge amounts of barely intelligible data. The data takes a convoluted route just to be on the servers for analysis, but insights can emerge through visualization and statistical modeling techniques. You will learn to extract value from IoT big data using multiple analytic techniques.
Next we review how IoT devices generate data and how the information travels over networks. You’ll get to know strategies to collect and store the data to optimize the potential for analytics, and strategies to handle data quality concerns.
Cloud resources are a great match for IoT analytics, so Amazon Web Services, Microsoft Azure, and PTC ThingWorx are reviewed in detail next. Geospatial analytics is then introduced as a way to leverage location information. Combining IoT data with environmental data is also discussed as a way to enhance predictive capability. We’ll also review the economics of IoT analytics and you’ll discover ways to optimize business value.
By the end of the book, you’ll know how to handle scale for both data storage and analytics, how Apache Spark can be leveraged to handle scalability, and how R and Python can be used for analytic modeling.
What You Will Learn
- Overcome the challenges IoT data brings to analytics
- Understand the variety of transmission protocols for IoT along with their strengths and weaknesses
- Learn how data flows from the IoT device to the final data set
- Develop techniques to wring value from IoT data
- Apply geospatial analytics to IoT data
- Use machine learning as a predictive method on IoT data
- Implement best strategies to get the most from IoT analytics
- Master the economics of IoT analytics in order to optimize business value
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?
Stream Processing with Apache Flink
Fundamentals, Implementation, and Operation of Streaming Applications
Résumé de l'éditeur
Longtime Apache Flink committers Fabian Hueske and Vasia Kalavri show you how to implement scalable streaming applications with Flink’s DataStream API and continuously run and maintain these applications in operational environments. Stream processing is ideal for many use cases, including low-latency ETL, streaming analytics, and real-time dashboards as well as fraud detection, anomaly detection, and alerting. You can process continuous data of any kind, including user interactions, financial transactions, and IoT data, as soon as you generate them.
Learn concepts and challenges of distributed stateful stream processing
Explore Flink’s system architecture, including its event-time processing mode and fault-tolerance model
Understand the fundamentals and building blocks of the DataStream API, including its time-based and statefuloperators
Read data from and write data to external systems with exactly-once consistency
Deploy and configure Flink clusters
Operate continuously running streaming applications
Édition : O'Reilly - 310 pages, 1re édition, 23 avril 2019
ISBN10 : 149197429X - ISBN13 : 9781491974292
Stream Processing Fundamentals
The Architecture of Apache Flink
Setting up a development environment for Apache Flink
The DataStream API (v1.7)
Time-based and Windows Operators
Stateful Operators and Applications
Reading from and Writing to External Systems
Setting up Flink for Streaming Applications
Operating Flink and Streaming Applications
Where to Go from Here?
Le contenu se structure de façon très progressive : les auteurs parlent d'abord des principes généraux, puis développent petit à petit et finissent dans des détails sur le fonctionnement interne de Flink (en veillant toutefois à ce que le contenu reste utile pour plusieurs versions). Ainsi, quand l'explication d'un système particulier requiert des détails d'autres sous-systèmes (comme le mécanisme de sauvegarde), ceux-ci sont d'abord esquissés, puis détaillés dans une section ou un chapitre futur : on ne se sent pas dépassé par le contenu, grâce à cette approche progressive.
À ce sujet, le livre couvre Flink 1.7, la version 1.8 étant sortie le même mois que le livre — les nouveautés de Flink 1.8 ne sont pas abordées, ni même citées, comme les évolutions du schéma d'état ou le traitement de données par lots. Chaque système est illustré par l'un ou l'autre exemple, très courts au début du livre, puis bien plus longs ; pour bien en profiter, des connaissances basiques en Scala seront nécessaires (le langage n'est pas du tout présenté). On pourra cependant regretter l'absence d'exemples complets, qui combinent toute une série de fonctionnalités, comme un cas d'utilisation.
Globalement, cet ouvrage pourra viser tant un public de débutants (rien n'est omis dans les bases) que de développeurs plus chevronnés dans le traitement de données en flux (les systèmes et choix de conception de Flink sont abordés en profondeur). Il ne se limite pas aux fonctionnalités et opérateurs de base, mais présente bien toutes les possibilités que l'on a d'adapter le fonctionnement de Flink à ses besoins.
Commenter Signaler un problème
Fundamentals, Implementation, and Operation of Streaming Applications
Longtime Apache Flink committers Fabian Hueske and Vasia Kalavri show you how to implement scalable streaming applications with Flink’s DataStream API and continuously run and maintain these applications in operational environments. Stream processing is ideal for many use cases, including low-latency ETL, streaming analytics, and real-time dashboards as well as fraud detection, anomaly detection, and alerting. You can process continuous data of any kind, including user interactions, financial transactions, and IoT data, as soon as you generate them.
Learn concepts and challenges of distributed stateful stream processing
Explore Flink’s system architecture, including its event-time processing mode and fault-tolerance model
Understand the fundamentals and building blocks of the DataStream API, including its time-based and statefuloperators
Read data from and write data to external systems with exactly-once consistency
Deploy and configure Flink clusters
Operate continuously running streaming applications
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?