IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le Big Data serait mort, d'après Jordan Tigani, ingénieur fondateur de Google BigQuery,
Alors que pour IDC, le marché du Big Data enregistrera une forte croissance dans les années à venir

Le , par Bruno

38PARTAGES

5  0 
Dans un post publié le 7 février, Jordan Tigani, l’ancien chef d'ingénierie et ingénieur fondateur de Google BigQuery, soutient que le big data est mort. Bien que cela contraste avec l’analyse de IDC, donc les résultats des recherches indiquent que le marché des logiciels de Big Data et d'Analytics enregistrera une forte croissance dans les années à venir.

Le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu’un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer. Si le Big Data ouvre des perspectives intéressantes, il n’en présente pas moins certains écueils. Premièrement, le Big Data est… volumineux. Même si de nouvelles technologies ont été mises au point pour le stockage des données, les volumes de données doublent environ tous les deux ans. Les entreprises éprouvent toujours des difficultés à maîtriser leur croissance et à trouver des moyens de les stocker efficacement.


Mais il ne suffit pas de stocker les données. Pour être utiles, celles-ci doivent être exploitées et, en amont, organisées. Des données propres, ou des données pertinentes pour le client et organisées de manière à permettre une analyse significative, nécessitent beaucoup de travail. Selon Oracle, les spécialistes des données passent 50 à 80 % de leur temps à organiser et à préparer les données avant leur utilisation.

Enfin, la technologie du Big Data évolue rapidement. Il y a quelques années, Apache Hadoop était la technologie la plus utilisée pour traiter le Big Data. Puis, Apache Spark fit son apparition en 2014. Actuellement, l’association des deux infrastructures semble constituer la meilleure approche.

Le « cataclysme » des données qui avait été prédit ne se serait pas produit

Selon Jordan Tigani, le monde en 2023 n'est plus le même qu'au moment où les signaux d'alarme du Big Data ont commencé à retentir. Le cataclysme des données qui avait été prédit ne s'est pas produit. La taille des données a peut-être augmenté de façon marginale, mais le matériel s'est agrandi à un rythme encore plus rapide. « Les fournisseurs continuent de mettre en avant leur capacité d'évolution, mais les praticiens commencent à se demander quel est le rapport entre tout cela et leurs problèmes réels », écrit-il.

Bien que le concept de Big Data soit relativement nouveau, les grands ensembles de données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à démarrer avec les premiers datacenters et le développement de la base de donnée relationnelle.

En 2005, on assista à une prise de conscience de la quantité de données que les utilisateurs généraient sur Facebook, YouTube et autres services en ligne. Hadoop (une infrastructure open source créée spécifiquement pour stocker et analyser les jeux de Big Data) fut développé cette même année. NoSQL commença également à être de plus en plus utilisé à cette époque.

Le développement d’infrastructures open source telle que Hadoop (et, plus récemment, Spark) a été primordial pour la croissance du Big Data, car celles-ci facilitent l’utilisation du Big Data et réduisent les coûts de stockage. Depuis, le volume du Big Data a explosé. Les utilisateurs génèrent toujours d’énormes quantités de données, mais ce ne sont pas seulement les humains qui les utilisent.

Jordan Tigani explique que, la chose la plus surprenante qu’il a apprise est que la plupart des personnes qui utilisent "Big Query" n'ont pas vraiment de Big Data. Même ceux qui le font ont tendance à utiliser des charges de travail qui n'utilisent qu'une petite fraction de la taille de leurs ensembles de données. « Lorsque BigQuery est apparu, c'était comme de la science-fiction pour beaucoup de gens - vous ne pouviez littéralement pas traiter les données aussi rapidement d'une autre manière. Cependant, ce qui relevait de la science-fiction est aujourd'hui monnaie courante, et des méthodes plus traditionnelles de traitement des données ont rattrapé leur retard », déclare Tigani.

MongoDB serait la base de données NoSQL ou autrement scale-out la mieux classée et, bien qu'elle ait connu une belle ascension au fil des ans, elle a légèrement décliné récemment et n'a pas vraiment progressé face à MySQL ou Postgres, deux bases de données résolument monolithiques. Si le Big Data prenait vraiment le dessus, on « s'attendrait à voir quelque chose de différent après toutes ces années », indique Tigani.

Bien sûr, la situation est différente en ce qui concerne les systèmes analytiques, mais dans le domaine de l'OLAP, on constate un passage massif du sur site au cloud, et il n'existe pas vraiment de systèmes analytiques cloud évolutifs auxquels se comparer.

Fonctionnement des systèmes OLAP

OLAP (Online Analytical Processing) permet aux utilisateurs d'analyser des données présentes de plusieurs systèmes de bases de données en même temps. Alors que les bases de données relationnelles sont considérées comme bidimensionnelles, les données OLAP sont multidimensionnelles, ce qui signifie que l'information peut être comparée de nombreuses façons différentes. Par exemple, une entreprise peut comparer ses ventes d'ordinateurs en juin avec ses ventes en juillet, puis comparer ces résultats avec les ventes d'un autre endroit, qui pourraient être stockées dans une base de données différente.

Un serveur OLAP est nécessaire pour organiser et comparer les informations. Les clients peuvent analyser différents ensembles de données à l'aide des fonctions intégrées au serveur OLAP. En raison de ses puissantes capacités d'analyse de données, le traitement OLAP est souvent utilisé pour le data mining, qui vise à découvrir de nouvelles relations entre différents ensembles de données.

L’OLAP fournit aux analystes, aux gestionnaires et aux cadres supérieurs l'information dont ils ont besoin pour prendre des décisions efficaces sur les orientations stratégiques d'une organisation. L’OLAP peut fournir des informations précieuses sur la performance de leur entreprise, ainsi que sur les améliorations qu'ils peuvent apporter.

Les outils OLAP sont optimisés pour les requêtes et le reporting. Ceci contraste avec les applications OLTP (Online Transactional Processing), qui s'occupent principalement des tâches basées sur les transactions.

Les outils OLAP permettent aux utilisateurs d'analyser des données multidimensionnelles de manière interactive à partir de perspectives multiples. OLAP peut être utilisé pour trouver des tendances et obtenir une vue d'ensemble des données. Il peut également être utilisé pour des calculs complexes et pour créer des scénarios " et si " pour la planification prévisionnelle. Les applications OLAP typiques incluent les rapports d'affaires pour les ventes, le marketing, les rapports de gestion, la gestion des processus d'affaires, la budgétisation et les prévisions, les rapports financiers, et plus encore.

Pour faciliter ce type d'analyse, les données sont recueillies à partir de multiples sources de données et stockées dans des Data Warehouse, puis nettoyées et organisées en cubes de données. Chaque cube OLAP contient des données classées par dimensions (telles que les clients, la région géographique de vente et la période de temps) dérivées par tables dimensionnelles dans les Data Warehouse. Les dimensions sont ensuite complétées par les membres (tels que les noms de clients, les pays et les mois) qui sont organisés de manière hiérarchique. Les cubes OLAP sont souvent pré-résumés dans toutes les dimensions afin d'améliorer considérablement le temps de requête par rapport aux bases de données relationnelles.

Le Big Data arrive…, une idée jamais matérialisée ?

Selon des analystes, l'idée maîtresse du graphique "Le Big Data arrive" était que, très bientôt, tout le monde sera inondé de données. « Dix ans plus tard, ce futur ne s'est tout simplement pas matérialisé. Nous pouvons le vérifier de plusieurs façons : en examinant les données (quantitativement), en demandant aux gens si cela correspond à leur expérience (qualitativement) et en y réfléchissant à partir des premiers principes (inductivement) », écrit Tigani. Tigani explique que lorsqu’il travaillait chez BigQuery, il y avait des clients avec d'énormes quantités de données, mais la plupart des organisations, même certaines entreprises assez grandes, avaient des données de taille modérée.

« La taille des données des clients suivait une distribution de type loi de puissance. Le client le plus important disposait d'une capacité de stockage double de celle du client suivant, le client suivant disposait de la moitié de cette capacité, etc. Ainsi, même si certains clients disposaient de centaines de pétaoctets de données, la taille de celles-ci diminuait très rapidement. Plusieurs milliers de clients payaient moins de 10 dollars par mois pour le stockage, ce qui correspond à un demi-téraoctet. Parmi les clients qui utilisaient beaucoup le service, la taille médiane de stockage des données était bien inférieure à 100 Go.

« Nous avons trouvé d'autres arguments en faveur de cette idée en discutant avec des analystes du secteur (Gartner, Forrester, etc.). Nous vantions notre capacité à traiter des ensembles de données massifs, et ils haussaient les épaules. "C'est bien", disaient-ils, "mais la grande majorité des entreprises ont des entrepôts de données inférieurs à un téraoctet". Le feedback général que nous avons obtenu en parlant aux gens du secteur était que 100 Go était le bon ordre de grandeur pour un entrepôt de données. C'est sur ce point que nous avons concentré une grande partie de nos efforts d'analyse comparative.

« L'un de nos investisseurs a décidé de déterminer la taille réelle des données analytiques et a interrogé les entreprises de son portefeuille, dont certaines étaient en phase de sortie (elles avaient été introduites en bourse ou rachetées par de plus grandes organisations). Il s'agit d'entreprises technologiques, qui ont tendance à utiliser des données de plus grande taille. Il a constaté que les plus grandes entreprises B2B de son portefeuille disposaient d'environ un téraoctet de données, tandis que les plus grandes entreprises B2C disposaient d'environ 10 téraoctets de données. La plupart d'entre elles, cependant, avaient beaucoup moins de données. »

Le rapport d’IDC contrast avec l’analyse de Jordan Tigani

Le rapport semestriel Big Data and Analytics Software Tracker publié par International Data Corporation (IDC) prévoit que les développements géopolitiques actuels auront un léger impact sur la croissance du marché, avec des perspectives positives pour l'avenir. La tendance des entreprises à s'appuyer sur la manipulation des données pour analyser, prédire et s'adapter rapidement à l'évolution des conditions du marché est là pour rester, étant alimentée par les défis permanents de la chaîne d'approvisionnement et de l'évolution de la demande.

Au cours du premier semestre 2022, le marché des Big Data et d'Analytics (BDA) de la région EMEA a enregistré une croissance du chiffre d'affaires de 10 % par rapport à l'année précédente en dollars américains, tandis que la croissance en monnaie constante a atteint 19,5 %. D'autre part, le marché des Amériques a connu une croissance de 21 % en dollars américains et en monnaie constante, ce qui représente une légère croissance par rapport au second semestre 2021. Le marché des BDA dans la région Asie/Pacifique, y compris le Japon (APJ), a connu une croissance de 16 % en dollars américains et de 23,3 % en monnaie constante pour cette période.

Source : Jordan Tigani's post

Et vous ?

Trouvez-vous l'analyse de Jordan Tigani pertinent ?

Partagez-vous l'avis de Jordan Tigani qui estime que le Big Data est mort ?

Quelle est votre analyse de la situation ?

Voir aussi :

Le marché des logiciels de Big Data et d'Analytics enregistrera une forte croissance dans les années à venir, en raison de l'importance des données, du passage au cloud public et de l'essor de l'IA

Les dépenses mondiales en matière de big data et d'analyse d'entreprise atteindront 274 milliards de dollars en 2022, soit une hausse de 27 % en un an, d'après Statista et IDC

Une erreur dans cette actualité ? Signalez-nous-la !