Le Big Data serait mort, d'après Jordan Tigani, ingénieur fondateur de Google BigQuery,

Alors que pour IDC, le marché du Big Data enregistrera une forte croissance dans les années à venir

Le 10 février 2023 à 18:43, par Bruno

207PARTAGES

Dans un post publié le 7 février, Jordan Tigani, l’ancien chef d'ingénierie et ingénieur fondateur de Google BigQuery, soutient que le big data est mort. Bien que cela contraste avec l’analyse de IDC, donc les résultats des recherches indiquent que le marché des logiciels de Big Data et d'Analytics enregistrera une forte croissance dans les années à venir.

Le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu’un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer. Si le Big Data ouvre des perspectives intéressantes, il n’en présente pas moins certains écueils. Premièrement, le Big Data est… volumineux. Même si de nouvelles technologies ont été mises au point pour le stockage des données, les volumes de données doublent environ tous les deux ans. Les entreprises éprouvent toujours des difficultés à maîtriser leur croissance et à trouver des moyens de les stocker efficacement.

Mais il ne suffit pas de stocker les données. Pour être utiles, celles-ci doivent être exploitées et, en amont, organisées. Des données propres, ou des données pertinentes pour le client et organisées de manière à permettre une analyse significative, nécessitent beaucoup de travail. Selon Oracle, les spécialistes des données passent 50 à 80 % de leur temps à organiser et à préparer les données avant leur utilisation.

Enfin, la technologie du Big Data évolue rapidement. Il y a quelques années, Apache Hadoop était la technologie la plus utilisée pour traiter le Big Data. Puis, Apache Spark fit son apparition en 2014. Actuellement, l’association des deux infrastructures semble constituer la meilleure approche.

Le « cataclysme » des données qui avait été prédit ne se serait pas produit

Selon Jordan Tigani, le monde en 2023 n'est plus le même qu'au moment où les signaux d'alarme du Big Data ont commencé à retentir. Le cataclysme des données qui avait été prédit ne s'est pas produit. La taille des données a peut-être augmenté de façon marginale, mais le matériel s'est agrandi à un rythme encore plus rapide. « Les fournisseurs continuent de mettre en avant leur capacité d'évolution, mais les praticiens commencent à se demander quel est le rapport entre tout cela et leurs problèmes réels », écrit-il.

Bien que le concept de Big Data soit relativement nouveau, les grands ensembles de données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à démarrer avec les premiers datacenters et le développement de la base de donnée relationnelle.

En 2005, on assista à une prise de conscience de la quantité de données que les utilisateurs généraient sur Facebook, YouTube et autres services en ligne. Hadoop (une infrastructure open source créée spécifiquement pour stocker et analyser les jeux de Big Data) fut développé cette même année. NoSQL commença également à être de plus en plus utilisé à cette époque.

Le développement d’infrastructures open source telle que Hadoop (et, plus récemment, Spark) a été primordial pour la croissance du Big Data, car celles-ci facilitent l’utilisation du Big Data et réduisent les coûts de stockage. Depuis, le volume du Big Data a explosé. Les utilisateurs génèrent toujours d’énormes quantités de données, mais ce ne sont pas seulement les humains qui les utilisent.

Jordan Tigani explique que, la chose la plus surprenante qu’il a apprise est que la plupart des personnes qui utilisent "Big Query" n'ont pas vraiment de Big Data. Même ceux qui le font ont tendance à utiliser des charges de travail qui n'utilisent qu'une petite fraction de la taille de leurs ensembles de données. « Lorsque BigQuery est apparu, c'était comme de la science-fiction pour beaucoup de gens - vous ne pouviez littéralement pas traiter les données aussi rapidement d'une autre manière. Cependant, ce qui relevait de la science-fiction est aujourd'hui monnaie courante, et des méthodes plus traditionnelles de traitement des données ont rattrapé leur retard », déclare Tigani.

MongoDB serait la base de données NoSQL ou autrement scale-out la mieux classée et, bien qu'elle ait connu une belle ascension au fil des ans, elle a légèrement décliné récemment et n'a pas vraiment progressé face à MySQL ou Postgres, deux bases de données résolument monolithiques. Si le Big Data prenait vraiment le dessus, on « s'attendrait à voir quelque chose de différent après toutes ces années », indique Tigani.

Bien sûr, la situation est différente en ce qui concerne les systèmes analytiques, mais dans le domaine de l'OLAP, on constate un passage massif du sur site au cloud, et il n'existe pas vraiment de systèmes analytiques cloud évolutifs auxquels se comparer.

Fonctionnement des systèmes OLAP

OLAP (Online Analytical Processing) permet aux utilisateurs d'analyser des données présentes de plusieurs systèmes de bases de données en même temps. Alors que les bases de données relationnelles sont considérées comme bidimensionnelles, les données OLAP sont multidimensionnelles, ce qui signifie que l'information peut être comparée de nombreuses façons différentes. Par exemple, une entreprise peut comparer ses ventes d'ordinateurs en juin avec ses ventes en juillet, puis comparer ces résultats avec les ventes d'un autre endroit, qui pourraient être stockées dans une base de données différente.

Un serveur OLAP est nécessaire pour organiser et comparer les informations. Les clients peuvent analyser différents ensembles de données à l'aide des fonctions intégrées au serveur OLAP. En raison de ses puissantes capacités d'analyse de données, le traitement OLAP est souvent utilisé pour le data mining, qui vise à découvrir de nouvelles relations entre différents ensembles de données.

L’OLAP fournit aux analystes, aux gestionnaires et aux cadres supérieurs l'information dont ils ont besoin pour prendre des décisions efficaces sur les orientations stratégiques d'une organisation. L’OLAP peut fournir des informations précieuses sur la performance de leur entreprise, ainsi que sur les améliorations qu'ils peuvent apporter.

Les outils OLAP sont optimisés pour les requêtes et le reporting. Ceci contraste avec les applications OLTP (Online Transactional Processing), qui s'occupent principalement des tâches basées sur les transactions.

Les outils OLAP permettent aux utilisateurs d'analyser des données multidimensionnelles de manière interactive à partir de perspectives multiples. OLAP peut être utilisé pour trouver des tendances et obtenir une vue d'ensemble des données. Il peut également être utilisé pour des calculs complexes et pour créer des scénarios " et si " pour la planification prévisionnelle. Les applications OLAP typiques incluent les rapports d'affaires pour les ventes, le marketing, les rapports de gestion, la gestion des processus d'affaires, la budgétisation et les prévisions, les rapports financiers, et plus encore.

Pour faciliter ce type d'analyse, les données sont recueillies à partir de multiples sources de données et stockées dans des Data Warehouse, puis nettoyées et organisées en cubes de données. Chaque cube OLAP contient des données classées par dimensions (telles que les clients, la région géographique de vente et la période de temps) dérivées par tables dimensionnelles dans les Data Warehouse. Les dimensions sont ensuite complétées par les membres (tels que les noms de clients, les pays et les mois) qui sont organisés de manière hiérarchique. Les cubes OLAP sont souvent pré-résumés dans toutes les dimensions afin d'améliorer considérablement le temps de requête par rapport aux bases de données relationnelles.

Le Big Data arrive…, une idée jamais matérialisée ?

Selon des analystes, l'idée maîtresse du graphique "Le Big Data arrive" était que, très bientôt, tout le monde sera inondé de données. « Dix ans plus tard, ce futur ne s'est tout simplement pas matérialisé. Nous pouvons le vérifier de plusieurs façons : en examinant les données (quantitativement), en demandant aux gens si cela correspond à leur expérience (qualitativement) et en y réfléchissant à partir des premiers principes (inductivement) », écrit Tigani. Tigani explique que lorsqu’il travaillait chez BigQuery, il y avait des clients avec d'énormes quantités de données, mais la plupart des organisations, même certaines entreprises assez grandes, avaient des données de taille modérée.

« La taille des données des clients suivait une distribution de type loi de puissance. Le client le plus important disposait d'une capacité de stockage double de celle du client suivant, le client suivant disposait de la moitié de cette capacité, etc. Ainsi, même si certains clients disposaient de centaines de pétaoctets de données, la taille de celles-ci diminuait très rapidement. Plusieurs milliers de clients payaient moins de 10 dollars par mois pour le stockage, ce qui correspond à un demi-téraoctet. Parmi les clients qui...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le Big Data serait mort, d'après Jordan Tigani, ingénieur fondateur de Google BigQuery,

Alors que pour IDC, le marché du Big Data enregistrera une forte croissance dans les années à venir

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le Big Data serait mort, d'après Jordan Tigani, ingénieur fondateur de Google BigQuery, Alors que pour IDC, le marché du Big Data enregistrera une forte croissance dans les années à venir

Le Big Data serait mort, d'après Jordan Tigani, ingénieur fondateur de Google BigQuery,

Alors que pour IDC, le marché du Big Data enregistrera une forte croissance dans les années à venir