Dans un post publié le 7 février, Jordan Tigani, l’ancien chef d'ingénierie et ingénieur fondateur de Google BigQuery, soutient que le big data est mort. Bien que cela contraste avec l’analyse de IDC, donc les résultats des recherches indiquent que le marché des logiciels de Big Data et d'Analytics enregistrera une forte croissance dans les années à venir.Le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu’un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer. Si le Big Data ouvre des perspectives intéressantes, il n’en présente pas moins certains écueils. Premièrement, le Big Data est… volumineux. Même si de nouvelles technologies ont été mises au point pour le stockage des données, les volumes de données doublent environ tous les deux ans. Les entreprises éprouvent toujours des difficultés à maîtriser leur croissance et à trouver des moyens de les stocker efficacement.
Mais il ne suffit pas de stocker les données. Pour être utiles, celles-ci doivent être exploitées et, en amont, organisées. Des données propres, ou des données pertinentes pour le client et organisées de manière à permettre une analyse significative, nécessitent beaucoup de travail. Selon Oracle, les spécialistes des données passent 50 à 80 % de leur temps à organiser et à préparer les données avant leur utilisation.
Enfin, la technologie du Big Data évolue rapidement. Il y a quelques années, Apache Hadoop était la technologie la plus utilisée pour traiter le Big Data. Puis, Apache Spark fit son apparition en 2014. Actuellement, l’association des deux infrastructures semble constituer la meilleure approche.
Le « cataclysme » des données qui avait été prédit ne se serait pas produit
Selon Jordan Tigani, le monde en 2023 n'est plus le même qu'au moment où les signaux d'alarme du Big Data ont commencé à retentir. Le cataclysme des données qui avait été prédit ne s'est pas produit. La taille des données a peut-être augmenté de façon marginale, mais le matériel s'est agrandi à un rythme encore plus rapide. « Les fournisseurs continuent de mettre en avant leur capacité d'évolution, mais les praticiens commencent à se demander quel est le rapport entre tout cela et leurs problèmes réels », écrit-il.
Bien que le concept de Big Data soit relativement nouveau, les grands ensembles de données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à démarrer avec les premiers datacenters et le développement de la base de donnée relationnelle.
En 2005, on assista à une prise de conscience de la quantité de données que les utilisateurs généraient sur Facebook, YouTube et autres services en ligne. Hadoop (une infrastructure open source créée spécifiquement pour stocker et analyser les jeux de Big Data) fut développé cette même année. NoSQL commença également à être de plus en plus utilisé à cette époque.
Le développement d’infrastructures open source telle que Hadoop (et, plus récemment, Spark) a été primordial pour la croissance du Big Data, car celles-ci facilitent l’utilisation du Big Data et réduisent les coûts de stockage. Depuis, le volume du Big Data a explosé. Les utilisateurs génèrent toujours d’énormes quantités de données, mais ce ne sont pas seulement les humains qui les utilisent.
Jordan Tigani explique que, la chose la plus surprenante qu’il a apprise est que la plupart des personnes qui utilisent "Big Query" n'ont pas vraiment de Big Data. Même ceux qui le font ont tendance à utiliser des charges de travail qui n'utilisent qu'une petite fraction de la taille de leurs ensembles de données. « Lorsque BigQuery est apparu, c'était comme de la science-fiction pour beaucoup de gens - vous ne pouviez littéralement pas traiter les données aussi rapidement d'une autre manière. Cependant, ce qui relevait de la science-fiction est aujourd'hui monnaie courante, et des méthodes plus traditionnelles de traitement des données ont rattrapé leur retard », déclare Tigani.
MongoDB serait la base de données NoSQL ou autrement scale-out la mieux classée et, bien qu'elle ait connu une belle ascension au fil des ans, elle a légèrement décliné récemment et n'a pas vraiment progressé face à MySQL ou Postgres, deux bases de données résolument monolithiques. Si le Big Data prenait vraiment le dessus, on « s'attendrait à voir quelque chose de différent après toutes ces années », indique Tigani.
Bien sûr, la situation est différente en ce qui concerne les systèmes analytiques, mais dans le domaine de l'OLAP, on constate un passage massif du sur site au cloud, et il n'existe pas vraiment de systèmes analytiques cloud évolutifs auxquels se comparer.
Fonctionnement des systèmes OLAP
OLAP (Online Analytical Processing) permet aux utilisateurs d'analyser des données présentes de plusieurs systèmes de bases de données en même temps. Alors que les bases de données relationnelles sont considérées comme bidimensionnelles, les données OLAP sont multidimensionnelles, ce qui signifie que l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.