Par Martial Coiffe & Victor Coustenoble
2022 nous a confirmé que l’architecture data demeure au cœur des préoccupations des entreprises et organisations en France, et que celles-ci cherchent toujours à optimiser les moyens d’analyser leurs données pour supporter efficacement et rapidement la prise de décision. Les sujets autour de l’évolution ou la migration des plateformes data viennent s’ajouter à ces problématiques d’analytique et questionnent beaucoup de professionnels qui doivent répartir leurs ressources efficacement pour atteindre leurs objectifs.
Et bien que la structure des données soit propre à chaque organisation et que les besoins data restent en constante évolution, nous observons chaque année de grandes tendances communes auprès de nos clients, qui donnent une direction globale au marché.
Alors, à quoi faut-il s’attendre côté data cette année ? Et quelles stratégies adopter ? Dans cet article, nous aborderons 4 grandes tendances data à suivre en 2023.
1. L’agilité est de mise
Après avoir fait l’effort de tenter de nouvelles solutions de stockage, d’avoir accepté de migrer des térabytes de données ou d’avoir amorcé une migration vers le cloud, les entreprises souhaitent aujourd’hui revenir à des méthodes moins révolutionnaires pour améliorer leurs pratiques de gestion et d’analyse de la donnée.
Face à des solutions qui consomment beaucoup de temps et de ressources, nous constatons désormais un besoin grandissant de simplicité et une volonté de mettre à profit les ressources humaines et techniques déjà présentes dans l’organisation.
Les entreprises souhaitent continuer à évoluer en optimisant leurs systèmes, sans pour autant remettre systématiquement en question leur architecture existante. Idéalement, elles souhaitent pouvoir laisser le choix des outils et du stockage à l’utilisateur même de la donnée, de façon à ce que ces utilisateurs puissent travailler avec les outils de BI avec lesquels ils sont à l’aise. Nous constatons de plus en plus d’architectures hybrides, avec des données stockées dans deux types de sources à la fois : on-prem et sur le cloud. L’idée de devoir choisir un environnement unique est devenue obsolète et les solutions de gestion de données doivent s’adapter à cette optionalité pour permettre d’accéder et d’analyser les données de façon conjointe.
Le besoin d’agilité et de simplicité au niveau des fournisseurs de solutions se traduit également par la volonté d’utiliser un langage simple et universel pour tous les utilisateurs de données. Les organisations tendent à privilégier de plus en plus le langage SQL, que tout le monde connaît et qui se révèle à la fois puissant et très simple à utiliser. Ce langage universel facilite également le recrutement des compétences nécessaires.
2. Jamais sans nos Data Lake !
Les architectures de type Data Lake restent largement plébiscitées pour leur élasticité, la scalabilité du stockage et des coûts réduits pour de gros volumes ou des historiques de données importants.
L’intérêt de ce type d’architecture est également entretenu par l’apparition de nouveaux formats de stockage et de table (comme Delta Lake ou Apache Iceberg par exemple) qui transforment un Data Lake en Data Warehouse (ou Data Lakehouse) avec des nouvelles possibilités de gérer des transactions et plus de souplesse dans la gestion et l’utilisation des données. Fini les trop importantes contraintes et la complexité des clusters Hadoop: il existe maintenant des solutions alliant la scalabilité, la robustesse et les fonctionnalités nécessaires pour transformer votre Data Lake en un véritable Data Warehouse pour des cas d’utilisation allant de la data science au reporting opérationnel.
3. Les Data Products pour autonomiser les métiers
2022 a vu se répandre le concept du Data Mesh, et le niveau de maturité des entreprises sur le sujet progresse de jour en jour, à mesure que le cadre se précise et que les avantages deviennent plus concrets.
Avec la mise en place d’une architecture de type Data Mesh, la promesse d’un accès démocratisé, distribué, plus fluide et simplifié à la donnée permet de répondre à un certain nombre de challenges rencontrés par les utilisateurs et les consommateurs de données.
Les données se voient en effet représentées comme de véritable produits au sein de l’entreprise, ces data products sont créés et gérés par les entités métiers responsables.
Autre avantage conséquent des Data Products : leurs propriétés sémantiques nécessaires permettent de faciliter la manipulation et le partage de ces données, qui peuvent être adoptées en toute confiance.
Mais cet idéal de partage et d’utilisation des données ne se réalise pas instantanément, et le Data Mesh peut impressionner à cause des changements structurels que ce concept soulève. De nombreuses entreprises souhaitent se lancer mais ne savent pas par où commencer, ni quelles sont les clés d’une transition réussie. Nous vous préparons un guide pratique pour vous aider à détailler les premières étapes stratégiques qui permettent d’implanter une architecture Data Mesh réussie, ainsi que des évènements de mise en relation sur le sujet, pour que vous puissiez échanger avec des professionnels portant ce type de projet.
D’ici nos prochaines discussions, nous vous conseillons de vous appuyer sur des sponsors projets en interne qui pourront porter l’initiative, mais aussi d’échanger avec des tiers de confiance qui ont déjà expérimenté ce genre d’architecture et pourrons vous parler de cas pratiques dans une industrie ou une structure d’entreprise similaire.
4. La fin de l’abondance des données
2022 a vu officialiser le concept de sobriété comme recommandation globale pour la société, afin de collectivement participer à la réduction des empreintes carbones des industries les plus polluantes. En 2023, la transition énergétique doit continuer et s’accélérer, et la donnée a un rôle majeur à jouer dans ce changement global.
Tout d’abord, parce que le stockage et la distribution de données consomment énormément d’énergie: les data centers utilisent au total 2% de l’électricité mondiale, d’après Carbo Academy), et sont estimés être responsables de 0,3% des émissions de gaz à effet de serre mondiales. Et les volumes de données ne sont pas voués à diminuer, au contraire, puisqu’on produit, consomme, et analyse toujours plus de données chaque année. En revanche, il peut être intéressant de chercher à contrôler les mouvements de données ainsi que la duplication, pour ne pas produire plus de données qu’il n’en faut. Cette rationalisation de la gestion de données permet également de contrôler les coûts pour l’entreprise, d’autant plus puisque ces coûts ont significativement augmenté depuis la flambée des prix de l’énergie et donc du stockage. De plus en plus d’entreprises ont également recours à des pratiques de data tiering, ou d’autres pratiques structurantes qui permettent d’accéder plus facilement à leurs données chaudes sans pour autant mobiliser de grosses ressources énergétiques en processant des volumes inutiles à leurs requêtes.
Enfin, il devient indispensable et hautement stratégique pour les entreprises de mieux intégrer les données environnementales dans la prise de décision. L’analyse de données doit être efficace et complète pour leur permettre de mesurer leur impact environnemental et d’agir rapidement pour améliorer leurs pratiques. Nous constatons que ces préoccupations occupent désormais une place centrale dans les stratégies de nombreux CDO en France, et ceux-ci ont besoin d’outils analytiques performants pour suivre ces nouveaux indicateurs afin de proposer des solutions d’orientations adaptées pour l’entreprise.
Conclusion
Ces tendances pour 2023 viennent confirmer le besoin croissant d’élasticité et d’optionalité pour les entreprises en matière de gestion de la données: il faut pouvoir tirer parti des données distribuées et partir d’une architecture existante pour concentrer les ressources de l’entreprise sur la partie analyse et prise de décision. C’est là, justement, que se trouve la valeur ajoutée de la solution Starburst. Nous sommes convaincus que la technologie doit être mise à votre service, pour faciliter votre mission. C’est pourquoi nous simplifions et accélérons votre accès aux données, tout en les laissant là où elles sont stockées, sans les dupliquer. Nous vous permettons de continuer à utiliser tous les outils et systèmes de stockage que vous possédez actuellement, nous ne cherchons pas à complexifier votre architecture ou à mobiliser vos équipes et votre énergie sur des projets de migration interminables.
Avec Starburst, vous pourrez lancer des requêtes SQL en temps réel dans l’ensemble de votre patrimoine de données, on-premises, sur le cloud ou les deux à la fois, pour faire remonter les informations qui vous intéressent.
Nous avons hâte de vous aider à accéder plus rapidement à vos données en 2023.
En attendant de pouvoir vous présenter le moteur analytique qui changera votre façon de travailler, nous vous souhaitons une excellente année et de beaux projets !
What are some next steps you can take?
Below are three ways you can continue your journey to accelerate data access at your company
- 1
- 2
Automate the Icehouse: Our fully-managed open lakehouse platform
- 3
Follow us on YouTube, LinkedIn, and X(Twitter).