Snowflake est le grand leader du cloud data warehouse (CDW). Snowflake a été le premier à proposer une plate-forme SQL analytique cloud très simple d’utilisation et de mise œuvre, à très haute performance et auto-gérée en mode SaaS. De nombreuses sociétés ont rapidement adopté cette solution de CDW et ont sans regret quitté leurs appliances SQL on-premises pour cette solution.
Ces entreprises ont à présent acquit l’expérience nécessaire à la maitrise de ces solutions analytiques déployées dans le cloud, mais ces expériences ont aussi montré que l’approche CDW représente également un défi au niveau de la gestion des coûts et de la flexibilité : lorsque toutes vos données sont hébergées dans un CDW, vous êtes dépendant du fournisseur de ce service et vous êtes incapable de faire pleinement évoluer votre plate-forme afin de profiter des nouvelles technologies et d’en contrôler les coûts.
Les fonctionnalités de Starburst Galaxy
Starburst Galaxy permet de relever ces défis. Starburst Galaxy est une plate-forme analytique SaaS qui:
- permet de traiter (ETL/ELT) et d’exposer les données de vos data lakes
- fournit le moteur de requête le plus rapide tout en supportant de nombreux accès concurrents
- fédère toutes vos données en temps réel grâce à ces nombreux connecteurs disponibles.
Tout ceci repose sur une architecture data lake ouverte. Vos données ne sont pas enclavées chez votre fournisseur de CDW, elles résident dans votre environnement cloud et vous pouvez choisir librement le moteur de traitement adapté à vos besoins.
L’acquisition, le traitement et l’exposition de données depuis un simple stockage apporte de nombreux avantages tels que :
- La maîtrise complète de la gestion de vos données
- Moins de « zones d’exposition » , ce qui signifie plus vous avez de copies de vos données plus la maîtrise de la sécurité est complexe
- Le choix de moteurs analytiques adaptés à vos besoins
- La suppression du vendeur et du stockage lock-in.
Dans ce blog, je vais exposer 2 approches qui permettent à Starburst Galaxy d’apporter flexibilité et un contrôle des coûts de votre CDW. La première de ces approches permet d’augmenter votre CDW, la deuxième d’optimiser les coûts de votre CDW (data tiering).
Premièrement, voyons comment Starburst Galaxy augmente votre CDW.
Une pratique fréquemment utilisée avant le chargement des données dans un data warehouse est leur copie dans une zone de stockage de type objet. Cette pratique est appelée le staging. Finalement une partie seulement de ces données sera effectivement chargée dans le data warehouse. A contrario, il y a également des sources de données, non présentes dans votre CDW, que vos utilisateurs souhaiteraient disponibles et utilisables en conjonction avec celles du data warehouse.
A cette fin, Starburst Galaxy fournit un grand choix de connecteurs pour des sources de données aussi bien relationnelles que non relationnelles telles que PostgreSQL, MongoDB et Elastic Search. Les connecteurs des CDW tels que Snowflake, Redshift, BigQuery, et Synapse sont également disponibles.
Ces données réparties au sein de différentes sources de données utilisant différentes technologies sont jointes en temps réel en utilisant notre optimiseur SQL basé sur les coûts (CBO). Ceci permet d’utiliser du SQL Ansi pour accéder à des sources de données réparties et disparates.
Par exemple:
Cette capacité de Starburst Galaxy permet de joindre les données de votre stockage, de vos données relationnelles et non-relationnelles avec les données de votre CDW. L’exécution de ces jointures étant faite en temps réel, il n’est pas nécessaire de copier ces données dans le data warehouse ce qui permet de gagner en agilité, de réduire le temps de mise à disposition des données tout en réduisant les coûts de développement.
Décharger les données de votre Data Warehouse
Cette approche est appelée data tiering et cible une réduction des coûts et un maintien des SLA au niveau du data warehouse.
Parmi les retours faits pas les sociétés ayant une stratégie « all-in » pour leur CDW, les plus fréquents sont :
- L’accroissement des coûts qui devient incontrôlable
- Le « lock-in » des données qui freine toute évolution technologique
Avec Starburst Galaxy vous pouvez stocker vos données dans n’importe quel stockage objet cloud , vous pouvez traiter les données de vos zones de raffinage traditionnelles (landing/structure/consume ou bronze/silver/gold) et exposer ces données à une grande variété de profils utilisateurs pour des cas d’usage tout aussi variés (machine learning, data exploration, data engineering, business analysis, business intelligence, reporting, …, etc)
Le point essentiel est que vos données sont stockées en format standard, tels que parquet et orc, au sein de vos comptes cloud vous permettant d’utiliser le(s) moteur(s) de votre choix pour l’analyse et le traitement des données.
Créer un Data Lake moderne
En terme de mécompréhension sur l’usage d’un data lake, l’interrogation la plus fréquente que l’on continue de rencontrer avec les sociétés qui souscrive à l’idée d’un open data lake est : « Comment je crée ma base de données, mes tables pour exposer les données de mon data lake ». C’est une question tout à fait naturelle qui provient très probablement des limitations de Hive du temps d’Hadoop ou les jointures étaient mal supportées car mal adaptées aux tables Hive généralement à structures monolithiques et très volumineuses.
Regardons par exemple un standard, le benchmark TPC-H. La structure de cette base montre un diagramme relationnel tout à fait classique d’entités-relations.
Avec Starburst Galaxy vous pouvez créer vos tables de manière identique à une base de données relationnelle, vous pouvez également exécuter des insert, update, merge et même des delete à l’identique d’une base de données classique.
De plus joindre des tables est totalement recommandé et supporté comme pour une base relationnelle standard :
Starburst Galaxy est basé sur le projet Open Source Trino, moteur développé par Facebook capable de gérer des milliers d’utilisateurs concurrents. Cette technologie est utilisée par des sociétés parmi les plus mondialement reconnues.
Ci-dessous, vous trouverez une matrice de fonctionnalités comparant Starburst Galaxy, exposant les données de votre data lake, à un CDW classique. Votre data lake reste complètement ouvert et vous permet d’utiliser les moteurs de votre choix pour en exploiter au mieux les données. (cf ce blog sur les « multi-engine datalake »).
Il est temps à présent de transformer votre « data swamp » en un data lake ouvert, gouverné, structuré et très performant pouvant supporter tous vos cas d’usages analytiques.
C’est trop beau pour être vrai n’est ce pas ?
Nous sommes à votre disposition pour toute question complémentaire. Vous pouvez aussi accéder à notre nouvelle plateforme de cours en ligne, Starburst Academy qui comprend de nombreuses vidéos instructives gratuites; comme la Data Foundation, des formations à la demande et d’autres ateliers qui couvrent tous les aspects du data lake.
Starburst Academy
Retrouvez du contenu de formation gratuit et à la demande pour vous aider à approfondir vos connaissances de Starburst et son écosystème.
What are some next steps you can take?
Below are three ways you can continue your journey to accelerate data access at your company
- 1
- 2
Automate the Icehouse: Our fully-managed open lakehouse platform
- 3
Follow us on YouTube, LinkedIn, and X(Twitter).