À quoi ressemblera votre data stack en 2023 ?

Catégories :

Catégories

Sommaire

Vous cherchez un seul outil incontournable pour capitaliser sur vos données en 2023 ?

Vous risquez d’être déçus : difficile d’y voir clair parmi la pléthore de nouvelles solutions data qui apparaissent tous les jours sur le marché. Chacune de ces solutions a une promesse spécifique et vise à améliorer un segment précis de la data journey.

À premier abord, il peut sembler impossible de s’orienter dans cet écosystème mouvant. En réalité, le foisonnement de solutions très verticalisées est une chance : en combinant les outils les plus performants et les plus adaptés, vous pouvez créer votre propre arsenal data sur-mesure. Cet arsenal composite est ce qu’on appelle une “data stack”. À quoi ressemblera la vôtre en 2023 ?  

Qu’est-ce qu’une data stack ?

Les données brutes, seules, ne servent pas à grand-chose. Aujourd’hui, les entreprises ont à leur disposition des volumes impressionnants de données… mais cela ne les rend pas automatiquement plus performantes. Il faut, pour cela, mettre en place un système de traitement efficace. Premier défi : identifier les sources de données les plus riches et réussir le processus d’extraction. Il faut ensuite transformer la donnée que l’on a extraite, la préparer et l’acheminer vers un lieu de stockage. C’est après cette étape que peuvent intervenir les data scientists. Ils mènent des analyses poussées et prédictives grâce à leurs algorithmes de machine learning. Mais il n’y a pas que les data scientists qui utilisent la donnée : les métiers doivent avoir accès à des informations lisibles et claires qui leur permettent de prendre de bonnes décisions et de devenir plus efficaces au quotidien. Pour cela, la donnée doit être présentée dans des tableaux de bord ergonomiques ou transformée et injectée dans leurs outils métiers afin de prendre des décisions et suivre leurs actions opérationnelles.  

Chacune de ces étapes cruciales nécessite l’intervention de professionnels aux expertises spécifiques. À mesure que ces opérations se complexifient et gagnent en sophistication, de nouvelles expertises émergent : on pense par exemple au métier de Machine Learning Ops, ou celui d’Analytics Engineer, qui n’existaient pas il y a quelques années, et dont l’expertise se situe entre celle d’un Data Scientists et d’un Data Engineer. Chacun de ces spécialistes a besoin d’outils pensés pour lui, qui s’imbriquent aisément dans l’écosystème data global de l’entreprise. Cet arsenal d’outils qui permet de passer des données brutes aux données utilisables par les métiers est ce qu’on appelle une data stack. Sauf qu’en 2023, de plus en plus d’entreprises délaissent les data stacks traditionnelles, statiques, coûteuses, et hébergées sur des serveurs locaux, au profit des modern data stacks, plus agile et plus modulaires. 

Qu’est-ce qu’une modern data stack et comment construire la vôtre ?

Une data stack sur le cloud

La différence entre les data stacks traditionnelles et les data stacks modernes tient à l’innovation centrale de ces dernières années : le passage au cloud. Il y a quelques années, la plupart des entreprises choisissaient de stocker leurs données et d’effectuer leurs opérations sur des serveurs locaux qui leur appartenaient (on-premise). Aujourd’hui, elles se sont massivement converties sur le cloud. Sur ce support, elles peuvent stocker leurs données à moindre coût et exécuter des calculs et des déploiement véloces, de façon plus élastique.. Le tout, sans se charger de la maintenance technique des serveurs, optimisés en continu par les fournisseurs de logiciels. Surtout, le cloud leur permet d’accéder à la solution de stockage et de gestion des données la plus innovante aujourd’hui : le cloud data warehouse (un entrepôt de données hébergé sur le cloud).

D’un modèle ETL à ELT

Les data warehouse cloud comme Snowflake, BigQuery ou Redshift ne sont pas uniquement des bases de données analytiques plus scalables et moins coûteuses. Ils permettent aussi d’organiser la donnée de manière à pouvoir la retrouver et l’utiliser facilement. Ils se distinguent aussi par leur puissance de calcul. Avant les data warehouses, il fallait faire subir à la donnée brute des transformations complexes pour pouvoir la centraliser dans un espace de stockage (trier, nettoyer, dédupliquer, organiser…). Maintenant, plus besoin de faire ce travail en amont. Il suffit de mettre en place des pipelines d’extraction qui acheminent la data depuis les sources diverses vers le data warehouse. Une fois que la donnée a atteint sa destination, on peut la transformer en faisant levier sur la puissance de calcul des data warehouses. Cela simplifie le data lineage / data journey dans son ensemble. Pour le dire en termes d’experts, on passe d’un modèle E-T-L (Extract - Transform - Load ou extraire, transformer, acheminer) à un modèle E-L-T (Extract - Load - Transform, extraire, acheminer, transformer).

La place des data warehouses dans la modern data stack

C’est grâce à ce changement révolutionnaire que les data warehouses prennent une place centrale dans les nouvelles data stacks. Ils sont le cœur battant d’un nombre croissant de modern data stacks. Un autre élément distinctif des data warehouses : leur connectivité. Il leur est possible de se raccorder à d’autres outils data qui participent en amont (extraction, acheminement) ou en aval (analytics, data visualisation, data storytelling) à la data journey.

Une data stack modulaire et composite

L’essor du cloud a permis le foisonnement de solutions diverses et variées qui agissent chacune sur un segment précis de la data journey. Chaque entreprise peut choisir parmi les outils disponibles sur le marché ceux qu’elle voudrait intégrer à son arsenal data. La modern data stack est avant tout modulaire et composite : elle est constituée d’une sélection de ces outils qui permettent l’extraction, la transformation, l’analyse, la restitution ou l’activation de ces données.

Sélectionner les bons outils pour sa modern data stack peut sembler vertigineux. Heureusement, il est possible de s’inspirer de celles mises en place par d’autres entreprises, grandes ou petites, pour construire la sienne. Sur le site modern data stack par exemple, qui a la vocation de devenir un répertoire des différentes data stacks mises en place. Il offre aussi un inventaire de tous les outils data que l’on peut trouver sur le marché en fonction de leur catégorie : data warehouses, outils BI, data streaming, workflow monitoring…

Une data stack adaptée à votre entreprise

La qualité principale d’une modern data stack est la modulabilité. Pas de modèle unique à suivre : il faut simplement trouver la formule la plus adaptée à votre entreprise et surtout à vos ressources et à vos équipes d’experts. L’aspect sur-mesure de la modern data stack change la donne. C’est ce qui vous permet d’éviter les coûts fixes et vous assure un maximum de flexibilité.

Si vous êtes à la tête d’une startup de quelques dizaines d’employés, vous n’aurez pas les mêmes besoins qu’une entreprise de taille moyenne et pourrez vous contenter d’une data stack modeste. Vous avez quand même intérêt à mettre en place des outils de restitution faciles d’accès pour faire parvenir les informations à tous les membres de votre équipe sans avoir recours aux feuilles de calcul.

Les entreprises de taille moyenne ont souvent, elles, une équipe data plus structurée. Elles auront besoin d’une plus grande variété d’outils pour transformer les données avant utilisation, les explorer grâce à des outils de BI sophistiqués et réintégrer la donnée dans les outils métiers, aussi appelés Reverse ETL.

Les entreprises les plus matures auront recours à des modèles de machine learning pour faire des analyses prédictives et mieux anticiper les évolutions de leur marché. Elles auront recours à une data stack complète qui va de l’extraction et la préparation des données à des outils de visualisation user-friendly qui permettront de présenter aux utilisateurs métier les résultats obtenus grâce au machine learning.

Une data stack pour rendre la donnée accessible à tous

Le processus de data analytics devient de plus en plus complexe, c’est vrai. Cette complexification permet de mener des analyses plus poussées et des calculs plus puissants. Le défi majeur est de faire en sorte que les résultats de ces analyses et ces calculs, aussi complexes soient-ils, restent accessibles à tous les utilisateurs, même ceux qui n’ont aucune expertise technique. C’est notre credo chez Toucan Toco : les analyses et les études poussées ne servent à rien si elles n’ont pas d'application concrète, si elles ne permettent pas aux métiers d’être plus efficaces au quotidien.

Une modern data stack est une data stack accessible à tous, sans barrière d’expertise technique. Cela ne va pas de soi lorsque celle-ci est composée d’outils aussi complexes que les data warehouses ou les logiciels de data exploration… C’est pour cette raison que vous avez besoin de prévoir, dans votre arsenal d’outils data, des produits qui mettent l’accessibilité et le design au centre. C’est ce que fait le data storytelling en transformant des chiffres et des analyses arides en récits que chacun peut comprendre.

Nous avons veillé à faire de Toucan Toco un outil de data storytelling qui puisse s’intégrer à toute modern data stack afin de la rendre plus accessible. Nos nombreux connecteurs nous permettent de nous imbriquer à des outils divers. Grâce à Toucan, les utilisateurs métier peuvent faire des requêtes sans code en se connectant à leur data warehouses (Snowflake, Redshift, Big Query) à partir de notre interface en quelques clics seulement.

Grâce à l’interface No code de Toucan, pas besoin d’apprendre le SQL (le langage que l’on utilise généralement pour s’adresser à une base de données). Tout se fait visuellement : il est possible de sélectionner les sources directement dans Toucan. Notre interface se charge du reste : les questions métier configurées en No Code sont traduites en code et envoyées directement à la data warehouse. Tout est fait pour pouvoir capitaliser sur la puissance de calcul des data warehouse sans se laisser ralentir par des barrières d’ordre technique.

Une data stack au coût optimisé

Tout cela, à quel prix ? Là encore, il n’y a pas de réponse type, tout dépend de la configuration de votre data stack. Il est possible de s’équiper d’une data stack pour 500 euros, mais le budget peut vite atteindre plusieurs dizaines de milliers selon les outils choisis et l’utilisation que vous en faites. Nous l’avons dit : les solutions cloud sont flexibles. C’est-à-dire qu’elles vous permettent de payer pour ce que vous utilisez, ni plus, ni moins. D’où l’importance de bien les utiliser : les requêtes inutiles et répétées peuvent vite se répercuter sur votre facture. C’est un risque sérieux si vous mettez vos outils data entre les mains d’un grand nombre de vos collaborateurs.

Alors, que faire ? Il faut s’équiper de solutions vous permettant de contrôler votre utilisation des outils les plus coûteux. Chez Toucan, nous avons mis en place un système de cache pour éviter d’envoyer plusieurs fois la même requête. Supposons que deux de vos collaborateurs fassent deux demandes de calculs similaires via notre interface. Plutôt que de payer deux fois pour ce calcul, notre système de cache restituera les résultats de la première requête. Pratique, non ?

Mais ce n’est pas tout : nous proposons des tableaux de bord vous permettant de surveiller d’un seul coup d'œil votre utilisation de votre data warehouse, de repérer les principaux postes de dépenses et d’optimiser vos coûts.

Essayer le tableau de bord pour contrôler ses coûts Snowflake

Alors quelle data stack pour 2023 ?

Quelle que soit votre maturité data, l’important est de construire des data stack qui vous permettent, très vite, d’en faire profiter vos équipes. Il ne faut pas négliger l’étape de la restitution au profit des premières étapes : extractions, transformation et exploration des données restent lettre morte si la donnée n’est pas activée. Chez Toucan, la démocratisation de la donnée est notre priorité absolue. Nous pouvons vous aider à rendre votre modern data stack plus accessible à tous. Parlons-nous en !

This is a heading 2

This is a paragraph

This is a heading 2

This is a paragraph

Sommaire