Toute stratégie décisionnelle se base au départ sur le stockage des Big Data collectées, externes comme internes, avant même de les travailler. Un « data lake » (lac de données) peut relever le défi en indexant les données. Quelle que soit la solution de stockage choisie – plateforme Big Data distribuée, base de données NoSQL ou moteur d'indexation par analyse sémantique – l'entreprise doit prévoir un système de traçabilité pour faciliter leur exploitation à l'étape suivante. Celle-ci consiste à préparer les données pour l'analyse, en les apurant et en identifiant les corrélations et croisements entre elles. Ce nouveau stock de données prêt à être analysé peut être conservé dans le data lake, à condition de pouvoir le distinguer des données non qualifiées. 

Le « datalab » (ou « fonderie »), positionné sur une plateforme de traitement distribué, permet aux métiers et aux data scientists de lancer des expérimentations sur les données, afin d’évaluer les possibilités d’industrialisation de certaines analyses. Le datalab se connecte au data lake dont il utilise les arborescences pour fluidifier ces premières analyses. En aval, il se connecte au datawarehouse et aux bases de données opérationnelles pour croiser et enrichir les analyses déployées ensuite à grande échelle. Là encore, instaurer une traçabilité des données de bout en bout reste capital.

Reste enfin à intégrer les données issues du datalab dans le datawarehouse, afin d’industrialiser les analyses préalablement expérimentées. Dans le cas de l’exploitation d’un datawarehouse préexistant, la structure des tables de données et de leur modélisation sont susceptibles d’être modifiées. Pour éviter ce scénario, certaines approches de modélisation agiles étendent le datawarehouse sans le dégrader. Parmi elles : le « datavault » qui « historise » les données issues de différentes sources, ou l’« anchor modeling » qui gère les changements apportés à la structure des données et à leur contenu. L'entreprise dispose ainsi d'un entrepôt de données qui unifie et centralise les données stratégiques, sans bousculer l'architecture décisionnelle existante.