Aujourd'hui, l'entreprise stocke des volumes massifs de données pour plusieurs raisons. Tout d'abord, la production de données est en croissance exponentielle, en moyenne de 80% par an dans le monde. Ensuite, techniquement, il est possible de stocker sans limite, entre autres via un accès à des espaces de stockage gigantesques dans les grands data centers. Enfin, le prix du teraoctet de stockage tend à baisser et ne présente pas de frein à la course au stockage. Résultat : les entreprises stockent de véritables data lakes (lacs de données) dont, au final, elles ne font pas grand-chose – les volumes de données disponibles et exploitables n'augmentent d'ailleurs que de 40% par an. Ce faisant, les entreprises se rassurent en conservant toutes les données dont elles pourraient avoir besoin à l'avenir. Une stratégie de réserve plutôt stérile en soi.

Pour qu'un data lake d'entreprise ne devienne pas un déversoir de données brutes, l'entreprise doit mûrir son approche des Big Data et particulièrement sa stratégie de gouvernance de données. Des distinctions s'imposent. D'abord, l'objectif ne doit plus consister à tout stocker à tout prix, mais à identifier les données qui vont réellement servir au développement de l'entreprise. Ensuite, celle-ci doit viser plus loin que ces données et chercher à en tirer les informations riches d'enseignements en appliquant une couche d'abstraction. Si ces informations à valeur ajoutée doivent être conservées précieusement, les données dont elles sont dérivées peuvent être en revanche supprimées dans un second temps. Il est donc nécessaire de faire un tri entre données utiles et données sans intérêt, puis entre données et informations. L'humain reste la machine la plus performante pour y parvenir. A la clé, l'entreprise se dote d'un réel moteur de développement et s'émancipe de la course au stockage.