La définition tarte à la crème : les 3 V du Big Data

La définition du Big Data scolaire, ultra commune et à côté de laquelle on ne peut pas passer, est celle des 3 V du consultant Doug Laney : Volume, Variété et Vélocité.

Volume : de gros volumes de données. Pour donner des exemples extrêmes : chaque minute dans le monde, 700 personnes réservent un Uber, 110 000 appels Skype sont passés, 600 000 profils sont swippés sur Tinder et 300h de vidéos sont uploadées sur Youtube.

Variété : tout type de données, en vrac. On veut stocker des types de données différents, allant du très structuré comme des bases relationnelles MySQL, au non structuré comme des fichiers CSV, PDF, photos ou vidéos en vrac dans un data lake (Hadoop, Amazon S3).

Vélocité : stockage et traitement toujours plus rapides. Les besoins en vitesse de collecte, stockage, traitement et calculs augmentent, avec comme Graal le temps réel, i.e. la capacité de traiter les données instantanément, sans délai. C’est facile sur des petits volumes mais devient vite très difficile lorsque les volumes augmentent.

Et avec ceci madame, je vous remets quelques V de plus ?

La définition par les V est tellement classique que les experts cherchent à expliquer chaque aspect du Big Data par des V supplémentaires : Véracité (nettoyage du bruit dans les données), Valeur (l’analyse des données doit être motivée par la valeur business qu’elle apporte), Viabilité (chercher les 5% des données qui sont porteurs d’information), Variabilité (présence d’incohérences dans les données) et beaucoup d’autres encore.

Quentin Pleplé
February 2016