Le terme Big Data englobe un ensemble d’approches, de techniques et de technologies servant à exploiter des données de taille volumineuse, de nature variée et d’une vélocité élevée. Ces trois dimensions (dites les 3V) permettent souvent de qualifier étant des données volumineuses (Big Data) :
Le volume de données
Aucune règle formelle ne permet de distinguer les données volumineuses de celles qui ne le sont pas. Généralement, et d’un commun accord, les données volumineuses sont définies comme étant des données qui nécessitent plusieurs ordinateurs ou des super ordinateurs pour être traitées efficacement. Ces volumes de données, traditionnellement limitées à des usages scientifiques, sont devenues plus courantes avec l’arrivée de l’Internet.
Des technologies spécifiques aux nouveaux volumes de données disponibles ont vu le jour. Par exemple, Hadoop, de l’entreprise Apache, un cadre conceptuel à code source ouvert, permet la gestion et le traitement efficace des données volumineuses grâce à la parallélisation de plusieurs ordinateurs et à la distribution de la charge de calcul sur plusieurs machines.
La variété de données
Avec Internet, le contenu généré par les utilisateurs a non seulement gagné en volume mais aussi en variété. La plupart des applications modernes échangent du contenu de formats différents dont la forme varie du structuré au non structuré. Les outils de gestion de données volumineuses doivent pouvoir stocker, traiter et exploiter des données de structures variables. Les lacs de données (Data Lake) servent de plus en plus à regrouper des données de structures différentes au même endroit.
La vélocité des données
La vélocité des données réfère à la vitesse à laquelle les données sont générées et, par conséquent, collectées, traitées, stockées et exploitées. Elle soulève un véritable défi à relever pour les technologies de Big Data (l’industrie 4.0, les manufactures connectées et l’Internet des objets).
Par exemple, pour chaque vol, les milliers de capteurs dont les avions modernes sont équipés génèrent plus d’un téraoctet de données. Chaque seconde, les avions transmettent des milliers d’enregistrements qui renseignent sur l’état de l’appareil, les paramètres de vols, etc. Avec la croissance du trafic aérien, il était nécessaire de mettre en place des outils de Big Data capables d’ingérer un volume de données en croissance continue et exponentielle.
Les autres dimensions
D’autres dimensions sont prises en compte pour la qualification des données volumineuses : la variabilité qui évalue la vitesse à laquelle la structure du contenu évolue dans le temps, la valeur qui mesure la valeur informationnelle extraite des données et la véracité qui estime la qualité des données et qualifie les sources dont elles proviennent.
Comment fonctionne le Big Data
Le terme Big Data englobe un ensemble d’approches, de techniques et de technologies servant à exploiter des données de taille volumineuse, de nature variée et d’une vélocité élevée. Ces trois dimensions (dites les 3V) permettent souvent de qualifier étant des données volumineuses (Big Data) :
Le volume de données
Aucune règle formelle ne permet de distinguer les données volumineuses de celles qui ne le sont pas. Généralement, et d’un commun accord, les données volumineuses sont définies comme étant des données qui nécessitent plusieurs ordinateurs ou des super ordinateurs pour être traitées efficacement. Ces volumes de données, traditionnellement limitées à des usages scientifiques, sont devenues plus courantes avec l’arrivée de l’Internet.
Des technologies spécifiques aux nouveaux volumes de données disponibles ont vu le jour. Par exemple, Hadoop, de l’entreprise Apache, un cadre conceptuel à code source ouvert, permet la gestion et le traitement efficace des données volumineuses grâce à la parallélisation de plusieurs ordinateurs et à la distribution de la charge de calcul sur plusieurs machines.
La variété de données
Avec Internet, le contenu généré par les utilisateurs a non seulement gagné en volume mais aussi en variété. La plupart des applications modernes échangent du contenu de formats différents dont la forme varie du structuré au non structuré. Les outils de gestion de données volumineuses doivent pouvoir stocker, traiter et exploiter des données de structures variables. Les lacs de données (Data Lake) servent de plus en plus à regrouper des données de structures différentes au même endroit.
La vélocité des données
La vélocité des données réfère à la vitesse à laquelle les données sont générées et, par conséquent, collectées, traitées, stockées et exploitées. Elle soulève un véritable défi à relever pour les technologies de Big Data (l’industrie 4.0, les manufactures connectées et l’Internet des objets).
Par exemple, pour chaque vol, les milliers de capteurs dont les avions modernes sont équipés génèrent plus d’un téraoctet de données. Chaque seconde, les avions transmettent des milliers d’enregistrements qui renseignent sur l’état de l’appareil, les paramètres de vols, etc. Avec la croissance du trafic aérien, il était nécessaire de mettre en place des outils de Big Data capables d’ingérer un volume de données en croissance continue et exponentielle.
Les autres dimensions
D’autres dimensions sont prises en compte pour la qualification des données volumineuses : la variabilité qui évalue la vitesse à laquelle la structure du contenu évolue dans le temps, la valeur qui mesure la valeur informationnelle extraite des données et la véracité qui estime la qualité des données et qualifie les sources dont elles proviennent.