Sauter au menu Sauter au contenu
PraedictIA

Comment fonctionne l’analyse des données ?

Le terme « analyse des données » couvre un large éventail de cas d’applications. Il existe des différences quant aux étapes nécessaires permettant de mettre en place un système analytique basées entre autres sur l’objectif du cas d’usage, la complexité de l’environnement des données, de leur disponibilité et de leur qualité. Néanmoins, plusieurs phases sont communes à la plupart des cycles de développement des systèmes analytiques.

Les étapes de traitement des données

La définition des besoins analytiques

Une phase cruciale et tributaire du succès de tout projet analytique, est généralement constituée des étapes suivantes pour les besoins d’affaires :

  • Leur collecte auprès des futurs utilisateurs de la solution analytique ;
  • Leur évaluation selon la faisabilité, souvent intimement liée à la disponibilité des données ;
  • Leur priorisation selon l’urgence, l’importance d’affaires et l’interdépendance avec d’autres besoins d’affaires ;
  • Leur transformation en besoins analytiques impliquant la définition des métriques et des attributs d’après les données disponibles.

La collecte et le traitement des données

La performance de tout système d’analyse des données dépend naturellement des données disponibles à l’usage du système. Ce processus fait souvent appel à des technologies de ETL (Extract, Transform and Load) où l’objectif est de construire une chaîne de transformation (pipeline) de données sources en données formatées spécifiquement pour l’usage du système analytique. Le processus ETL est constitué des étapes suivantes.

  • L’extraction des données : cette première étape implique souvent la construction (ou l’utilisation) de connecteurs qui permettent l’extraction des données à partir de différentes sources (base de données, interface de programmation API, etc.) Elle prendra des formes différentes suivant la taille, le format et la vélocité des données ;
  • La transformation des données : cette deuxième étape consiste à mettre en place un ensemble de règles de transformation permettant de formater les données en un format adéquat pour leur chargement dans les outils d’analyse prévus à cet effet. Cette étape inclut entre autres :
    • le nettoyage de données ;
    • l’uniformisation des données ;
    • le balancement des données (étape importante pour l’utilisation des algorithmes d’apprentissage machine.
  • Le chargement des données : cette dernière étape comporte en la mise en place des règles de chargement de données (p. ex. charger les nouvelles données transformées chaque deux semaines) et des connecteurs nécessaires pour permettre aux outils d’analyse de données de consommer, en continue, les données qui peuvent être chargées en lots ou en flux de données ininterrompu.

L’analyse des données

Une fois le pipeline de transformation de données opérationnel, nous alimenterons constamment l’ensemble des outils analytiques qui peuvent couvrir les analyses suivantes.

  • L’analyse descriptive : pour comprendre le déroulement d’un phénomène (p. ex. l’augmentation des ventes) ;
  • L’analyse diagnostique : pour connaître les facteurs ayant permis que le phénomène se passe de la manière observée (p. ex. comprendre ce qui a provoqué l’augmentation des ventes) ;
  • L’analyse prédictive : pour prédire les tendances et l’occurrence des phénomènes (p. ex. prévoir l’augmentation ou la diminution des ventes à une date spécifique) ;
  • L’analyse prospective : pour construire des outils de recommandations et de suggestions basées sur les métriques de données (Data Driven Decisions) (p. ex. recommander un prix à afficher pour un produit spécifique à une période déterminée.

Les outils analytiques peuvent utiliser différentes techniques d’exploration de données et d’extraction de la sémantique. Les outils d’intelligence artificielle sont redoutablement efficaces pour la découverte d’anomalies, la prédiction des tendances ou l’automatisation des tâches selon les résultats des moteurs de recommandation.

L’exploitation des données et la mise en action

L’installation d’une couche analytique peut être utile seulement lorsque les métriques et les résultats sont pleinement utilisés. La consommation des résultats en analytique des données se fait par différents canaux.

  • Les tableaux de bord offrent un support visuel permettant l’affichage et l’exploration intuitive des informations ;
  • Les alertes sont très utiles pour attirer l’attention de l’utilisateur et l’inciter à agir, que ce soit à même le tableau de bord ou via d’autres canaux (SMS, email, etc.) ;
  • L’automatisation de certaines tâches tout en se basant sur des données factuelles fournies par les systèmes analytiques.