Qu’est-ce que l’apprentissage automatique (Machine Learning) ?

L’apprentissage machine (machine learning) ou apprentissage automatique est un sous-domaine de l’intelligence artificielle. Cela fait référence à un ensemble de techniques mathématiques et de transformation de données permettant à un logiciel d’apprendre à partir de données historiques afin de s’ajuster automatiquement pour parfaire l’exécution d’une tâche spécifique.

Le mot apprentissage, dans apprentissage machine, est une métaphore qui rappelle comment les êtres humains (ou tout être vivant doté d’une intelligence) peuvent améliorer graduellement leurs performances grâce aux observations et aux leçons tirées d’expériences antérieures.

L’apprentissage machine présente plusieurs avantages qui justifient sa popularité en évolution croissante. La disponibilité des données et l’augmentation de la capacité de calcul permettent effectivement de construire des logiciels « intelligents » pouvant résoudre des problèmes de plus en plus complexes et variés. L’apprentissage machine permet aux ordinateurs d’apprendre et de perfectionner continuellement leur apprentissage et même, dans certains cas, de surpasser les capacités humaines.

Exemple : l’identification des pourriels

Afin d’illustrer simplement ce concept, prenons l’exemple d’une des premières utilisations populaires de l’apprentissage machine : l’identification des pourriels (spams). Supposons que nous voulions construire un programme informatique capable de reconnaître les pourriels parmi les centaines de courriels que nous recevons chaque jour.

Le premier réflexe serait d’établir les caractéristiques de reconnaissance d’un pourriel, comme un nombre élevé d’hyperliens, un usage abusif du langage commercial, etc., que nous nommerons extraction des caractéristiques (features extraction).
L’étape suivante serait d’introduire manuellement un ensemble de règles (p. ex. si le nombre d’hyperliens est supérieur à sept, signaler le courriel). Dans la réalité, cette approche peut s’avérer très limitée. Puisque la structure et le contenu d’un pourriel peuvent prendre des formes extrêmement variées, le nombre de caractéristiques sera donc très élevé. L’introduction manuelle de toutes les règles nécessaires à l’identification d’un pourriel serait alors impossible. Il serait plus approprié d’utiliser un algorithme d’apprentissage machine auquel nous introduirions un jeu de données composé de courriels nous permettant de distinguer clairement les pourriels, que nous appellerons données d’entraînement (training set) et d’entraîner l’algorithme à identifier automatiquement les caractéristiques qui sont associées aux pourriels.
Nous testerons ensuite la capacité de notre algorithme à reconnaître un pourriel en utilisant un jeu de données de test (testing set) qui consiste en un nouvel ensemble de courriels (différents des courriels utilisés lors de la phase d’entraînement). Nous pourrons ainsi tester la capacité réelle de notre logiciel à identifier les pourriels.Dans ce cas d’usage, le choix de l’apprentissage machine offre un autre avantage : l’amélioration continue de la performance de détection. Les nouveaux courriels peuvent effectivement servir à parfaire la base de connaissances de notre programme informatique et ainsi l’alimenter de nouvelles caractéristiques à considérer dans le futur.

Jeu d’entrainement, Jeu de validation, Jeu de test – Se former à Tensorflow 2.0 #8

Qu’est ce qu’un dataset ? Comment le manipuler ?