Sauter au menu Sauter au contenu
PraedictIA

L’histoire de la reconnaissance d’images

Le désir de doter les machines du sens de la vue ne date pas d’hier. Puisque ce domaine d’étude est largement tributaire de la compréhension que l’on a du système visuel humain et de la puissance informatique qui est à notre portée, les développements majeurs en vision par ordinateur et en reconnaissance d’images sont relativement récents.

1950 – 1959

La naissance de la vision par ordinateur

Certains chercheurs se penchent sur le fonctionnement du système visuel. En 1959, les neurophysiologistes David Hubel et Torsten Wiesel étudient la réponse de base des neurones du cortex visuel du chat. Ils établissent que le cortex visuel primaire détecte d’abord des structures simples, comme des traits orientés, puis des structures plus complexes de l’image. Ce principe est appliqué à la reconnaissance d’images.

La même année, Russell Kirsch et ses collègues mettent au point le tout premier numériseur d’images. L’appareil est capable de convertir une image en une grille de valeurs numériques.

1963

La description du processus de dérivation d’information 3D

Lawrence Roberts décrit le processus de dérivation d’information 3D d’objets solides à partir de photographies 2D.

1966

La naissance d’un nouveau domaine de recherche : la vision par ordinateur

Seymour Papert, professeur au laboratoire d’intelligence artificielle du MIT, met sur pied le Summer Vision Project, un projet d’été pour étudiants. En quelques mois, un petit groupe d’étudiants doit réussir à brancher une caméra à un ordinateur pour élaborer une partie d’un système de vision par ordinateur. Malgré l’échec de ce projet, pour plusieurs cela représente la naissance d’un nouveau domaine de recherche : la vision par ordinateur.

1979

La reconnaissance d’un premier réseau neuronal méritant le qualificatif de « profond » : le néocognitron.

L’informaticien japonais Kunihiko Fukushima propose le néocognitron, un réseau neuronal « auto-organisant » capable de reconnaître des motifs sans être affecté par leur position dans l’image, soit le premier réseau neuronal méritant le qualificatif de « profond ».

1989

Le lancement du LeNet-5, le premier réseau neuronal convolutif moderne

Le scientifique français Yann LeCun applique un algorithme d’apprentissage par rétropropagation à l’architecture du néocognitron de Fukushima et lance le LeNet-5, le premier réseau neuronal convolutif moderne qui introduit certains ingrédients essentiels encore utilisés aujourd’hui. L’application de son algorithme à la reconnaissance de caractères, lui permet de lancer un logiciel commercial permettant de lire les codes postaux. En parallèle, il met en place un ensemble de données de chiffres manuscrits, MNIST (Modified National Institute of Standards and Technology), pouvant être utilisés pour l’entraînement de systèmes de reconnaissance de caractères.

2001

Le premier programme de reconnaissance faciale en temps réel

Paul Viola et Michael Jones mettent au point le premier programme de reconnaissance faciale en temps réel. Cinq ans plus tard, la compagnie Fujitsu intègre ce logiciel dans une caméra.

2006

La création d’un ensemble de données standardisé pour la classification d’objets et le lancement d’une compétition pour comparer la performance des modèles de reconnaissance d’objets

En 2006, le projet Pascal VOC permet de fournir un ensemble de données standardisé pour la classification d’objets. Une compétition annuelle permet d’évaluer et de comparer les performances des différents modèles de reconnaissance d’objets.

2010

Le lancement d’une nouvelle compétition de reconnaissance d’images

Une nouvelle compétition de reconnaissance d’images ImageNet Large Scale Visual Recognition Competition (ILSVRC) consiste à mettre au point un modèle pouvant catégoriser un lot d’images avec le plus faible taux d’erreur possible. Alors que PASCAL VOC offre un ensemble de données limité à 20 catégories d’objets et 20 000 images, ImageNet contient plus d’un million d’images, classées dans quelque 1000 catégories. Le taux d’erreur est d’environ 26 %.

2012

La présentation d’un réseau neuronal révolutionnaire

Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton de University of Toronto présentent AlexNet, un réseau neuronal convolutif révolutionnaire dont le taux d’erreur est de seulement 15,3 %.

Les années suivantes, tous les gagnants de la compétition sont des modèles qui s’appuient sur des réseaux neuronaux convolutifs, dont le taux d’erreur a chuté drastiquement pour atteindre environ 2 %, en 2017.

2013

L’intégration de la technologie au moteur de recherche d’images de Google Photos

Google se porte acquéreur de l’entreprise en démarrage AlexNet, et intègre la technologie de ce modèle au moteur de recherche d’images de Google Photos. Google utilise les réseaux neuronaux convolutifs pour reconnaître près de 100 millions d’adresses physiques à partir de l’imagerie de Google Street View.

Aujourd’hui

La démocratisation de l’intelligence artificielle et de la reconnaissance d’images

Aujourd’hui, l’utilisation de l’intelligence artificielle et de la reconnaissance d’images s’est largement démocratisée, la puissance informatique des plus grands, comme Google, Amazon et IBM, pour ne nommer que ceux-là, est mise à la disposition de tous par l’entremise de plateformes de services.

La reconnaissance d’images se fait de plus en plus pointue. Par exemple, plutôt que de reconnaître une salade dans une photo, un outil spécialisé peut en identifier les ingrédients visibles.

Au cours des années suivantes, le progrès fulgurant de la reconnaissance d’images et de ses multiples applications se poursuivra. L’augmentation de la puissance informatique, la mise au point de processeurs spécialisés pour les réseaux neuronaux et la grande disponibilité des outils alimentent les chercheurs dans les efforts qu’ils déploient.