Sauter au menu Sauter au contenu
PraedictIA

Les outils et logiciels de reconnaissance vocale

La reconnaissance vocale est un ensemble de techniques et de technologies qui associent traitement du signal, intelligence artificielle et traitement du langage naturel. Transformer un signal acoustique en une structure de données organisée est un défi de taille.

Les défis à relever

La performance de la reconnaissance vocale dépend de plusieurs facteurs : la qualité sonore de l’enregistrement, les données d’entraînement utilisées pour la modélisation acoustique, le bruit environnant, etc. Un programme de reconnaissance vocale performant peut :

  • Filtrer correctement les bruits présents lors de l’enregistrement acoustique en entrée ;
  • Reconnaître avec exactitude la narration dans un enregistrement audio, indépendamment de la voix, du ton, de l’intonation, du rythme ou du dialecte de l’interlocuteur ;
  • Reconnaître le sens des requêtes exprimées par l’utilisateur peu importe la complexité de la formulation.

Afin de résoudre ces défis, un programme de reconnaissance vocale est une ligne de transformation de données constituée d’une multitude d’étapes interdépendantes.

Comment fonctionne la reconnaissance vocale ?

Il existe plusieurs étapes nécessaires à la construction d’un programme de reconnaissance vocale efficace. Pour bien l’illustrer, prenons l’exemple d’une application de transcription de la narration (speech-to-text) :

  1. La capture du signal sonore : la collecte des données acoustiques se fait à l’aide d’un microphone qui transforme les signaux sonores en impulsions électriques, lesquelles seront par la suite converties en un signal analogique qui sera enregistré sous un format numérique (lisible par un ordinateur) ;
  2. L’utilisation d’un module de traitement du signal : les données acoustiques collectées sont des données brutes qui nécessitent plusieurs étapes de traitement de signal comme, par exemple, sa représentation suivant un domaine fréquentiel pour en extraire uniquement les informations nécessaires ;
  3. L’utilisation d’un modèle de référence : dans le cas de la reconnaissance vocale, on utilisera une base d’échantillons sonores considérés comme un modèle de référence pour mesurer, à titre d’exemple, la correspondance entre une séquence sonore qui représente un mot (échantillon d’un enregistrement) et une nouvelle séquence introduite dans le système, pour laquelle nous cherchons une correspondance ;
  4. L’algorithme de correspondance : l’algorithme de correspondance servira à mesurer la correspondance entre les séquences sonores introduites en entrée et les séquences sonores préenregistrées (représentant l’échantillon mentionné dans la section précédente) qui représentent les mots connus par le système. Les algorithmes d’apprentissage machine sont d’excellents candidats pour effectuer les correspondances (matching algorithms). En effet, une fois les données acoustiques numérisées et normalisées, il est possible de faire appel à un modèle apprenant entrainé à reconnaître et à effectuer la correspondance entre les séquences sonores. Les algorithmes d’apprentissage machine modernes sont particulièrement efficaces dans l’exercice d’identification des similarités et des correspondances ;
    La reconnaissance vocale, comment ça marche ?
  5. L’utilisation des techniques de traitement du langage naturel : une fois les séquences sonores transformées en une représentation textuelle, il est possible d’utiliser les techniques du traitement du langage naturel pour extraire de la sémantique à partir du texte, et faire en sorte que le programme de reconnaissance vocale comprenne le sens qui y est exprimé.