Comment utiliser la reconnaissance vocale ?
La reconnaissance vocale permet aux ordinateurs de traiter le signal acoustique (considéré comme une donnée non structurée), de le transformer en une donnée numérique, puis de le structurer pour en extraire la sémantique afin d’actionner un ensemble de tâches.
Les données acoustiques sont diverses et variées : paroles, sons, bruits, etc. Pour en comprendre le sens, il est important d’exécuter diverses étapes toutes liées au traitement du signal sonore et à la transformation des données formatées de sorte qu’elles soient lisibles par les ordinateurs.
Les technologies de reconnaissance vocale sont de plus en plus utilisées par les différentes industries et même par le consommateur.
La reconnaissance vocale et les interfaces utilisateurs
- La reconnaissance de la parole consiste à collecter un signal acoustique à l’aide de microphones afin de reconnaître les requêtes et les interrogations de l’utilisateur (exprimées par voie vocale). La reconnaissance de la parole s’est popularisée grâce aux récents développements des techniques d’intelligence artificielle liées au traitement de la voix.
- Les agents conversationnels vocaux (voice assistants) sont l’un des artéfacts les plus populaires de cette sous- discipline. Ils permettent aux ordinateurs d’établir une conversation en langage naturel avec l’utilisateur dans le but de répondre à des requêtes, de collecter de l’information ou d’exécuter toute autre tâche prédéfinie.
- De Google Assistant à Siri (Apple), jusqu’à Alexa (Amazon), les agents conversationnels vocaux se popularisent et deviennent omniprésents. Ils se placent comme une interface utilisateur de choix pour le contrôle des appareils connectés (téléphones, téléviseurs intelligents, haut-parleurs, etc.) ou pour tout autre appareil lié à la domotique.
- La performance des agents intelligents d’aujourd’hui a aussi contribué à l’émergence de nouvelles utilisations au sein des organisations.
La reconnaissance vocale et l’identification de l’interlocuteur
- Grâce au timbre de voix, à la manière de s’exprimer et à plusieurs autres caractéristiques parfois subtiles dans la prononciation d’une phrase spécifique, les programmes de reconnaissance vocale peuvent identifier une empreinte vocale qui est unique à chaque utilisateur. Cette capacité de reconnaître une personne avec exactitude, à partir de sa voix, est de plus en plus adoptée par les organisations privées et publiques.
- L’identification vocale est utilisée, par exemple, dans le cadre de la lutte contre le terrorisme, l’empreinte acoustique servant à identifier les individus recherchés.
- Dans des cas plus populaires, l’empreinte vocale des utilisateurs permet aux agents conversationnels de filtrer les instructions de leur utilisateur principal en faisant fi du bruit environnant (sons, paroles, etc.) (Imaginez que vous posiez une question à Siri alors que d’autres personnes discutent autour de vous ou que le téléviseur est ouvert).
La reconnaissance vocale et la transcription
- Avec la combinaison du traitement de signal, de l’intelligence artificielle et du traitement du langage naturel, la reconnaissance vocale est de plus en plus au service de la transcription automatisée. Elle permet de traduire les données vocales en un texte lisible par les humains.
- Cette technique est utilisée, par exemple, dans les nouveaux téléphones intelligents où les messages vocaux sont disponibles sous forme de texte (boîte vocale textuelle). Les mêmes techniques (speech-to-text) sont de plus en plus utilisées pour la transcription des réunions.
La reconnaissance vocale et l’analyse des sentiments
- L’analyse des sentiments à partir de données vocales fait référence à l’utilisation des différentes techniques d’intelligence artificielle, de traitement du signal et du langage naturel pour en déduire les sentiments véhiculés par la voix de l’interlocuteur.
- La reconnaissance des sentiments par le biais de la voix est appliquée pour recenser les impressions des consommateurs lorsqu’ils sont en communication avec les centres d’appel des organisations.
- Cette application croît en popularité auprès des agences de sécurité, des compagnies d’assurances et d’autres organisations; elles s’en servent pour diagnostiquer des sentiments exprimés lors de communications afin de reconnaître d’éventuelles fraudes et de fausses déclarations.