Sauter au menu Sauter au contenu
PraedictIA

Comment fonctionne la reconnaissance vocale ?

Il existe plusieurs interfaces de programmation et applications de reconnaissance vocale et de traitement du signal sonore.

Les plateformes et les interfaces de programmation (API – Application Programming Interface) liées à la reconnaissance vocale

La majorité des plateformes infonuagiques (Google Cloud, Amazon AWS, Microsoft Azure, etc.) offrent aux développeurs d’applications la possibilité de faire appel à des interfaces de programmation (API) leur permettant de bénéficier d’une large gamme de services liés à la reconnaissance vocale et au traitement sonore.

API : comprendre l’essentiel en 4 minutes

Par exemple, il est possible de faire appel à une interface de programmation de traduction automatique pour permettre aux utilisateurs de l’application de transmettre des enregistrements en espagnol et de recevoir automatiquement leurs transcriptions en français.

Les services et les interfaces de programmation les plus utilisés en matière de reconnaissance vocale sont :

  • Google Speech API permet la conversion automatisée du contenu sonore en texte avec un niveau de fidélité plutôt élevé. Cette interface de programmation est très utilisée par les développeurs pour doter leurs applications de commandes vocales permettant de diriger l’utilisateur vers des écrans spécifiques, d’effectuer des recherches vocales, etc.
  • IBM Watson API inclut une série d’interfaces de programmation permettant de faire appel à des fonctions de reconnaissance sémantique à partir d’enregistrements sonores, et bien d’autres options. IBM Watson API permet la personnalisation des modèles de reconnaissance vocale.
  • Microsoft Cognitive Services, les interfaces de programmation de Microsoft, à l’instar de celles de Google et d’IBM, offrent à peu près les mêmes fonctionnalités que celles de ses compétiteurs. Microsoft s’en distingue toutefois par la reconnaissance de l’interlocuteur via l’empreinte vocale.

Exemples d’outils de reconnaissance vocale

Il existe une large panoplie d’applications et d’outils qui utilisent la reconnaissance vocale et les techniques de traitement du signal sonore. Ces outils couvrent plusieurs cas d’usage.

Par exemple, l’application Dragon Anywhere est un logiciel de transcription avancée qui se base sur l’intelligence artificielle et qui est reconnu comme un chef de file international en traitement informatisé de la voix.

Un autre exemple est l’application Duolingo, une des plus populaires au monde dans le domaine de l’apprentissage des langues. Cette application utilise principalement la reconnaissance vocale pour analyser et évaluer la prononciation des apprenants.