Le système de reconnaissance de la parole de Microsoft est aussi efficace qu’une personne

Dans un document de recherche,  W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu et G. Zweig de Microsoft Research décrivent leur nouveau système de reconnaissance automatique de la parole.

Pour la première fois, un système informatique obtient un score égal à celui d’un transcripteur professionnel pour la reconnaissance de la parole dans une conversation. Le taux d’erreur (WER) du système s’élève à 5,9 %, sur le test ‘CallHome’ du jeu de test du NIST de 2000.

À titre de comparaison, le meilleur système de reconnaissance automatique de la parole en 1995 obtenait un WER de 43 %. La semaine dernière, à l’occasion de la conférence Interspeech, IBM annoncait un WER de 6,6 % pour son système le plus récent.

D’après Xuedong Huang, le chef des scientifiques de la parole, il s’agit d’un événement historique.

La clé de la performance du système serait l’utilisation systématique de réseaux neuronaux à convolution, de réseaux LSTM (Long short-terme memory, grande mémoire à court terme), d’un nouveau type de lissage spacial, et d’un entrainement acoustique avec information mutuelle maximum sans treillis.

Le système utilise le Computational Network Toolkit, une boîte à outils logicielle conçue pour des systèmes d’intelligence artificielle à très haute performance, et que Microsoft a placé en code source ouvert.

Le nouveau système aura des répercussions concrètes pour les produits grand public comme professionnels de Microsoft, de la Xbox à Cortana, en passant par les outils d’accessibilité comme la transcription instantanée de la parole en texte.

Pour autant, les chercheurs ne se reposent pas sur leurs lauriers. On est encore loin de l’absence totale d’erreurs.

À long terme, le but est que l’ordinateur dépasse la reconnaissance pour atteindre la compréhension des mots qui sont dits.

À plus court terme, les chercheurs veulent améliorer la reconnaissance automatique de la parole dans des conditions réelles : avec bruit de fonds élevé (autoroute, fête), avec interlocuteurs multiples ; et en s’assurant que la reconnaissance fonctionne quels que soient l’âge, l’accent, et la qualité de l’énonciation de l’interlocuteur.