Voix personnalisées

En aperçu depuis septembre 2019, Custom Neural Voice, un service de synthèse vocale d’Azure Cognitive Services, est généralement disponible depuis mercredi.

Custom Voice est un ensemble d’outils qui permet à une marque de créer une voix unique reconnaissable, pratiquement pas différenciable d’une voix humaine.

Il est disponible en mode standard et neuronal.

Alors qu’il fallait jusqu’ici des dizaines de milliers de fichiers audio et de transcriptions associées pour obtenir une voix convenable avec le mode standard, quelques centaines de fichiers suffiraient aujourd’hui à entraîner le modèle avec le mode neuronal.

Le danger des voix neurales personnalisées

Et le résultat ressemble tant à une voix humaine que Microsoft a cru bon de fournir des mesures pour déployer une intelligence artificielle responsable, afin d’éviter les abus.

L’accès à la technologie est donc accordé uniquement après que les applications ont été examinées et que l’on s’engage à l’utiliser en conformité avec les principes sur l’IA responsable.

En particulier, la voix ne doit pas être utilisée pour des usages interdits, et l’utilisateur d’un service exploitant cette voix doit être mis au courant qu’il s’agit d’une voix synthétique. Si elle est basée sur la voix d’une personne, sa permission explicite doit être obtenue avant de créer un modèle de voix.

On peut demander l’accès ici.

Fonctionnement

Actuellement, plus de 75 voix standards sont disponibles dans plus de 45 langues et paramètres régionaux.

En revanche, la personnalisation vocale n’est pour l’instant disponible que pour : de-DE, en-GB, en-IN, en-US, es-MX, fr-FR, it-IT, pt-BRet zh-CN.

La documentation des voix neurales personnalisées se trouve ici.

Les principaux scénarios d’utilisation envisagés des voix neurales personnalisées sont : la création de bots de discussion pour le service client, les assistants vocaux, l’apprentissage en ligne, les livres audio, les technologies d’assistance et la traduction en temps réel, les annonces de service public.

Les voix neurales personnalisées reposent sur trois composants principaux de synthèse vocale : l’analyseur de texte, le modèle neural acoustique et le vocoder neural.

Exemples

Langue	Voix	Voix humaine	Synthèse vocale (voix neurales personnalisées)
Chinois (Mandarin, simplifié)	Lina (Hongdandan)
Anglais(Australie)	Thomas
Anglais (Etats-Unis)	Angela
Français (France)	Zoe (Swisscom)
Alemand (Allemagne)	Lara (Swisscom)