Google programme une voix presque humaine
Date: 12 September 2016 | 5:05 pm
Baptisée WaveNet, l’intelligence artificielle concoctée par Google DeepMind s’appuie sur des échantillons de voix humaine pour recréer ses propres sons et phrases.
La synthèse vocale n’a presque plus de secrets pour Google. DeepMind, sa filiale londonienne spécialisée dans l’intelligence artificielle, a annoncé le 8 septembre la mise au point d’une technologie – WaveNet – capable de générer une voix artificielle quasi indissociable de celle des hommes. Moins hachée et robotisée que les voix synthétiques des GPS et assistants vocaux connus jusqu’à présent, cette dernière prend en compte des paramètres aussi précis que le souffle, le timbre ou les différents bruits produits par la diction.
Pour se démarquer, DeepMind a eu recours au «deep learning», dont l’entreprise a fait sa spécialité. Une telle méthode d’apprentissage lui avait permis de s’illustrer en début d’année lors d’une victoire face à un joueur de go. Elle aura cette fois-ci permis au programme WaveNet de recréer de nouveaux spectres sonores, et donc de nouveaux sons, à partir de 44 heures de discours, prononcés par 109 volontaires différents. Contrairement aux voix synthétiques «traditionnelles», adeptes des banques de sons pré-enregistrées, WaveNet entreprend de décortiquer les sons qui lui sont présentés avant de les reproduire échantillon par échantillon. 16.000 échantillons par seconde peuvent être distingués dans la voix humaine, note le post de DeepMind.
À terme, les chercheurs responsables du projet envisagent de pouvoir apporter encore davantage de modulations aux voix créées, dont des émotions ou accents, pour les rendre plus crédibles.
Une longueur d’avance sur Siri, Cortana et Alexa
Avec le dévoilement de cette technologie, DeepMind réalise un tour de force supplémentaire dans son champ de prédilection: l’imitation du fonctionnement de l’esprit humain. L’entreprise en profite pour distancer ses concurrents, dont Siri (Apple), Cortana (Microsoft) ou encore Alexa (Amazon) en matière de réplication de la voix humaine. Ses performances sont supérieures de 50% à celles des technologies précédentes, à savoir les voix artificielles paramétriques et par concaténation. À titre de comparaison, DeepMind propose deux enregistrements produits grâce à ces techniques, avant de fournir le résultat sonore obtenu par WaveNet.
Voix paramétrique:
Voix obtenue par concaténation:
WaveNet:
Les capacités de cet imitateur inégalé ne se limitent pas à la voix humaine. WaveNet peut également répliquer tout son dont il aura été nourri, dont ceux du piano. L’algorithme a ainsi été capable de reproduire par lui-même un assemblage de sons assimilable à un morceau de musique classique.
Si quelques améliorations méritent encore d’être apportées à la voix de WaveNet pour la rendre parfaitement similaire à une voix humaine, la technologie dévoilée par Google laisse augurer des interactions plus fluides et naturelles entre les machines et leurs utilisateurs.