Virtual Singer

Aspects techniques de la voix

Synthèse de la voix chantée

En matière de synthèse vocale, parlée ou chantée, on rencontre trois méthodes principales :

la modélisation du conduit vocal,
la mise bout à bout d' éléments enregistrés,
la synthèse par formants.

La modélisation du conduit vocal

Il s'agit de la méthode historiquement la plus ancienne. Les premières synthèses vocales ont été faites pour des automates mécaniques en utilisant un ensemble de tubes et de membranes simulant le conduit vocal.
La mise en oeuvre informatique de ce procédé n'a pour l'instant pas donné de résultat probant en raison de son extrême complexité.

La mise bout à bout des éléments de la voix

C'est l'enregistrement d'un chanteur ou d'un locuteur pour mémoriser les phonèmes ou les assemblages de phonèmes prononcés afin de les mettre bout à bout en vue de restituer la voix de la personne. Des algorithmes complexes déforment les phonèmes enregistrés pour leur faire suivre la prosodie de la voix parlée, et donnent d'excellents résultats. Ces algorithmes sont cependant mal adaptés aux larges plages de fréquences utilisées dans la voix chantée.
L'inconvénient de ce procédé est d'aboutir à des fichiers de description de voix très lourds. De plus, pour définir une autre voix, il est nécessaire d'enregistrer une autre personne.
L'autre défaut de ce système est que la totalité des phonèmes d'une langue doivent être prononcés. Pour fabriquer un logiciel multi-langues, il est donc nécessaire d'enregistrer une personne parfaitement polyglotte afin d'échantillonner l'ensemble des phonèmes prononçables dans chacune des langues.

La synthèse par formants

Cette synthèse s'appuie sur l'analyse du son constituant la voix. Les acousticiens se sont en effet aperçus que les résonances du conduit vocal mettaient en avant certaines plages de fréquence spécifiques au phonème prononcé. Les acousticiens ont nommé ces plages de fréquence "formants".
Un formant est caractérisé par sa fréquence (hauteur) et son énergie (force).

Note :
En électronique ou en informatique, le formant s'apparente à un filtre passe-bande avec résonance.

Dans les années 1960, les premiers dispositifs utilisaient des filtres électroniques afin de produire des phonèmes reconnaissables. On s'est alors aperçu que trois à six formants étaient suffisants pour obtenir un phonème de bonne qualité acoustique.
Les avantages de ce système sont que très peu de données sont nécessaires pour générer un phonème (la description des formants étant en théorie suffisante) et qu'il est beaucoup plus facile d'opérer de légères modifications à ces données afin d'obtenir des voix différentes.
Cependant, le résultat obtenu est en général moins réaliste que dans le cas d'une voix enregistrée.

C'est cette troisième méthode qui a été retenue dans Virtual Singer.