Virtual Singer
Aspects techniques de la
voix
Synthèse de la voix chantée
|
En matière de synthèse vocale, parlée
ou chantée, on rencontre trois méthodes principales :
-
la modélisation du conduit vocal,
-
la mise bout à bout d' éléments enregistrés,
-
la synthèse par formants.
La modélisation du conduit vocal | |
Il s'agit de la méthode historiquement la plus ancienne.
Les premières synthèses vocales ont été faites
pour des automates mécaniques en utilisant un ensemble de tubes
et de membranes simulant le conduit vocal.
La mise en oeuvre informatique de ce procédé n'a pour
l'instant pas donné de résultat probant en raison de son
extrême complexité.
La mise bout à bout des éléments
de la voix | |
C'est l'enregistrement d'un chanteur ou d'un locuteur pour mémoriser
les phonèmes ou les assemblages de phonèmes prononcés
afin de les mettre bout à bout en vue de restituer la voix de la
personne. Des algorithmes complexes déforment les phonèmes
enregistrés pour leur faire suivre la prosodie de la voix parlée,
et donnent d'excellents résultats. Ces algorithmes sont cependant
mal
adaptés aux larges plages de fréquences utilisées
dans la voix chantée.
L'inconvénient de ce procédé est d'aboutir à
des fichiers de description de voix très lourds. De plus,
pour définir une autre voix, il est nécessaire d'enregistrer
une autre personne.
L'autre défaut de ce système est que la totalité
des phonèmes d'une langue doivent être prononcés. Pour
fabriquer un logiciel multi-langues, il est donc nécessaire d'enregistrer
une personne parfaitement polyglotte afin d'échantillonner l'ensemble
des phonèmes prononçables dans chacune des langues.
La synthèse par formants | |
Cette synthèse s'appuie sur l'analyse du son constituant
la voix. Les acousticiens se sont en effet aperçus que les résonances
du conduit vocal mettaient en avant certaines plages de fréquence
spécifiques au phonème prononcé. Les acousticiens
ont nommé ces plages de fréquence "formants".
Un formant est caractérisé par sa fréquence
(hauteur) et son énergie (force).
|
Note :
En électronique ou en informatique, le
formant s'apparente à un filtre passe-bande avec résonance. |
|
Dans les années 1960, les premiers dispositifs utilisaient
des filtres électroniques afin de produire des phonèmes reconnaissables.
On s'est alors aperçu que trois à six formants étaient
suffisants pour obtenir un phonème de bonne qualité acoustique.
Les avantages de ce système sont que très peu de données
sont nécessaires pour générer un phonème (la
description des formants étant en théorie suffisante) et
qu'il est beaucoup plus facile d'opérer de légères
modifications à ces données afin d'obtenir des voix différentes.
Cependant, le résultat obtenu est en général moins
réaliste que dans le cas d'une voix enregistrée.
C'est cette troisième méthode qui a été
retenue dans Virtual Singer. |