Conclusion générale et perspectives

Conclusion générale

Objectifs

Le premier objectif de cette thèse
était de proposer et de valider des techniques automatiques de segmentation et d'étiquetage des signaux sonores musicaux.

Beaucoup de gens à l' ircam sont intéressés par la segmentation et l'étiquetage : pour la synthèse, pour la structuration d'événements sonores à des niveaux supérieurs, pour l'exploration du phrasé, du geste musical, pour des traitements du son du type psola, etc. Le programme segmentation rend l'utilisation des divers outils de segmentation présentés conviviale, et permet qu'en retour ses utilisateurs nous indiquent les défauts et les bogues présents et nous ouvrent par leurs remarques de nouvelles voies d'exploration. Sur station de travail sous unix, une interface graphique a été développée : elle nous a aidé tout du long de la thèse à trouver des voies pour améliorer nos résultats.

Il s'agissait aussi de donner des étiquettes décrivant les sons, ceci entre autres dans l'optique de MPEG-7. Le ccett aussi bien que l' ircam à travers cuidad prennent part aux discussions à propos de l'élaboration de ce standard.

Le second objectif de cette thèse
était de fournir aux trois centres de recherche collaborant à ce projet des programmes suffisamment finalisés et documentés pour être utilisables.

Deux programmes ont été développés en c au cours de la thèse. Le premier, segmentation, qui a pour but de segmenter en zones stables (voir principalement la partie part:seg_mon_har), rassemble plus de 23000 lignes de code et est disponible en mode ligne de commande à l' ircam pour tous les utilisateurs potentiels. Il a été porté pour l' ircam sous unix sgi, unix alpha et linux ; pour Supélec -- Campus de Metz sous unix sun et sous visual c ; et pour le ccett sous visual c. Le second, sources, qui a pour but de segmenter en sources (voir la partie part:sou), rassemble 3000 lignes de code. Il est porté sur unix sun et unix sgi.

Bilan

La difficulté majeure rencontrée pendant la thèse vient de la grande diversité des sons musicaux. Il ne nous a pas semblé possible de définir un modèle de signal unique pour tous les sons musicaux qui soit plus mathématiquement ou statistiquement précis que : les sons musicaux sont composés de << zones stables >> séparées par des << transitions >>. Il s'est agi ensuite de définir ce que nous entendions par << stable >> et << transition >>. Le système pour segmenter et indexer les sons (principalement les sons musicaux) présenté dans cet exposé répond à ces questions pour un certain nombre de types de sons.



Les études menées pendant les trois ans de thèse ont donné lieu à la publication de plusieurs articles : trois communications référencées Article:Rossi1, Article:Rossi3 et Article:Rossi4 ; et une publication avec comité de lecture référencée Article:Rossi2.



Trois axes de recherche pour des travaux futurs se sont dessinés au cours de la thèse :

Nous détaillons ces perspectives dans le chapitre suivant.

Perspectives

En ce qui concerne la poursuite des travaux présentés dans cet exposé, au cours de la thèse deux voies ont été envisagées. Ou bien nous gardons notre modèle de signal : des << zones stables >>, séparées par des transitions plus ou moins brusques relevant de trois types : transition en fréquence fondamentale, transition en énergie et transition en contenu spectral : ceci concerne les points 1. et 2. donnés à la fin du chapitre précédent. Ou bien nous adoptons un modèle de signal du type statistique ( hmm[Note : Ces techniques sont utilisées en traitement de la parole : voir par exemple Article:Angelini, Article:Brugnara, Article:Falavigna...], rupture de modèles ar...), que nous adaptons pour les signaux sonores musicaux : ceci concerne le point 3. donné à la fin du chapitre précédent. Ce modèle nous permettrait d'éviter entre autres tous les problèmes de fusion de données que nous avons rencontrés.

En ce qui concerne le point 1. les perspectives sont les suivantes :



En ce qui concerne le point 2. , nous nous intéressons à la définition d'une << fonction d'observation >> qui détecte toutes les transitions, qui soit universelle : qui soit insensible aux << petites variations >> de la hauteur (vibrato, glissando) et aux << petites >> variations de l'énergie (trémolo, mort lente d'une note, glissando). Cela peut paraître étrange de vouloir construire une fonction d'observation universelle, puisque, comme nous l'avons dit, suivant ce que désire l'utilisateur, nous voulons pouvoir obtenir plusieurs segmentations en zones stables : mais, alors, l'utilisateur aurait accès à certains << paramètres de contrôle >> de cette fonction d'observation universelle. Ici, nous relâcherions la contrainte sur la différenciation des types de transitions brusques. Le modèle de signal dirait simplement : le son est composé de << zones stables >>, séparées par des transitions brusques.



En ce qui concerne le modèle de signal à utiliser pour la segmentation et l'indexation, il existe en fait au moins trois approches :

La deuxième et la troisième approche ne remettent pas forcément en cause l'existence des deux niveaux de segmentation supérieurs ( segmentation en caractéristiques et segmentation en sources). Par exemple, il est nécessaire de faire la distinction parole/musique avant de segmenter en zones stables :

Aussi, le modèle de signal doit être différent pour la parole et la musique.



Un autre travail a été entrepris qui n'a pas été présenté dans cet exposé. Il s'agit de l'amélioration des indices de voisement à partir de la prise en compte des déformations que les lobes principaux dus aux sinusoïdes subissent dès que celles-ci ne sont plus stationnaires sur la fenêtre d'analyse, c'est-à-dire dès qu'une perturbation, soit un vibrato, et/ou un trémolo, et/ou un glissando en fréquence et/ou en énergie, est présente. Ces déformations suivant la perturbation considérée sont bien différenciées. Quand plusieurs perturbations sont présentes il s'agit de séparer leur influence respective. Le but de ce travail était entre autres de construire la << fonction d'observation universelle >> dont il a été question dans les paragraphes précédents.