Introduction

1.Enjeu

Le travail de thèse présenté dans cet exposé est le résultat de la collaboration de trois centres de recherche : le Centre Commun d'Études en Télécommunications et en Télédiffusion ( ccett) à Rennes, l'Institut de Recherche et Coordination Acoustique/Musique ( ircam) à Paris, et Supélec -- Campus de Metz. Il concerne la segmentation, l'indexation et la manipulation des sons.

L'indexation et la segmentation des sons, quels qu'ils soient (parole, musique, bruit...), d'où qu'ils viennent (radios, bandes son de films, cd...), sont des domaines qui sont en plein essort, du fait notamment de l'émergence de MPEG-7. MPEG-7 est un standard en cours de développement. Sera défini un ensemble d'outils de description de << contenus >> multimédia, pour en faciliter la recherche et l'identification. Ce standard international sera fixé dans les mois qui viennent, normalement en septembre 2001.

Dans cet exposé nous proposons et nous étudions des techniques pour segmenter, étiqueter et, dans une moindre mesure, manipuler les signaux sonores. Nous définissons des objets (un objet est un << segment étiqueté >>). Ces objets sont extraits suivant des procédures hiérarchisées. Cette hiérarchisation se fait au sens d'une description de plus en plus précise des sons. Les étapes de l'extraction sont successives et complémentaires.

Nous nous sommes plus particulièrement intéressé aux signaux sonores musicaux. Relativement à ce qui existe en ce qui concerne la parole, très peu de travaux ont été consacrés à la caractérisation des signaux sonores musicaux. Le premier à s'être intéressé au problème (ou du moins à un problème connexe : la transcription automatique) est Moorer en 1975 dans sa thèse << On the segmentation and analysis of continuous musical sound by digital computer >> (voir Thesis:Moorer). L'objectif de Moorer était la transcription automatique de sons composés au plus de deux voix. Il s'imposa des restrictions importantes, restrictions dont nous voulons nous affranchir.

Notre objectif, dans cette thèse, est de traiter le plus de types de sons musicaux possible (harmoniques, percussifs...), le plus automatiquement possible. Des techniques sont développées et validées pour les sons << simples >>, et sont adaptées pour un certain nombre de sons plus << compliqués >>. Les limitations de ces techniques sont discutées. Un ensemble d'outils informatiques, documentés et utilisables par les trois centres de recherche, a été bâti.

Il s'agit de segmenter les sons en << zones stables >> ou << segments >>, et d'<< étiqueter >> chacun des segments obtenus. Une zone (temporelle) << stable >> correspond à une portion du signal telle que certains paramètres du signal ne changent pas (ou ne varient que peu) sur toute cette zone. Ces paramètres peuvent être : la fréquence fondamentale, l'énergie, le contenu fréquentiel... Segmenter veut dire poser des marques dans le domaine temporel aux moments où le signal << varie brusquement >>, pour passer d'une zone << stable >> à une autre zone << stable >> ; il s'agit de la détection d'<< événements >> et leur localisation temporelle. Une fois que le signal sonore est segmenté, il s'agit d' étiqueter chacun de ses segments afin de les caractériser, de les décrire. Nous obtenons ainsi des << objets >>.

2.Cheminement

Dans un premier temps, nous avons considéré des sons que nous avons appelé << simples >>. Ces sons << simples >> sont monophoniques, c'est-à-dire composés d'une seule voix. Ils sont harmoniques, c'est-à-dire que chaque zone stable est composée d'une somme de sinusoïdes dont les fréquences sont des multiples de la fréquence fondamentale : ainsi, chaque zone stable correspond ici à une note ou à un phone. Et ils sont non modulés, c'est-à-dire que les sinusoïdes composant une zone stable ne sont ni modulées en fréquence (la modulation de fréquence correspond à un vibrato), ni modulées en amplitude (la modulation d'amplitude correspond à un trémolo[Note : Ces définitions du vibrato et du trémolo sont utilisées dans Thesis:Masri, page 82.]). Ainsi, en ce qui concerne la segmentation en zones stables, il s'est agi pour ces sons de les segmenter en notes ou en phones. Les traitements à appliquer dans le cas de ces sons << simples >> ont été développés. Il faut remarquer que l'étiquetage pour ces sons simples consiste principalement à les transcrire, c'est-à-dire à retrouver les notes jouées (ou chantées).



Dans un second temps, nous avons fait la constatation que, pour des sons plus compliqués, c'est-à-dire :

les traitements utilisés pour les sons << simples >> doivent être adaptés, ou même les traitements utilisés pour les sons plus compliqués doivent être différents de ceux appliqués pour les sons << simples >>. Des classes de sons ont été définies : pour chaque classe, il faut redéfinir ce qu'est une << zone stable >>.

La stabilité du signal, du point de vue de la musique, pour un son monophonique et harmonique, est définie ainsi : << nous ne changeons pas de note >> (malgré la présence de vibrato, nous arrivons à perceptivement discerner les notes et à détecter les transitions entre elles). La stabilité du signal, du point de vue de la parole, est définie ainsi : << nous ne changeons pas de phone >>. Il faut noter aussi que dans le cas de la voix chantée, les deux points de vue peuvent se rejoindre ou se confronter.

Donc, pour la musique instrumentale monophonique et harmonique, une zone stable est une note, alors que pour la voix chantée[Note : Nous considérons dans cet exposé que les signaux de voix chantée sont composés d'une suite de zones stables harmoniques : c'est-à-dire que nous considérons que les consonnes non voisées sont absentes de la voix chantée. À ce sujet, voir Article:Castre : << Due to the great predominance of vowels over consonants, we only processed the vowels. >> ], une zone stable est une note, ou un phone.

Ainsi, la définition du terme << zone stable >> dépend :

Chaque classe de sons pose des problèmes nouveaux. La détermination de la classe à laquelle appartient le son considéré a fait l'objet de ce que nous avons appelé la segmentation en caractéristiques.



Dans un troisième temps, nous avons constaté que la musique et la parole ne peuvent pas être traitées à l'identique, puisque la parole[Note : Ce que nous disons ici à propos de la segmentation en zones stables de la parole est purement informel : nous ne traiterons pas la segmentation en zones stables de la parole dans cet exposé. ] est le plus souvent monophonique (une seule personne parle à la fois), non modulée, et constituée d'une rapide succession de zones stables -- une zone stable ici est un phone[Note : Nous ne prenons pas en compte le phénomène de co-articulation. Ce phénomène est l'effet contextuel que produit un phonème sur ses voisins. Il est provoqué par le fait que, lors de la prononciation d'un phonème, l'appareil articulatoire se prépare pour la production du suivant. ] -- harmoniques (les voyelles ou les consonnes voisées) et de zones stables inharmoniques (les consonnes non voisées), alors que la musique peut être monophonique ou polyphonique, modulée ou non, et constituée d'une succession rapide ou non de zones stables composées chacune d'une somme de sinusoïdes (pas forcément harmoniques) auxquelles s'ajoutent ou non de petits bruits (percussions). Donc, avant de segmenter en zones stables, il faut détecter si nous sommes en présence de parole ou de musique. Cette détection concerne ce que nous avons appelé la segmentation en sources.



Dans un quatrième temps, nous avons discuté, pour les sons polyphoniques, de la nécessité ou non de segmenter avant de séparer les sources présentes. Le succès de la séparation de sources, et donc de la transcription automatique de plusieurs sons monophoniques mixés, dépend de la qualité de la segmentation.



Toutes ces remarques nous ont conduit à complexifier la procédure de segmentation, qui a été divisée en trois niveaux de segmentation, hiérarchiquement organisés. Ces niveaux de segmentation échangent des informations, informations qui circulent des niveaux supérieurs vers le niveaux inférieurs. Vient finalement se greffer à ces modules de segmentation un module de séparation de sources. Nous donnons sur la figure figu:tout un résumé schématique de ce que nous venons d'indiquer, et nous donnons dans quelle(s) partie(s) de cet exposé chacun des modules sera plus spécifiquement explicité.

L'objectif étant que les procédures pour segmenter et séparer décrites dans l'exposé soient le plus automatiques possible, au fur et à mesure que nous avons rencontré des paramètres libres (tailles de fenêtre d'analyse, etc.), nous les avons discutés et si possible réduits. Nous avons pour ce faire utilisé des bases de données sonores décrites dans l'exposé. Tout du moins, ces paramètres libres peuvent être contrôlés par l'utilisateur des programmes qui ont été développés au cours de cette thèse.

3.Plan détaillé de l'exposé

La deuxième partie de cet exposé traite de la segmentation en zones stables des sons monophoniques, harmoniques et non modulés. Pour de tels sons, une variation brusque du signal peut avoir lieu :

Le plus souvent, bien sûr, ces trois types de variations brusques sont simultanément présents. Chacun de ces types de variations concerne l'un des trois attributs communément utilisés pour caractériser perceptivement un son[Note : Voir Book:Zwicker, page 4 : << Quand nous entendons un son composé nous percevons en plus d'une sensation d'intensité et de hauteur, une autre sensation qui différencie ce son composé d'un son pur. Nous appellerons ceci le timbre du son composé. >>] : la hauteur (), l'énergie (intensité) et le timbre (ou contenu fréquentiel).

Diverses fonctions d'observation ont été mises en place qui permettent de mettre en évidence ces variations. Ces fonctions d'observation sont, pour la plupart, spécialisées : elles ne sont capables de réagir qu'à un seul type de variations. Alors, dans un second temps, nous devons fusionner les résultats obtenus avec les différentes fonctions d'observation. Cette fusion peut elle-même dépendre de ce que veut l'utilisateur (fonctions d'observation prises ou non en compte) : par exemple, pour la voix chantée, si l'utilisateur veut segmenter en phones, la détection des variations brusques de n'est pas suffisante.

L'utilisation d'un grand nombre de fonctions d'observation a pour objectif aussi de diminuer le nombre de fausses alarmes (nous faisons l'hypothèse qu'à un instant donné dans une zone stable peu de fonctions d'observation réagissent), et d'augmenter le nombre de bonnes détections (nous faisons l'hypothèse qu'à un instant donné correspondant à une transition peu de fonctions d'observation ne réagissent pas). Nous voulons ainsi améliorer la robustesse de la segmentation. Le but de la fusion de données est de prendre en compte les résultats obtenus avec plusieurs capteurs imparfaits pour aboutir à un meilleur résultat que celui obtenu avec un seul des capteurs.

Finalement, l'analyse se décompose en quatre étapes :



Cependant, la présence d'un vibrato gêne la détection des variations brusques de . La présence d'un glissando en fréquence pose problème aussi. De la même façon, la présence d'un trémolo gêne la détection des variations brusques de l'énergie, et la présence d'un glissando en énergie pose problème.

De plus, le signal peut ne pas être harmonique : il peut être percussif, ou être composé de consonnes non voisées : c'est-à-dire que nous sommes en présence de bruit. Les variations brusques ont alors lieu en terme de variation des moments statistiques (, , ...) du signal. Et nous constatons aussi que dans ce cas la détection des variations brusques de n'a plus aucun sens.

Ainsi, les traitements à appliquer pour segmenter en zones stables sont différents suivant que le signal est modulé ou non, suivant qu'il est harmonique ou non, etc. Ce sont des caractéristiques du signal qu'il faut déterminer avant d'opérer la segmentation en zones stables. Cette détermination fait l'objet de la troisième partie de l'exposé. Il s'agit d'une segmentation plus grossière, d'un niveau plus élevé que le précédent. Nous l'avons appelée segmentation en caractéristiques. La segmentation en zones stables de tous les signaux monophoniques (qu'ils soient harmoniques ou non, qu'ils soient modulés ou non) est dès lors possible.

Ce niveau de segmentation en caractéristiques a de plus pour but de nous indiquer quand les seuils, lors de la deuxième étape de l'analyse segmentation en zones stables, doivent être adaptés.

Cette partie traite aussi de la détection du vibrato, problème relevant du niveau de segmentation en caractéristiques. La détection, l'estimation des paramètres et la suppression sur le trajet de du vibrato sont des problèmes auxquels nous nous sommes particulièrement attachés. Pour cette raison, elles font l'objet de la plus grande part de cette partie. Quand un vibrato est détecté, il est intéressant (par exemple pour des modifications du son) et nécessaire (pour la segmentation en zones stables) de le supprimer du trajet de . La plupart des considérations (détection, estimation, suppression) que nous ferons à propos du vibrato (modulation de la fréquence) seront aussi valables pour le trémolo (modulation de l'énergie, ou de l'amplitude).



La quatrième partie de cet exposé traite de la segmentation en zones stables des sons polyphoniques, c'est-à-dire composés d'une somme de voix, chacune étant elle-même harmonique ou inharmonique, modulée ou non modulée.

La plus grande partie des fonctions d'observation utilisées pour la segmentation en zones stables des sons monophoniques peuvent aussi bien s'appliquer pour des sons polyphoniques. Cependant, sont inutilisables toutes celles basées sur .

L'étiquette monophonique/polyphonique est une des caractéristiques dont s'occupe le niveau de segmentation en caractéristiques. Ce niveau de segmentation a principalement pour but d'informer le niveau de segmentation en zones stables des fonctions d'observation qu'il peut utiliser : il est donc nécessaire de détecter la polyphonie avant de segmenter en zones stables.

La séparation de sources consiste à reconstruire les diverses voix d'un son. Elle est différente de la << blind separation >> des antennistes, pour laquelle nous avons moins de sources que d'antennes (ou, à la limite, au moins autant d'antennes que de sources). Dans notre cas, nous n'avons qu'une seule << antenne >> : nous considérons des sons enregistrés en monophonie. La séparation de sources fait aussi l'objet de la quatrième partie de l'exposé.



Nous avons vu que la définition de << zone stable >> diffère suivant la nature du signal considéré :

Il faut donc d'abord, avant de segmenter en zones stables et de segmenter en caractéristiques, déterminer la nature de signal considéré. Ceci fait l'objet d'un autre niveau de segmentation, plus grossier encore que le niveau de segmentation en caractéristiques. Nous l'appelons segmentation en sources. Ce niveau de segmentation fait l'objet de la cinquième partie de l'exposé.

Cette partie traite de la segmentation, par exemple des bandes son de film ou des enregistrements radiophoniques, suivant la nature du son analysé. Deux types de sons sont considérés pour le moment : voix parlée, et voix chantée et/ou musique instrumentale. Des sons d'autres natures devront être considérés : bruits de machines, bruits de rue...

La longueur des segments fournis par le niveau de segmentation en sources peut être de quelques minutes. La longueur des segments fournis par le niveau de segmentation en caractéristiques est communément plus petite : elle est disons de l'ordre de quelques dizaines de seconde. La longueur des segments fournis par le niveau de segmentation en zones stables est le plus souvent inférieure à une seconde. Chaque niveau de segmentation est concerné aussi par l'étiquetage des segments qu'il fournit.

Dans la cinquième partie de cet exposé, nous donnerons aussi les dépendances entre les trois niveaux de segmentation. Elles traitent des informations échangées par les trois niveaux de segmentation définis ( segmentation en parties stables, segmentation en caractéristiques et segmentation en sources). Cette partie traite enfin des relations qui existent entre la segmentation et la séparation de sources.



Nous donnons une conclusion générale à cet exposé, ainsi que des perspectives, dans la sixième partie.



La septième partie rassemble les annexes.