Sommaire :

1. Segmentation et indexation des sons/Reconnaissance de l'écriture

2. Segmentation and indexing of sounds/Pen recognition

3. Publications

4. Quelques liens/Links

5.a. e-mail 1 5.b. e-mail 2


Segmentation et indexation des sons




Depuis plusieurs années, je développe des programmes d'indexation semi-automatique/automatique des sons. Je donne, ci-dessous, en guise d'introduction, un résumé de ma thèse.

Mon travail concerne la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent.

1) Le premier niveau de segmentation, appelé << sources >>, concerne la distinction entre la parole et la musique. Les sons considérés peuvent provenir par exemple de bandes-son de films ou d'émissions radiophoniques.

Des fonctions d'observation sont étudiées, qui ont pour objectif de mettre en évidence les propriétés différentes du signal de parole et du signal de musique. Plusieurs méthodes de classification ont été étudiées. Les performances du système avec des signaux réels sont discutées.

2) Le deuxième niveau de segmentation, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato, avec trémolo/sans trémolo. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau de segmentation.

La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de la fondamentale ont été particulièrement étudiées. Un ensemble de techniques sont décrites. Les performances de ces techniques avec des sons réels sont discutées.

Le vibrato est supprimé du trajet de la fondamentale original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de la fondamentale peut être utilisé pour la segmentation en notes (troisième niveau de segmentation) des extraits musicaux, et peut aussi être utilisé pour des modifications de ces sons.

La détection du vibrato est opérée seulement si, lors du premier niveau de segmentation, c'est la source << musique >> qui a été détectée.

3) Le troisième niveau de segmentation concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif...

L'analyse est composée de quatre étapes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en fréquence fondamentale, celles en énergie et celles en contenu spectral. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées.

Les données obtenues pour un certain niveau de segmentation sont utilisées par les niveaux de segmentation de numéro d'ordre supérieurs afin d'améliorer leurs performances.

La longueur des segments donnés par le niveau de segmentation en << sources >> peut être de quelques minutes. La longueur des segments donnés par le niveau de segmentation en << caractéristiques >> est communément plus petite : elle est disons de l'ordre de quelques dizaines de secondes. La longueur des segments donnés par le niveau de segmentation en << zones stables >> est le plus souvent inférieure à une seconde.

La liste de mes articles et de mes rapports est présente ici.

En ce moment, j'unifie entre autres quatre de mes programmes :

  1. segmentation, qui est décrit dans ma thèse :

    thèse au format .pdf.gz (attention, l'impression de la page 175, à cause de la figure 24.2, peut prendre pas mal de temps... ne vous impatientez pas)

    Voir aussi ce (vieux !) lien.

    Il existe une version html de ma thèse. Voir ci-dessous.

    Des améliorations suivront bientôt (notamment, les renvois aux références et à d'autres endroits de la thèse ne marchent pas)... quand j'aurai trouvé le moyen de convertir convenablement les figures .ps en .gif/.jpg., et quand j'aurai nettoyé un peu mon convertisseur tex vers html -tex2html ne me satisfaisant pas pleinement, j'ai décidé de faire mon propre petit convertisseur-.

  2. sources, qui est décrit dans ma thèse lui aussi.
  3. Le pitch-tracker/partial-tracker que j'ai fait pendant mon premier post-doc (post-docs). Il utilise une fenêtre d'analyse à taille variable, s'adaptant au signal à analyser (au pitch, notamment).
  4. Une interface. Idéalement, multimodale, pour qu'elle soit le plus ergonomique possible... et donc pour que l'indexation à la main se fasse, souplement, le plus vite possible... mais bon ! Pourquoi cette interface : pour permettre une indexation semi-automatique, le complètement automatique demeurant encore difficile.

Sinon, je développe d'autres << fonctions d'observation >> (voir la thèse, pour une définition du terme). Basées par exemple sur les HMM, sur les SVM, etc. J'essaie d'utiliser mptk. Je me focalise un peu plus sur des approches plus statistiques. Etc. J'ai travaillé deux ans à l'École Centrale de Lille et à l'INRIA Futurs, d'abord dans le cadre d'une collaboration entre l'École Centrale de Lille et France-Télécom Lannion, puis dans le cadre d'une collaboration entre le CNRS et NTI.

De plus, je m'occupe toujours de la reconnaissance d'écriture (lettres, mots, dessins, etc.)

Et j'écris sur tout ceci...

Depuis le 21 janvier 2008, je suis enseignant-chercheur à Supélec Campus de Metz.


Segmentation and indexing of sounds




I defended my PhD thesis in Signal Processing in July 2000 at the University of Jussieu -- Paris VI, Paris; IRCAM -- Centre Georges Pompidou, Paris; and Supélec (engineer school), Metz (1996-2000). This work was supported by France Télécom Rennes. It deals with the Segmentation and the Indexing of Acoustic Musical Signals. Below is a summary of my PhD thesis.

This work deals with temporal segmentation and indexation of musical signals. Three interdependent schemes of segmentation are defined, which correspond to different levels of signal attributes.

1) The first scheme, named "source" scheme, concerns mainly the distinction between speech and music on movie sound tracks and on radio broadcasts.

Features have been examined: they intend to measure distinct properties of speech and music. They are combined into several multidimensional classification frameworks. The performance of the system is discussed.

2) The second scheme, named "feature" scheme, refers to labels such as: silence/sound, voiced/unvoiced, harmonic/inharmonic, monophonic/polyphonic, with vibrato/without vibrato. Most of these characteristics are features used by the third scheme.

Vibrato detection, vibrato parameter (its frequency and its magnitude) estimation, and vibrato extraction from the fundamental frequency trajectory has been particularly studied. Several techniques are described. The performance of the system is discussed.

The vibrato is extracted from the fundamental frequency trajectory to obtain a no-vibrato melodic evolution. This "flat" fundamental frequency is useful for segmentation of musical excerpts into notes (third scheme), and can also be used for sound modification or processing.

The vibrato detection is operated only when music is identified on the first scheme.

3) The third scheme leads to segmentation into "notes or into phones or more generally into stable sounds", according to the nature of the sound: instrumental part, singing voice excerpt, speech, percussive part...

The analysis is composed of four steps. The first step is to extract a large set of features. A feature will be all the more appropriate as its time evolution presents strong and short peaks when transitions occur, and as its variance and its mean remain at very low levels when describing a steady state part. Three kinds of transitions exist: fundamental frequency transients, energy transients and frequency content transients. Secondly, each of these features is automatically thresholded. Thirdly, a final decision function based on the set of the thresholded features has been built and provides the segmentation marks. Lastly, for monophonic and harmonic sounds, the automatic transcription is done. The performance of the system is discussed.

The data obtained in a given scheme are propagated from lower numbered to higher numbered schemes in order to improve their performance.

I am still developing programs about the automatic/half-automatic segmentation and indexing of sounds. Currently, I am merging four of my programs:

  1. segmentation. Have a look to my PhD thesis (in french):

    PhD thesis .pdf.gz

    See this (old!) link as well: link.

  2. sources. Have a look to my PhD thesis.
  3. The pitch-tracker/partial-tracker I built/began to build during my first post-doc: (post-docs). It uses a size varying sliding window.
  4. An interface. Ideally, it should be multimodal, that is to say as ergonomic as possible, because the automatic segmentation/indexing is not yet fully possible.



Quelques liens/Links

IRCAM

IRISA

Juan Pablo Bello Correa (thesis)_

Leslie Smith

Ma page web officielle à Supélec/My web page at Supélec

Ma page web officielle aux Pays-Bas (vieille)

Nijmegen Institute for Cognition and Information

Supélec - Campus de Metz

Un ami

Une amie





N'hésitez pas à m'écrire ici : Stéphane Rossignol, pour me signaler toute erreur et/ou pour faire profiter le site de tout commentaire.





H-number (07/01/2008) : 6





Nombre de visites :

Référencement gratuit referencement gratuit
référencement marketing
liens sponsorisés