Corrélations : quelques tests (signaux simulés)

Soient et les deux fonctions d'observation (ou les deux variables aléatoires). Il s'agit de vecteurs de taille .

Si et obéissent à des lois normales de variances respectives et et de moyennes nulles. Et si et sont indépendantes, le coefficient de corrélation, l'information mutuelle et le test du sont tous les trois très petits (très proches de 0).

Pour les tests, nous prenons des observations de points. Et pour , la taille de l'histogramme, nous prenons . Une méthode pour déterminer le nombre de cases de l'histogramme à prendre en fonction du nombre de points est la règle de Sturge, qui nous donne ici : .

1.Dépendance linéaire :

Premier cas

est uniformément répartie entre 0 et 1 et est normale, de variance et de moyenne nulle. Voir les figures figu:tt1 et figu:exex1.

Le coefficient de corrélation, l'information mutuelle normalisée et le test du sont égaux à 1 quand . diminue plus vite que le coefficient de corrélation, et le test du plus vite encore, au fur et à mesure que les deux variables aléatoires se décorrèlent.

Second cas

et sont normales, de variances et et de moyennes nulles. Voir les figures figu:tt2 et figu:exex2.

Puisque n'est pas uniformément répartie, n'est pas égale à 1. Du fait de la normalisation, elle est toujours inférieure à 1. Dans le cas normal, et si nous n'avons à notre disposition qu'un histogramme au lieu de la vraie densité de probabilité, nous avons, avec la taille d'une case de l'histogramme :

Dans ce cas, nous obtenons (la définition de est donnée page page:entropie) :

Ainsi, avec , et , nous obtenons . Cette estimation de a été obtenue en calculant la moyenne des obtenus à partir de 1000 observations de . En fait, dépend de l'observation, donc aussi : le problème est que, contrairement au cas du bruit uniforme, ici le domaine de définition de est infini. Dans le cas du bruit uniforme, nous avons : alors, , dans le cas du bruit normal, est égale à . Nous le constatons sur la courbe figu:tt2, quand la variance du bruit additif est nulle, c'est-à-dire quand il n'y pas de bruit additif, c'est-à-dire encore quand .

Pour , ; , ; , ; , ; , ; , .

Remarquons que la valeur de est relativement peu sensible à la variance de la fonction d'observation.

Le test du part de 1. Ensuite, son comportement ressemble à celui de l'information mutuelle.

2.Parabole :

et sont normales, de variances et et de moyennes nulles. Voir les figures figu:tt3 et figu:exex3.

Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement à l'information mutuelle et au test du .

3.Cercle

est uniformément répartie entre et . est égale à et est égale à . et sont gaussiennes de variances et de moyennes nulles. Voir les figures figu:tt4 et figu:exex4.

Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement au test du mais surtout à l'information mutuelle.

4.Sinus

est uniformément répartie entre et . est égale à . est gaussienne de variance et de moyenne nulle. Voir les figures figu:tt5 et figu:exex5.

Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement au test du mais surtout à l'information mutuelle.

5.Arc de cercle

est uniformément répartie entre et , variant entre et . est égale à et est égale à . Voir les figures figu:tt6 et figu:exex6.

Nous voyons que les performances du coefficient de corrélation se détériorent (nous passons par un 0 de corrélation pour =0,5), contrairement à celles de l'information mutuelle et du test du , qui restent à peu près stables.

6.Influence du nombre sur l'information mutuelle

Nous avons pris , , , et , et nous avons refait le premier test avec ces cinq valeurs. Nous obtenons les courbes de la figure figu:cou3. Remarquons que dans tous les cas, avec deux variables aléatoires indépendantes, l'information mutuelle obtenue est petite ().

Nous voyons que l'influence de est très petite.

7.Conclusion

En fait, il faudrait utiliser une mesure de la corrélation entre deux variables aléatoires et telle que si nous ayons , avec une << fonction >> (possibilité de contraintes sur , par exemple en ce qui concerne sa continuité, ou, à la rigueur, sa monotonie ?). Le problème est que nous pouvons toujours faire passer un polynôme par points, du moment que l'ordre de celui-ci soit égal à : donc, nous pouvons toujours déterminer une fonction telle que , même si et ne sont pas corrélées.

Faisons la remarque que dans le cas de la dépendance linéaire, sans bruit, est entièrement déterminée par , et inversement. Nous voudrions donc avoir : . Ce n'est plus le cas dans le cas de la parabole (sans bruit) : est entièrement déterminée par , mais il y a ambiguïté en ce qui concerne par rapport à . Nous avons la même chose dans le cas du sinus. Ainsi, il faudrait que la fonction ne fût pas symétrique dans le cas général : . Les cas du cercle et de l'arc de cercle sont encore particuliers.

Voir l'article de Basseville Article:Bassev. Il existe un grand nombre de moyens pour calculer la corrélation, la distance entre deux variables aléatoires !