Soient
et
les deux fonctions d'observation (ou les deux variables aléatoires). Il s'agit de vecteurs de taille
.
Si
et
obéissent à des lois normales de variances respectives
et
et de moyennes nulles. Et si
et
sont indépendantes, le coefficient de corrélation, l'information mutuelle et le test du
sont tous les trois très petits (très proches de 0).
Pour les tests, nous prenons des observations de
points. Et pour
, la taille de l'histogramme, nous prenons
. Une méthode pour déterminer
le nombre de cases de l'histogramme à prendre en fonction du nombre de points est la règle de Sturge, qui nous donne ici :
.

est uniformément répartie entre 0 et 1 et
est normale, de variance
et de moyenne nulle. Voir les figures figu:tt1 et figu:exex1.
Le coefficient de corrélation, l'information mutuelle normalisée
et le test du
sont égaux à 1 quand
.
diminue plus vite que le coefficient de corrélation, et le test du
plus vite encore, au fur et à mesure que les deux variables aléatoires se décorrèlent.
et
sont normales, de variances
et
et de moyennes nulles. Voir les figures figu:tt2 et figu:exex2.
Puisque
n'est pas uniformément répartie,
n'est pas égale à 1. Du fait de la normalisation, elle est toujours inférieure à 1. Dans le cas normal, et si nous n'avons à notre disposition qu'un histogramme au lieu de la vraie densité de probabilité, nous avons, avec
la taille d'une case de l'histogramme :
Dans ce cas, nous obtenons (la définition de
est donnée page page:entropie) :
Ainsi, avec
,
et
, nous obtenons
. Cette estimation de
a été obtenue en calculant la moyenne des
obtenus à partir de 1000 observations de
. En fait,
dépend de l'observation, donc
aussi : le problème est que, contrairement au cas du bruit uniforme, ici le domaine de définition de
est infini. Dans le cas du bruit uniforme, nous avons
: alors,
, dans le cas du bruit normal, est égale à
. Nous le constatons sur la courbe figu:tt2, quand la variance du bruit additif est nulle, c'est-à-dire quand il n'y pas de bruit additif, c'est-à-dire encore quand
.
Pour
,
;
,
;
,
;
,
;
,
;
,
.
Remarquons que la valeur de
est relativement peu sensible à la variance de la fonction d'observation.
Le test du
part de 1. Ensuite, son comportement ressemble à celui de l'information mutuelle.

et
sont normales, de variances
et
et de moyennes nulles. Voir les figures figu:tt3 et figu:exex3.
Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement à l'information mutuelle et au test du
.
est uniformément répartie entre
et
.
est égale à
et
est égale à
.
et
sont gaussiennes de variances
et de moyennes nulles. Voir les figures figu:tt4 et figu:exex4.
Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement au test du
mais surtout à l'information mutuelle.
est uniformément répartie entre
et
.
est égale à
.
est gaussienne de variance
et de moyenne nulle. Voir les figures figu:tt5 et figu:exex5.
Nous voyons que le coefficient de corrélation n'est pas du tout efficace dans ce cas, contrairement au test du
mais surtout à l'information mutuelle.
est uniformément répartie entre
et
,
variant entre
et
.
est égale à
et
est égale à
. Voir les figures figu:tt6 et figu:exex6.
Nous voyons que les performances du coefficient de corrélation se détériorent (nous passons par un 0 de corrélation pour
=0,5), contrairement à celles de l'information mutuelle et du test du
, qui restent à peu près stables.
sur l'information mutuelle
Nous avons pris
,
,
,
et
, et nous avons refait le premier test avec ces cinq valeurs. Nous obtenons les courbes de la figure figu:cou3. Remarquons que dans tous les cas, avec deux variables aléatoires indépendantes, l'information mutuelle obtenue est petite (
).
Nous voyons que l'influence de
est très petite.
En fait, il faudrait utiliser une mesure
de la corrélation entre deux variables aléatoires
et
telle que si
nous ayons
, avec
une << fonction >> (possibilité de contraintes sur
, par exemple en ce qui concerne sa continuité, ou, à la rigueur, sa monotonie ?). Le problème est que nous pouvons toujours faire passer un polynôme par
points, du moment que l'ordre de celui-ci soit égal à
: donc, nous pouvons toujours déterminer une fonction
telle que
, même si
et
ne sont pas corrélées.
Faisons la remarque que dans le cas de la dépendance linéaire, sans bruit,
est entièrement déterminée par
, et inversement. Nous voudrions donc avoir :
. Ce n'est plus le cas dans le cas de la parabole (sans bruit) :
est entièrement déterminée par
, mais il y a ambiguïté en ce qui concerne
par rapport à
. Nous avons la même chose dans le cas du sinus. Ainsi, il faudrait que la fonction
ne fût pas symétrique dans le cas général :
. Les cas du cercle et de l'arc de cercle sont encore particuliers.
Voir l'article de Basseville Article:Bassev. Il existe un grand nombre de moyens pour calculer la corrélation, la distance entre deux variables aléatoires !