Corrélation et relation causale
Publié : 22 août 2017, 13:52
Pour tenter d'apporter un éclairage sur ce sujet épineux pour certains, je propose une piste de réflexion.
Faire des corrélations qui tiennent la route c'est comparer (au minimum) deux groupes de données.
Par exemple, comparer deux à deux le demi-grand axe des planètes avec leur temps de révolution autour du Soleil.
Respectivement placés en x et en y.
Pour savoir à quel type on a à faire, on peut commencer par utiliser les 4 manières les plus communes:
Le type linéaire : x et y proportionnels.
Le type exponentiel : x proportionnel, y logarithmique.
Le type puissance : x et y logarithmiques.
Le type logarithmique : x logarithmique et y proportionnel.
(4 types que le logiciel Excel permet de trouver facilement avec ses courbes de tendances.)
A chaque type est associé un coefficient de détermination R qu'on élève au carré pour obtenir un nombre positif qui est 1 au maximum
Quand on a établi les 4 types par le calcul, il suffit donc de choisir celui qui donne un R² le plus proche possible de 1.
Si aucun ne convient, on pourra éventuellement passer à d'autres types de corrélations.
Mais ce n'est pas suffisant pour établir une théorie ou un modèle.
Encore faut-il expliquer le sens physique des constantes trouvées.
Pour les planètes, on trouve que le type le plus pertinent est celui qui est nommé "Puissance".
(voir la pièce jointe)
On obtient k1=~0.00172 et k2=~1.5
La loi trouvée ici qui relie a (demi-grand axe) et t (période de révolution) est de la forme
t = k1 * a^k2 (avec t en millions de secondes et a en millions de km)
En élevant le tout au carré on obtient bien la loi de Kepler puisque ~1.5 * 2 = cube, soit
t² = x * a^3 avec x= 0.017254695...² / (10^9m * 10^6 s) = 2.974 * 10^-19 qui est la constante de Kepler.
Malgré ça, la solution mathématique n'explique pas comment déterminer le sens physique de x.
Kepler l'avait trouvé comme étant x = 4 Pi² / (G * Ms), avec G la constante de gravitation et Ms la masse du Soleil.
C'est le sens physique que la corrélation seule n'explique pas.
Comme quoi, faire des corrélations c'est bien mais établir la théorie c'est mieux.
Les conséquences des corrélations pertinentes permettent de faire des prévisions vérifiables.
En examinant le "trou" entre Mars et Jupiter on peut se demander pourquoi il n'y a pas de planète...
Avec la découverte de Cérès et des astéroïdes le problème est résolu, elle peut être considérée comme une planète naine.
A l'autre extrême, en incluant les paramètres de Eris dans les corrélations on confirme encore la loi de Képler et il n'y a aucune raison que ça s'arrête là..
Il faut remarquer que cette 'loi' n'est pas sensée expliquer pourquoi chaque planète occupe cette position, elle ne fait que relier sa distance au Soleil avec sa période de révolution.
C'est clairement une relation causale différente de ce que la Loi de Titus-Bode tentait de formuler.
Autrement dit, corrélation parfaite ne veut pas dire relation causale.
On peut montrer que des corrélations (presques) parfaites(R²=1) n'impliquent pas forcément une relation de cause à effet.
Si, par exemple, on corréle la prise de médicaments pour le cœur avec le nombre de décès, on n'établit pas une relation causale pertinente,
la cause des décès dans ce cas n'est autre que la maladie de cœur des patients et non pas la prise de médicaments.
Une corrélation pertinente serait plutôt de comparer le nombre de décès de ceux qui ne se soignent pas avec ceux qui prennent le médicament.
La relation causale consistant alors à juger de l'efficacité du médicament.
Faire des corrélations qui tiennent la route c'est comparer (au minimum) deux groupes de données.
Par exemple, comparer deux à deux le demi-grand axe des planètes avec leur temps de révolution autour du Soleil.
Respectivement placés en x et en y.
Pour savoir à quel type on a à faire, on peut commencer par utiliser les 4 manières les plus communes:
Le type linéaire : x et y proportionnels.
Le type exponentiel : x proportionnel, y logarithmique.
Le type puissance : x et y logarithmiques.
Le type logarithmique : x logarithmique et y proportionnel.
(4 types que le logiciel Excel permet de trouver facilement avec ses courbes de tendances.)
A chaque type est associé un coefficient de détermination R qu'on élève au carré pour obtenir un nombre positif qui est 1 au maximum
Quand on a établi les 4 types par le calcul, il suffit donc de choisir celui qui donne un R² le plus proche possible de 1.
Si aucun ne convient, on pourra éventuellement passer à d'autres types de corrélations.
Mais ce n'est pas suffisant pour établir une théorie ou un modèle.
Encore faut-il expliquer le sens physique des constantes trouvées.
Pour les planètes, on trouve que le type le plus pertinent est celui qui est nommé "Puissance".
(voir la pièce jointe)
On obtient k1=~0.00172 et k2=~1.5
La loi trouvée ici qui relie a (demi-grand axe) et t (période de révolution) est de la forme
t = k1 * a^k2 (avec t en millions de secondes et a en millions de km)
En élevant le tout au carré on obtient bien la loi de Kepler puisque ~1.5 * 2 = cube, soit
t² = x * a^3 avec x= 0.017254695...² / (10^9m * 10^6 s) = 2.974 * 10^-19 qui est la constante de Kepler.
Malgré ça, la solution mathématique n'explique pas comment déterminer le sens physique de x.
Kepler l'avait trouvé comme étant x = 4 Pi² / (G * Ms), avec G la constante de gravitation et Ms la masse du Soleil.
C'est le sens physique que la corrélation seule n'explique pas.
Comme quoi, faire des corrélations c'est bien mais établir la théorie c'est mieux.
Les conséquences des corrélations pertinentes permettent de faire des prévisions vérifiables.
En examinant le "trou" entre Mars et Jupiter on peut se demander pourquoi il n'y a pas de planète...
Avec la découverte de Cérès et des astéroïdes le problème est résolu, elle peut être considérée comme une planète naine.
A l'autre extrême, en incluant les paramètres de Eris dans les corrélations on confirme encore la loi de Képler et il n'y a aucune raison que ça s'arrête là..
Il faut remarquer que cette 'loi' n'est pas sensée expliquer pourquoi chaque planète occupe cette position, elle ne fait que relier sa distance au Soleil avec sa période de révolution.
C'est clairement une relation causale différente de ce que la Loi de Titus-Bode tentait de formuler.
Autrement dit, corrélation parfaite ne veut pas dire relation causale.
On peut montrer que des corrélations (presques) parfaites(R²=1) n'impliquent pas forcément une relation de cause à effet.
Si, par exemple, on corréle la prise de médicaments pour le cœur avec le nombre de décès, on n'établit pas une relation causale pertinente,
la cause des décès dans ce cas n'est autre que la maladie de cœur des patients et non pas la prise de médicaments.
Une corrélation pertinente serait plutôt de comparer le nombre de décès de ceux qui ne se soignent pas avec ceux qui prennent le médicament.
La relation causale consistant alors à juger de l'efficacité du médicament.