Statistiques, un outils magique !

Tout sur les sciences, que ce soit la chimie, la biologie, l'astronomie etc.
Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Statistiques, un outils magique !

#1

Message par Psyricien » 27 févr. 2013, 00:25

Salut,

Je vais vous faire part d'une petite subtilité de statistique à laquelle j'ai été confronté il y a maintenant 2 ans.
Ceux qui n'ont pas envie de ce creuser les méninges, passez votre chemin ...

Je pense que tous ici vous savez calculer une moyenne ? Bon pour les plus distrait rappelons l'expression de la moyenne pour un ensemble de N valeurs \(X_i\)

\(\bar{X} = \frac{1}{N}\sum X_i\)

Ok, ok certain doivent se dire : "mais il nous prend pour des noeunoeuds le bougre." ... mais non les choses marrantes (enfin marrantes ça dépend du point de vue, hein) arrivent.

Bon maintenant peut-être qu'un peu moins sont familier avec le concept de moyenne pondérée ... par exemple pour optimiser les incertitudes.
En effet souvent on fait mumuse avec des valeurs \(X_i\) qui ont une certaine incertitude. Une façon intelligente de calculer la moyenne devient alors :

\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}}\)

\(\sigma_i\) est l'incertitude respective de chaque valeur \(X_i\)

Ok, ok, on attaque la partie dur ... maintenant certaines valeurs de \(X_i\) peuvent avoir des incertitudes corrélées ... on considère donc la matrice de covariance \(C\) des incertitudes dont les terme diagonaux sont \(\sigma_i^2\) et les termes non diagonaux \(\rho_{i,j}\sigma_i \sigma_j\), avec \(\rho_{i,j} = \rho_{j,i}\) un coeff de corrélation compris obligatoirement entre -1 et 1 indiquant le niveau de corrélation entre les incertitudes sur \(X_i\) et \(X_j\).
Maintenant la moyenne s'écrit:

\(\bar{X} = (1^T .C^{-1} .1)^{-1}. 1^T .C^{-1} . X\)

Avec \(1\) un vecteur de N éléments ne contenant que des 1, \(X\) un vecteur contenant les valeurs \(X_i\) et l'opérateur \(.\) désigne le produit matriciel.

Bon pour ceux qui ne dorment pas encore voici la partie intéressante qui va vous faire mal aux neurones:

Prenez :
\(N = 2\)
\(X_1 = 4.9\)
\(X_2 = 5.0\)
\(\sigma_1 = 1\)
\(\sigma_2 = \sqrt{2}\)
\(\rho_{1,2} = 0.9\)
Calculez la moyenne avec l'expression matricielle (qui donne la valeur la plus proche de la valeur exacte, ce qui est vérifiable en faisant des simulations).
Vous trouvez 4.84 ...
La moyenne de 4.9 et 5.0 est dans ce cas 4.84 ... oui oui, vous lisez bien, la moyenne n'est pas encadrée par les deux valeurs ayant servies à la calculer.

C'est beau les statistiques ...
Comme quoi on peut parfois être confronté à des choses vraiment strange ...

Ce résultat vous surprend ? Ne soyez pas traumatisé, ce résultat surprend aussi des chercheurs aguerri ... C'est toujours marrant de faire saigner le cerveau des collègues ;).
Ceux qui sont encore qu lycée ... parlez en a vos profs de Maths ... y a de grandes chances qu'ils ne vous croient pas :).

Alors ça vous as plu ???
Si certain aime, je posterais peut-être d'autre "weirditée" du monde "statistique" sur ce fil ...

@+,
G> qui espère faire saigner des cerveaux ;).
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Denis
Modérateur
Modérateur
Messages : 19184
Inscription : 03 sept. 2003, 23:22

Délicieux

#2

Message par Denis » 27 févr. 2013, 04:39


Salut Psyricien,

Merci pour ta perle. Je ne la connaissais pas.

J'arrive au même 4.84 (contr'intuitif) que toi.

Pour mieux voir ce qui se passe, on peut considérer le cas "dégénéré" où la corrélation est de 1 (plutôt que 0.9). On a alors une seule liberté et X2 = μ + (σ21)(X1 - μ).

Graphiquement, les valeurs possibles pour (X1 , X2) sont alors alignées le long d'une droite de pente σ21 passant par le point (μ , μ). Je représente ces valeurs possibles par des points (rouges) de masses variables.

Image

Quand on observe un point (X1 , X2) et qu'on connaît la pente σ21 de la droite oblique, l'estimateur "naturel" de μ est le point de cette droite dont les deux coordonnées sont égales.

Il faut donc résoudre (X2 - μ) / (X1 - μ) = σ21.

Avec X1 = 4.9 , X2 = 5.0 , σ1 = 1 et σ2 = 2½, on obtient :

μ = (σ2X1 - σ1X2) / (σ2 - σ1) = 4.6586.

L'effet "paradoxal" est donc encore plus costaud que le 4.84 qu'on obtient avec ρ = 0.9.

En passant, dans le cas dégénéré où ρ = 1.0, tes formules donnent le même μ = 4.6586 que mon raisonnement géométrique. ( j'avoue que j'ai eu chaud :D )

Tu dis :
Alors ça vous as plu ???
Si certain aime, je posterais peut-être d'autre "weirditée" du monde "statistique" sur ce fil ...
J'en ai déjà l'eau à la bouche.

:) Denis
Les meilleures sorties de route sont celles qui font le moins de tonneaux.

Avatar de l’utilisateur
lefauve
Messages : 2098
Inscription : 12 oct. 2011, 05:04

Re: Statistiques, un outils magique !

#3

Message par lefauve » 27 févr. 2013, 07:18

Interessant,

ça fait au moins 15 ans que j'ai fait des stats, ça dérouille.

Petit exercice de physique de secondaire 4:

Dans un cube dont toute les arrêtes sont formé par des résistances 1k @5%
et dont l'alimentation sont deux coins opposés avec un voltage de 12v

Calculer le courant et le voltage de chaque résistance.

C'est un problème simple, mais j'en vue plus d'un ce faire avoir!
L’erreur est humaine.
La catastrophe est informatique.
Le désastre est idéologique.

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Délicieux

#4

Message par Psyricien » 27 févr. 2013, 14:41

Denis a écrit : Tu dis :
Alors ça vous as plu ???
Si certain aime, je posterais peut-être d'autre "weirditée" du monde "statistique" sur ce fil ...
J'en ai déjà l'eau à la bouche.

:) Denis
Alors en petit teaser ...
Le prochain numéro des "Weirdités statistique de tonton Psyricien" s’intitulera : "Stacking art: face the face of God."
Special Guest : Le CMB de WMAP :).
Publication : ce soir si j'ai le temps

@+,
G.
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Florence
Messages : 11491
Inscription : 03 sept. 2003, 08:48

Re: Délicieux

#5

Message par Florence » 27 févr. 2013, 14:59

Psyricien a écrit :
Denis a écrit : Tu dis :
Alors ça vous as plu ???
Si certain aime, je posterais peut-être d'autre "weirditée" du monde "statistique" sur ce fil ...
J'en ai déjà l'eau à la bouche.

:) Denis
Alors en petit teaser ...
Le prochain numéro des "Weirdités statistique de tonton Psyricien" s’intitulera : "Stacking art: face the face of God."
Special Guest : Le CMB de WMAP :).
Publication : ce soir si j'ai le temps

@+,
G.

J'allais dire que tout ceci est de l'Hébreux pour moi, mais en fait, j'ai très nettement moins de peine avec cette langue qu'avec les maths ... bon, je :arrow:

:mrgreen:
"As democracy is perfected, the office of President represents, more and more closely, the inner soul of the people. On some great and glorious day, the plain folks of the land will reach their heart's desire at last and the White House will be adorned by a downright moron." - H. L. Mencken

yquemener
Messages : 2373
Inscription : 09 août 2010, 13:06

Re: Statistiques, un outils magique !

#6

Message par yquemener » 27 févr. 2013, 15:47

Hello,

ça a l'air intéressant, mais je n'arrive pas à comprendre ce que représentent des incertitudes corrélées. Tu aurais un exemple ?

Avatar de l’utilisateur
spin-up
Modérateur
Modérateur
Messages : 6321
Inscription : 23 févr. 2012, 12:01

Re: Statistiques, un outils magique !

#7

Message par spin-up » 27 févr. 2013, 16:14

Si tu prends un couples de variables aleatoires X1 et X2, ca veut dire que pour un tirage du couple X1,X2, les 2 écarts par rapport aux 2 moyennes ne sont pas indépendants.

Exemple simple pour une correlation de 1: les ecarts sont lies par une relation lineaires. Si tu tires X1 avec un ecart e1 par rapport a sa moyenne, X2 aura un ecart e2=a*e1+b par rapport a sa moyenne(a et b sont fixés). La valeur de X1 determine la valeur de X2 (et vice versa).

Pour une correlation inferieure a 1, il ya une composante aléatoire. Si tu traces un nuage de points avec e1 en abscisse et e2 en ordonnees, les valeurs seront distribuées autour de la droite e2=a*e1+b.

J'écris pas de conneries?

PS:merci psyricien pour le casse-tete et Denis pour l'explication graphique. Pas evident quand meme.

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#8

Message par Psyricien » 27 févr. 2013, 16:15

yquemener a écrit :Hello,

ça a l'air intéressant, mais je n'arrive pas à comprendre ce que représentent des incertitudes corrélées. Tu aurais un exemple ?
Exemple d'incertitude non-corrélé, chaque point est indépendant du précédent :
uncorr.jpeg
Exemple d'incertitude corrélé, chaque point n'est pas indépendant du précédent :
corr.jpeg
L'origine d'un bruit corrélé peut être diverse:
-Résidus d'effet physique indésirable
-Filtrage des data
-...

@+,
G>
Vous ne pouvez pas consulter les pièces jointes insérées à ce message.
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Denis
Modérateur
Modérateur
Messages : 19184
Inscription : 03 sept. 2003, 23:22

Termes un tipeu mal choisis

#9

Message par Denis » 27 févr. 2013, 16:15


Salut yquemener,

Tu dis :
je n'arrive pas à comprendre ce que représentent des incertitudes corrélées.
Psyricien a écrit :\(\sigma_i\) est l'incertitude respective de chaque valeur \(X_i\)
(...)
certaines valeurs de \(X_i\) peuvent avoir des incertitudes corrélées ...
Je pense que Psyricien a été un tipeu malhabile en utilisant le mot "incertitude". Seulement un tipeu malhabile car ça n'empêche pas de comprendre de quoi il parle.

Dans le premier cas, il aurait mieux fait fait de parler d'écart-type (plutôt que d'incertitude) et, dans le second cas, parler de distributions corrélées (ou de variations corrélées) plutôt que d'incertitudes corrélées.

Pour les variables corrélées, as-tu besoin d'un exemple?

:) Denis
Les meilleures sorties de route sont celles qui font le moins de tonneaux.

yquemener
Messages : 2373
Inscription : 09 août 2010, 13:06

Re: Statistiques, un outils magique !

#10

Message par yquemener » 27 févr. 2013, 16:35

Ok, les courbes de Psyricien m'éclairent. Ceci dit je trouve un peu étrange de dire que ce sont les écarts-type, et non les valeurs successives elles même, qui sont corrélées.

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#11

Message par Psyricien » 27 févr. 2013, 17:17

yquemener a écrit :Ok, les courbes de Psyricien m'éclairent. Ceci dit je trouve un peu étrange de dire que ce sont les écarts-type, et non les valeurs successives elles même, qui sont corrélées.
Ce sont bien les valeurs successive qui sont corrélées. Ce qui rejaïe en terme de covariance.

Si je parle d'incertitudes ici c'est car je me plaçais dans le cas suivant où

\(X_i = X %2b N_i\)

\(N_i\) est un terme de bruit sur la mesure \(X_i\) de \(X\). Quand je parle de corrélation entre les incertitude, ce sont les corrélation entre les valeurs prises par la variable aléatoire \(N_i\).

@+,
G>
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Cogite Stibon
Messages : 3300
Inscription : 16 févr. 2012, 13:19

Re: Statistiques, un outils magique !

#12

Message par Cogite Stibon » 27 févr. 2013, 18:00

Salut Psyricien, et merci beaucoup pour l'ensemble de tes contributions.

Je suis en train de me creuser les méninges pour arriver à bien comprendre ce que tu dis, et je bloque dès la deuxième formule :
Psyricien a écrit :\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}}\)

\(\sigma_i\) est l'incertitude respective de chaque valeur \(X_i\)
Si je prends
\(X_1 = 0\)
\(X_2 = 1\)
\(\sigma_1 = 0.1\)
\(\sigma_2 = 0.1\)
J'obtiens
\(\bar{X} = 0.5\)
c'est à dire la même chose que la moyenne arithmétique, ce qui me semble logique quand les incertitudes sont les mêmes.

Si je prends
\(X_1 = 0\)
\(X_2 = 1\)
\(\sigma_1 = 0.5\)
\(\sigma_2 = 0.1\)
J'obtiens
\(\bar{X} = 0.961538462\)
La moyenne devient "se rapproche" de \(X_2\), ce qui me semble logique, car une valeur avec plus d'incertitude a moins de "poids" dans la moyenne, mais ce qui m'etonne, c'est qu'elle soit aussi proche de \(X_2\) - Je m'attendais à une valeur de l'ordre de \(\bar{X} = 0.75\)

Et si je prends
Si je prends
\(X_1 = 0\)
\(X_2 = 1\)
\(\sigma_1 = 0.0000005\)
\(\sigma_2 = 0.0000001\)
J'obtiens toujours
\(\bar{X} = 0.961538462\)
Et je ne comprends pas que d'aussi petites incertitudes puissent avoir un tel impact sur la moyenne.

Je dois certainement raisonner tordu quelque part, mais je ne vois pas où.

Cogite
Pour les échantillons statistiques, comme dans d'autres domaines, il n'y a pas que la taille qui compte.
Raisonner a l'instinct sur des problemes de probabilites, c'est le desastre assuré. (Spin Up)
Une graphe sans échelle, c'est bon pour la poubelle

Avatar de l’utilisateur
spin-up
Modérateur
Modérateur
Messages : 6321
Inscription : 23 févr. 2012, 12:01

Re: Statistiques, un outils magique !

#13

Message par spin-up » 27 févr. 2013, 18:17

Cogite, je ne sais pas comment tu calcules mais ca me parait faux. Si X1 et X2 ne sont pas correlees, quel que soit leurs ecart-types respectifs, la moyenne est toujours de 0.5. Je n'ai pas de demonstration mathematique, j'ai vérifié par simulation.
Cogite Stibon a écrit : La moyenne devient "se rapproche" de \(X_2\), ce qui me semble logique, car une valeur avec plus d'incertitude a moins de "poids" dans la moyenne, mais ce qui m'etonne, c'est qu'elle soit aussi proche de \(X_2\) - Je m'attendais à une valeur de l'ordre de \(\bar{X} = 0.75\)
Ca, en particulier, n'a pas l'air vrai.

Avatar de l’utilisateur
Cogite Stibon
Messages : 3300
Inscription : 16 févr. 2012, 13:19

Re: Statistiques, un outils magique !

#14

Message par Cogite Stibon » 27 févr. 2013, 18:33

spin-up a écrit :Cogite, je ne sais pas comment tu calcules mais ca me parait faux. Si X1 et X2 ne sont pas correlees, quel que soit leurs ecart-types respectifs, la moyenne est toujours de 0.5. Je n'ai pas de demonstration mathematique, j'ai vérifié par simulation.
Salut Spin,

J'ai juste appliqué la deuxième formule de Psyricien, celle où il pondère les valeurs par l'inverse du carré de leur incertitude, sans se préoccuper d'une corrélation entre ces incertitudes. C'est sur celle là que j'ai bloqué, je ne suis pas allé plus loin.

Je viens de vérifier mes calculs, ils me semblent corrects.
Psyricien a écrit :\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}}\)

\(\sigma_i\) est l'incertitude respective de chaque valeur \(X_i\)
\(X_1 = 0\)
\(X_2 = 1\)
\(\sigma_1 = 0.5\)
\(\sigma_2 = 0.1\)
J'obtiens
\(\sigma_1^{-2} = 0.5^{-2} = 4\)
\(\sigma_2^{-2} = 0.1^{-2} = 100\)
\(\sum \sigma_i^{-2} = 4 %2b 100 = 104\)
\(\sum X_i \sigma_i^{-2} =0 * 4 %2b 1 * 100 = 100\)
\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}} = \frac {100}{104} = 0.961538462\)

A priori, ce n'est pas dans mes calculs qu'il y a un problème, mais plutôt dans l'interprétation que j'en fais.
Pour les échantillons statistiques, comme dans d'autres domaines, il n'y a pas que la taille qui compte.
Raisonner a l'instinct sur des problemes de probabilites, c'est le desastre assuré. (Spin Up)
Une graphe sans échelle, c'est bon pour la poubelle

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#15

Message par Psyricien » 27 févr. 2013, 18:42

Salut Cogite,

ici vous mettez un écart d'un facteur 5 au niveau de l'écart type ... soit 25 en terme de variance c'est énorme :).

Il n'est pas surprenant dans ce cas que la moyenne soit entièrement dominé par la valeur la moins "noisy" des deux valeurs.

Pour s'en convaincre prenons la barycentre des points [0,1] avec des poids respectif [1,25]
On trouve : 25/26 = 0.96153

Les poids qui optimise la moyenne dépende de la variance. D'où la différence :).

Amicalement,
G>
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Cogite Stibon
Messages : 3300
Inscription : 16 févr. 2012, 13:19

Re: Statistiques, un outils magique !

#16

Message par Cogite Stibon » 27 févr. 2013, 18:59

J'ai toujours du mal à comprendre.
Prenons un autre exemple :
Je mesure ^deux cotés d'une pyramide avec télémêtre laser ayant une précision de 1mm. J'obtiens, à chaque fois, une longueur de 1000,000m +- 1mm
Un atlante mesure les deux autres côtés avec un télémêtre laser quantique ayant une précision de 2mm. Il obtient, à chaque fois, deux longueur de 1001,000m +- 2mm

Si votre formule s'applique dans ce cas, alors la longueur moyenne des côtés est de 1000,200m au lieu de 1000,500m avec une moyenne simple, soit une différence de 300mm quand les incertitudes ne sont que de 1mm et 2mm respectivement.

J'imagine donc que dans mon exemple, votre formule n'est pas adaptée. Auriez-vous un exemple concret d'application de cette formule ?

Merci
Cogite
Pour les échantillons statistiques, comme dans d'autres domaines, il n'y a pas que la taille qui compte.
Raisonner a l'instinct sur des problemes de probabilites, c'est le desastre assuré. (Spin Up)
Une graphe sans échelle, c'est bon pour la poubelle

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#17

Message par Psyricien » 27 févr. 2013, 21:59

Cogite Stibon a écrit :J'ai toujours du mal à comprendre.
Prenons un autre exemple :
Je mesure ^deux cotés d'une pyramide avec télémêtre laser ayant une précision de 1mm. J'obtiens, à chaque fois, une longueur de 1000,000m +- 1mm
Un atlante mesure les deux autres côtés avec un télémêtre laser quantique ayant une précision de 2mm. Il obtient, à chaque fois, deux longueur de 1001,000m +- 2mm

Si votre formule s'applique dans ce cas, alors la longueur moyenne des côtés est de 1000,200m au lieu de 1000,500m avec une moyenne simple, soit une différence de 300mm quand les incertitudes ne sont que de 1mm et 2mm respectivement.

J'imagine donc que dans mon exemple, votre formule n'est pas adaptée. Auriez-vous un exemple concret d'application de cette formule ?

Merci
Cogite
Que puis-je vous dire sinon que "ma" formule ... est juste une maximisation de la fonction de vraisemblances, où une minimisation de Chi-2.

Ici votre formulation est incomplète. Où vous oubliez des termes au niveau de la variance ... où votre modèle est mauvais.
-Vous supposez dans ce problème que les 4 cotés doivent avoir la même longueur ! Ce n'est pas forcément valide, vous n'incluez dans votre incertitude que l'incertitude sur la mesure, et non la variabilité intrinsèque de la grandeur que vous souhaitez décrire par une moyenne.
En gros vous avez générez ici des faces avec une variabilité d'environ 0.57 m (1001,1001, 1000 et 1000m) grandes devant les incertitudes, cette variabilité intrinsèque doit être propagé à la matrice de covariance ... sinon cela ne fait aucun sens.

Cela signifie simplement que au choix :
-Décrire la quatre face par une valeur moyenne + une incertitude de mesure n'est pas un modèle satisfaisant (vous devez ajouter une variabilité qui viens de la physique de l'objet mesuré, et non seulement des incertitudes de mesure)
-L'une des deux (où les deux) mesure est biaisé, car si les 4 face ont la même taille ces mesure sont hautement inconsistantes.

Attention à ce que l'on faire dire au stats ... ici vous n'êtes pas si loin de dire:
-J'ai 3 choux
-J'ai 20 carotte
-->Donc 11.5 choux-carotte

@+,
G>
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Denis
Modérateur
Modérateur
Messages : 19184
Inscription : 03 sept. 2003, 23:22

La base de ta pyramide n'est pas carrée

#18

Message par Denis » 27 févr. 2013, 22:03


Édit : Psyricien m'a précédé par 4 minutes. Misère!

Salut Cogite,

Si des mesures précises à ± 1mm et ± 2mm présentent un écart de 1000mm, j'en déduis surtout que ta pyramide a une base rectangulaire (ou en forme de cerf-volant, avec deux côtés courts et deux longs) plutôt que carrée.

J'interprète ce que tu appelles précision comme signifiant écart-type. Ce n'est pas clair dans ta question et la "précision" est souvent définie comme valant 2 écarts-types (ce qui correspond à environ 95% de confiance) ou même à 3σ (pour encore plus de sécurité).

Pour revenir à ton problème, on dispose de 4 mesures X1, X2, X3 et X4, valant respectivement 1000000, 1000000, 1001000 et 1001000mm. On sait aussi que les variances (σ²) de ces 4 mesures valent respectivement 1, 1, 4 et 4 mm².

La somme de tes 4 mesures vaut donc 4002000mm et la variance de cette somme vaut 1+1+4+4 = 10mm² (la variance d'une somme de variables indépendantes est la somme des variances de chacune). L'écart-type de la somme vaut donc (10 mm²)½ = 3.16mm.

La moyenne de tes 4 mesures vaut donc 1000500mm et son écart-type vaut le quart de 3.16mm, soit 0.79mm.

Ta pyramide a donc un côté moyen de 1000500 ± 0.79mm.

Le "bobo", dans ton exemple, c'est que tu considères des moyennes de machins qui n'ont pas, au départ, la même moyenne. C'est un peu comme si tu voulais calculer le poids moyen d'un lot d'oeufs dans lesquels il y a des oeufs de poule et des oeufs d'autruche. Quel est le sens d'une telle moyenne?

Les formules de Psyricien s'appliquent normalement au cas où toutes les variables ont une moyenne commune ( μ ) à estimer. Si tu mêles des oeufs de poule et des oeufs d'autruche (ou des côtés courts et des côtés longs), il faut être prudent dans l'interprétation des résultats.

:) Denis
Les meilleures sorties de route sont celles qui font le moins de tonneaux.

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#19

Message par Psyricien » 28 févr. 2013, 00:28

Bonsoir à tous,

Voici donc le second épisode de mes délire "Weirdique" sur l'analyse de données ... et les moment où celle-ci vous fait peur.

Ce soir, nous allons parler de stacking ... pour les non-anglophone, nous allons empiler des choses !

Dans certains cas, quand vous étudié un phénomène, votre "signal sur bruit" (le rapport entre la valeur que vous voulez mesurer et l'incertitude associée) est faible au cas par cas.
Il peut alors devenir intéressant d'empiler plein d'observables pour "augmenter" ce signal sur bruit.

Intuitif me direz vous ? Oui en effet, cependant comme toujours vaut faire gaffe à ce que l'on fait ;).

Revenons un peu dans le passé ... il y a de cela houlala pas loin de 4 ans maintenant ... j'essayais de mettre en évidence l'effet ISW sur le CMB
Qu'est-ce que cet effet bizarre ? Et c'est quoi le CMB d'abors ? ... Et non ce n'est pas Crédit Mutuel de Bretagne (désolé les fans de Google) !

Le CMB c'est ça :
http://fr.wikipedia.org/wiki/Fond_diffus_cosmologique
C'est le plus vieux rayonnement de l'Univers qu'il nous ais possible de mesurer, il as été émit au moment où l'Univers est devenu assez froid pour que les premiers noyaux atomique capture les électrons libres, qui jusque là empêchait les photons de se balader tranquillement tous seul.

L'ISW c'est ça :
http://fr.wikipedia.org/wiki/Effet_Sach ... A9gr%C3%A9
C'est un effet qui intervient quand les puits de potentiel gravitationnel varient au cours du temps. Ainsi si vous étiez un photons, et que vous descendiez dans un puits de potentiel, vous gagneriez de l'énergie, mais pour sortir il faudrait rendre cette énergie. Hors si l'amplitude du puits de potentiel varie au cours du temps, le bilan énergétique entre l'entrée dans le puits et la sortie (qui ne se passe pas au même instant "t") n'est pas nulle ... l'énergie du photons à donc changée ...

Comment on détecte ça ?
L'effet est faible, impossible à voir au cas par cas ... on va donc empiler. L'idée c'est que cette effet est corrélé avec la distribution de matière (potentiel gravitationnel) ... donc une approche possible est d’empiler les régions du ciel où il y a une forte densité de matière, pour amplifier l'effet et le détecter.

Bon, après cette bref séquence culture revenons à nos moutons ... empilons des choses ! Ici la carte du CMB, celle-ci plus précisément:
http://www.astro.rug.nl/~hidding/ao/wmap_groot.png

Comment on fait pour empiler des cartes.
Et bien on choisit les pixels que l'on veut empiler, ensuite on fait tourner la carte pour amener successivement chaque pixels au centre. Puis l'on sommes successivement chacune des cartes tournées. On effectue la somme sur l'ensemble du ciel et pas uniquement le pixel central car on s'intéresse à un signal étendu.

Ici j'ai refait l'exercice, mais en empilant des positions aléatoires (donc apriori après un grand nombre de carte empilées on s'attendrait à naïvement tendre vers une carte isotrope de valeur la moyenne de la carte initiale ... que néni, let's see).

Me direz vous, que peut-il bien arriver ?
Au début pas grand chose ... mais après avoir tourné puis empilés un bon millier de cartes on vois ceci apparaitre sous nos yeux:

http://img15.hostingpics.net/pics/901489cmbstack.png
cmb_stack.png
A partir de là deux réaction sont possible:

1) La réaction zozos, où encore la réaction Bogdanoff: "Oh my god, j'ai trouvé le visage de Dieu".
Bah oui voyons, on voit clairement les yeux (en rouge), le nez, les cheveux (en rouge aussi). Je peut même vous dire qu'il as l'air bien fatiguer ... regardez un peu ces grosses cernes bleu sous ces yeux ;).

2) La réaction normal : WTF ....
bah voui comment ce faisse ... j'ai sommé des positions aléatoires ... y a absolument aucune raison de voir un signal cohérent apparaitre ...

Explications:

En effet en stackant des positions aléatoires, il n'y a aucune raison qu'un signal cohérent apparaissent, si vous êtes sur un plan ...
Mais le ciel n'est pas un plan, c'est une foutu surface de sphère. Et une surface de sphère ça des propriété de symétrie un peu chiantes ;)

Une surface de sphère peut ce décomposer sur une base d'harmonique sphériques:
http://fr.wikipedia.org/wiki/Harmonique_sph%C3%A9rique
C'est une base avec des symétries sympa ... chaque fonction de la base peut-être décrit par deux nombre : l et m
Étudions un peu les rotations que nous avons utilisez:
Ici j'ai utilisé 2 rotations (d’abords mettre la longitude à 0 (rotation d'axe z) puis mettre la latitude à 0 (rotation d'axe y)), si on le regarde comment ce comporte chaque harmonique sphérique celons ces rotations ont conclu que :
-Toutes les harmonique sphérique avec m ≠ 0 s'annule progressivement (si les pixels utilisez sont aléatoirement distribué sur le ciel de façon homogène)
-Toutes les harmonique avec m = 0 ne s'annule pas via ces rotations ... d'où notre soucis ;).
Ce qui produit un effet systématique sur la carte final ...
Il est possible de faire l'inverse, annuler les m=0, mais dans ce cas se sont les m≠0 qui ne s'annule plus ... conduisant également à des systématiques (plus important, le nombre de modes m=0 étant plus petit que le nombre de modes m≠0).

Voici comment tout pennaux, ont peut faire apparaitre la "Face of God" à partir de n'importe quel carte du ciel (on pourrait aussi avec une carte complètement random) ... Juste en ne faisant pas attention à ce que l'on fait.
Vous avez déjà lu des papiers qui parle de stacking sur le ciel ? ... il ne parle pas de cet effets ? Normal, la plupart ignore qu'il existe, et qu'il faut soit débiaisé le stacking final de cette effet (mais c'est long), soit faire tourner les différentes harmonique sphériques selon deux type de rotations différentes (seulement valable si votre signal est à symétrie sphérique).

Quel sont les rotations à appliquer :
-m≠0 : successivement, rotation d'axe z (angle=-longitude), rotation d'axe y (angle=-colatitude), rotation d'axe x (angle=0)
-m=0 : successivement, rotation d'axe z (angle=-longitude), rotation d'axe y (angle=-colatitude), rotation d'axe x (angle=longitude)

Ca fait mal à la tête hein ? Mais au moins, les images sont jolies :).
Ah une prochaine fois pour une nouvelle "weirdité" ...
Vous ne pouvez pas consulter les pièces jointes insérées à ce message.
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Denis
Modérateur
Modérateur
Messages : 19184
Inscription : 03 sept. 2003, 23:22

Costaud, ton problème

#20

Message par Denis » 28 févr. 2013, 02:39


Salut Psyricien,

Merci pour l'exposé aussi divertissant que sérieux. Instructif, aussi.

Tu dis :
ont peut faire apparaitre la "Face of God" à partir de n'importe quel carte du ciel (on pourrait aussi avec une carte complètement random) ... Juste en ne faisant pas attention à ce que l'on fait.
Si on obtient la même image à partir d'un bruit blanc à grain fin, il s'agit d'un phénomène qui relève plus des maths pures que de la cosmologie.

Quand tu parles de débiaiser cet effet, je suppose que ça signifie "modifier l'image originale de telle sorte qu'en lui réappliquant ton traitement numérique, l'effet soit disparu". Tu espères que cette image modifiée révélera des machins intéressants? C'est une espérance légitime. Quoi qu'il en soit, je te souhaite du succès dans tes recherches.
Ca fait mal à la tête hein ? Mais au moins, les images sont jolies :).
Pour te changer les idées, je te laisse avec un petit problème de probabilités (les anciens du forum vont trouver que je me répète) :

Un sac contient 6 balles blanches et 12 balles noires. Hors du sac, on dispose d'une réserve inépuisable de balles noires ou blanches.

Départ : On tire deux balles du sac (sans remise).
Si elles sont de même couleur, on les remplace par une balle blanche.
Si les deux balles tirées sont de couleurs différentes, on les remplace par une noire.
Quoi qu'il en soit, le nombre de balles, dans le sac, vient de passer de 18 à 17.
Retour au départ... à moins qu'on ne puisse plus tirer deux balles.
Quand, en fouillant le sac, on n'y trouve qu'une seule balle, le jeu s'arrête. Quelle est la probabilité que cette balle soit blanche?

Si mon problème est trop facile, j'essayerai de faire mieux la prochaine fois.

:) Denis
Les meilleures sorties de route sont celles qui font le moins de tonneaux.

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#21

Message par Psyricien » 28 févr. 2013, 03:54

Si on obtient la même image à partir d'un bruit blanc à grain fin, il s'agit d'un phénomène qui relève plus des maths pures que de la cosmologie.
On obtient aussi une image de ce style ... pas tout à fait la même.
En fait la figure de résidus final dépend des coefficients de la décomposition sur la base des harmoniques sphériques. Donc ta figure dépend un peu des propriété de ton signal initial.

Mais en effet il s'aggit la d'un problème de math pure.

Quand tu parles de débiaiser cet effet, je suppose que ça signifie "modifier l'image originale de telle sorte qu'en lui réappliquant ton traitement numérique, l'effet soit disparu".


En l’occurrence c'est plutôt un truc du genre:
Le résidus produit par chaque harmoniques sphériques (m=0) est calculable, ainsi si l'on connait la décomposition sur la base des harmonique sphériques de notre carte, il est trivial de prédire la forme du résidus.
L'idée est donc de soustraire la partie du signal produite par le systématique (d'origine mathématique impliquant les symétrie de la sphère), et donc de ne laisser que l'éventuel signal physique.

Un sac contient 6 balles blanches et 12 balles noires. Hors du sac, on dispose d'une réserve inépuisable de balles noires ou blanches.

Départ : On tire deux balles du sac (sans remise).
Si elles sont de même couleur, on les remplace par une balle blanche.
Si les deux balles tirées sont de couleurs différentes, on les remplace par une noire.
Quoi qu'il en soit, le nombre de balles, dans le sac, vient de passer de 18 à 17.
Retour au départ... à moins qu'on ne puisse plus tirer deux balles.
Quand, en fouillant le sac, on n'y trouve qu'une seule balle, le jeu s'arrête. Quelle est la probabilité que cette balle soit blanche?

Si mon problème est trop facile, j'essayerai de faire mieux la prochaine fois.
Alors formalisons le problème :).
Si je tire 2 blanche ... j'en remet une, bilan : 1 blanche en moins
Si je tire 2 noire ... je remet une blanche, bilan : 1 blanche en plus et 2 noir en moins
Si je tire 1 noire et une blanche ... je remet une noire, bilan : 1 blanche en moins

Ah, ah ... jolie feinte. Comme on peut le voir, la modification du nombre de blanche ce fait exclusivement par pas de 1, et celle de noir par pas de 2.
Sachant qu'à la fin on veut avoir 1 seul bouboule ... et que l'on part de 12 bouboule noires ... on ne peut pas avoir 1 seule bouboule noire par construction.

La probabilité que la dernière boule soit blanche est de 1 :)

Conclusion:
-Si on démarre avec un nombre pair de boules noire : La dernière sera blanche
-Si on démarre avec un nombre impair de boule noire : La dernière sera noire

Maintenant, comment j'ai trouvé la solution:
-->Les 5 premières minutes, je me lance en live, je commence à calculer la proba de chaque cas (ça fait que \(2^{17}\) chemins possible me dis-je). Puis ensuite je me rend compte que franchement ça va pas être trivial à coder, alors je me ravise ... :).
-->Les 5 minutes qui suivent, je code un petit programme de simulations qui fait ce petit jeu. Je le lance (après deux-trois bugs de circonstance, vu l'heure et mon état de délabrement), la dernière boule est blanche ... je le relance encore: blanche ... une 10aine de blanche plus tard, je commence à saisir le truc ...
-->Les 5 minutes suivantes, je rétro-ingénierie (sachant ce que je doit trouver), pourquoi ça ne me sort que des blanches. Et enfin je comprend ... ouf ça aura été laborieux ;).

Au final, ma méthode, loin d'être conventionnel, m'aura tout de même permit de trouver la solution.
On remarquera que dans l'ordre j'ai choisit les approches:
-Bourrin
-Feignant
-Intelligent
... je m’abstiendrais de toute conclusion, qui risquerais de ne pas être à mon avantage ....

@+,
G
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
Denis
Modérateur
Modérateur
Messages : 19184
Inscription : 03 sept. 2003, 23:22

L'harmonie des sphères

#22

Message par Denis » 28 févr. 2013, 08:15


Salut Psyricien,

Tu dis :
Au final, ma méthode, loin d'être conventionnel, m'aura tout de même permit de trouver la solution.
On remarquera que dans l'ordre j'ai choisit les approches:
-Bourrin
-Feignant
-Intelligent
Je m'attendais bien à ce que mon petit qwicky ne te résiste pas longtemps.

J'ai eu du mal à me décider sur les nombres de départ (6 et 12). Si j'avais mis trop peu de boules, disons 2 blanches et 2 noires, tu aurais tout dénombré aisément et ton approche "bourrin" aurait tout de suite réglé l'affaire. À l'opposé, si j'avais mis des zillions de boules, tu serait tout de suite passé à l'approche "intelligent". L'étape intermédiaire (Feignant) a quand même été bien utile en débusquant une conjecture (la dernière boule est toujours blanche). L'intelligence n'avait plus qu'à prouver cette conjecture et à en tirer une solution générale applicable à tout (n1,n2) de départ.

Si tu as passé 5 minutes dans chacun des 3 cas, ça montre que mon choix de nombre de boules n'était pas mauvais.

Mais ton problème sur les harmonies sphériques est diablement plus costaud que le mien. Il aborde presque l'harmomie des sphères, chère aux anciens. :D

Bon courage!

:) Denis
Les meilleures sorties de route sont celles qui font le moins de tonneaux.

Avatar de l’utilisateur
spin-up
Modérateur
Modérateur
Messages : 6321
Inscription : 23 févr. 2012, 12:01

Re: Statistiques, un outils magique !

#23

Message par spin-up » 28 févr. 2013, 10:30

Cogite Stibon a écrit :rrects.
Psyricien a écrit :\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}}\)

\(\sigma_i\) est l'incertitude respective de chaque valeur \(X_i\)
\(X_1 = 0\)
\(X_2 = 1\)
\(\sigma_1 = 0.5\)
\(\sigma_2 = 0.1\)
J'obtiens
\(\sigma_1^{-2} = 0.5^{-2} = 4\)
\(\sigma_2^{-2} = 0.1^{-2} = 100\)
\(\sum \sigma_i^{-2} = 4 %2b 100 = 104\)
\(\sum X_i \sigma_i^{-2} =0 * 4 %2b 1 * 100 = 100\)
\(\bar{X} = \frac{\sum X_i \sigma_i^{-2}}{\sum \sigma_i^{-2}} = \frac {100}{104} = 0.961538462\)

A priori, ce n'est pas dans mes calculs qu'il y a un problème, mais plutôt dans l'interprétation que j'en fais.
Le calcul est OK mais alors je ne comprends pas du tout la signification de \(\bar{X}\), je ne vois pas en quoi la difference d'incertitude pondère la moyenne concrètement.
Si on prends cet exemple avec ces valeurs numeriques:
Un couple X1,X2 avec des moyennes respectives de 0 et 1 et des ecarts types respectifs de 0.5 et 0.1.
Je fais 10000 tirages de X1 et X2.
J'obtiens 10000 moyennes individuelles X3=(X1+X2)/2. La valeur moyenne de X3 est de 0.5 et son ecart type est de 0.25 (environ, je suis pas sur que c'est la valeur exacte mais c'est tres proche).

Quelqu'un saurait expliquer quelle est la différence?

Avatar de l’utilisateur
Psyricien
Messages : 3426
Inscription : 31 oct. 2011, 18:27

Re: Statistiques, un outils magique !

#24

Message par Psyricien » 28 févr. 2013, 11:09

Le calcul est OK mais alors je ne comprends pas du tout la signification de \bar{X}, je ne vois pas en quoi la difference d'incertitude pondère la moyenne concrètement.
Si on prends cet exemple avec ces valeurs numeriques:
Un couple X1,X2 avec des moyennes respectives de 0 et 1 et des ecarts types respectifs de 0.5 et 0.1.
Je fais 10000 tirages de X1 et X2.
J'obtiens 10000 moyennes individuelles X3=(X1+X2)/2. La valeur moyenne de X3 est de 0.5 et son ecart type est de 0.25 (environ, je suis pas sur que c'est la valeur exacte mais c'est tres proche).

Quelqu'un saurait expliquer quelle est la différence?
Bonjour,

OUI, vous prenez le problème à l'envers ;).

Ici vous supposé que les X sont des valeur aléatoire de moyenne respective 0, 1 avec une dispersions respective 0.5 et 0.1.
Or cette hypothèse est non consistante avec la propos, qui justement suppose l'existence d'une valeur \(\bar{X}\), dont \(X_1\) et \(X_2\) sont respectivement 2 mesures avec respectivement une incertitude de 0.5 et 0.1.

Donc votre simulation n'est pas en rapport avec l'objet du propos.
Pourquoi est-ce que l'on pondère une moyenne par les incertitude ?
-->Cela minimise la variance: http://fr.wikipedia.org/wiki/Maximum_de_vraisemblance

Aussi, l'estimateur de la moyenne \(X_3 = \frac{X_1%2bX_2}{2}\) est lui aussi non biaisé ,si vous faite des simulations comme il convient :
\(X_1 = \bar{X} + N_1\)
\(X_2 = \bar{X} + N_2\)
\(N_1\) et \(N_2\) sont deux variable aléatoire de moyenne nulle et de déviation standard (écart type) respectif 0.5 et 0.1.

Mais cette estimateur non biaisé n'est pas optimisé pour la variance. ici \(X_3\) présente un écart type de \(0.255\)

L'estimateur que j'ai présenté pour la moyenne est lui aussi non biaisé, mais fourni une estimation de \(\bar{X}\) avec un écart type de \(0.098\).
Soit une réduction substantiel d'un facteur 2.5 de l'incertitude sur la moyenne (vous pouvez vous en convaincre en faisant des simulations réalistes)

Cordialement,
G>
Dernière modification par Psyricien le 28 févr. 2013, 15:13, modifié 1 fois.
Psyricien : La moyenne de 4 et 5 ça peut faire 3 ... Comprendra qui pourra !

Avatar de l’utilisateur
spin-up
Modérateur
Modérateur
Messages : 6321
Inscription : 23 févr. 2012, 12:01

Re: Statistiques, un outils magique !

#25

Message par spin-up » 28 févr. 2013, 11:29

Ah ok, j'avais juste mal compris l'énoncé.

Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : Aucun utilisateur inscrit