DENIS :
Au sujet de la définition de la variance (ou l'on peut diviser par n ou par n-1), ce que tu me dis m'étonne un peu. Dans la première édition (1985), on définissait la variance échantillonnale via une division par n, afin, surtout de simplifier les formules et ne pas "mêler" les étudiants en traitant différemment la variance statistique de la variance probabiliste. C'était un choix pédagogique délibéré.
ÉVARISTE :
??? variance statistique et variance probabiliste ???
'Mande pardon ?
DENIS :
Mais, dans la seconde édition (1990, celle que tu as), on est revenus à n-1, surtout à cause des deux chapitres supplémentaires (sur les sondages et les séries chronologiques) où le maintien d'une "variance en n" aurait entraîné des complications hors de proportion avec la petite simplification qu'on s'était permise dans l'Édition 1. Regarde dans ton Édition 2, à la page 234. Tu verras qu'on ne reste pas longtemps à n. On saute tout de suite à n-1 et on y reste jusqu'à la fin du volume.
ÉVARISTE :
Moi, ce que j'ai cru comprendre, c'est ceci :
Qu'elle s'applique à un échantillon ou bien à toute la population des données, la variance est la moyenne quadratique des écarts à la moyenne.
Que la variance d'un échantillon ne soit pas le meilleur estimateur de la variance de la population, c'est une autre histoire... qui, à mon humble avis, ne devrait en aucune manière servir de prétexte à modifier la définition de la variance.
Si on décide que dans le calcul de la variance d'un échantillon on divise par n-1 plutôt que par n, alors on se priverait de la belle définition que j'ai donnée tantôt : la variance est la moyenne quadratique des écarts à la moyenne.
De plus, si on prend n-1 comme dénominateur, alors on ne peut plus dire que : «la variance, telle que nous venons de la définir formellement, peut aussi s'obtenir, après quelques manipulations algébriques, comme la différence entre la moyenne des carrés et le carré de la moyenne.
Donc, pour moi, il FAUT garder le n au dénominateur pour plusieurs raisons :
A)
Préserver l'uniformité de la définition ;
B)
se donner une formule, avec n en dénominateur, qui respecte l’énoncé verbal de la définition (moyenne suppose qu’on divise par n, non par n-1) ;
C)
À partir de la formule trouvée grâce à B, en déduire une autre qui se mémorise facilement :
La différence entre LA MOYENNE DES CARRÉS ET LE CARRÉ DE LA MOYENNE, cela donne la valeur numérique de la variance.
* * * * * *
Si j’avais la compétence requise pour faire un livre sur le sujet, j’écrirais peut-être ceci :
* * *
«Jusqu’ici, vous avez appris, page 40, à calculer la variance d’un échantillon. Vous avez trouvé plusieurs formules équivalentes pour y arriver. Or, il se trouve, ce qu’on démontrera plus loin, que la valeur numérique ainsi trouvée N’EST PAS le meilleur estimateur de la variance de la population. Qu’à cela ne tienne !
Appelons variance et notons par sigma-chapeau au carré cet estimateur sans biais. Nous allons démontrer l’égalité suivante :
variance = sigma-chapeau² = [n /(n-1)]s.
En d’autres termes, pour trouver le meilleur estimateur de la variance de la POPULATION, il faut multiplier la variance s² d’un échantillon par un facteur de correction, à savoir n/n-1.
Naturellement, plus l’échantillon est grand, plus le facteur de correction est proche de l’unité.»
* * *
Suivrait la démonstration annoncée.
* * * * * * *
DENIS :
le maintien d'une "variance en n" aurait entraîné des complications hors de proportion avec la petite simplification qu'on s'était permise dans l'Édition 1.
ÉVARISTE :
Des complications hors de proportion ?
D’abord, si je lis correctement en page 234, je ne vois pas que la définition de la variance ait été changée one bit. Au contraire. On y dit ceci :
L’estimateur sigma-chapeau² peut s’exprimer sous plusieurs formes algébriquement équivalentes parmi lesquelles les plus commodes sont [...]
Une des formules est justement celle-ci :
sigma-chapeau² = [n / (n-1)] (moyenne des carrés MOINS carré de la moyenne).
Cela me satisfait. Mais, et heureusement pour Évariste, cela ne préconise pas une «variance en n-1». Donc, on garde la variance en n puis on la multiplie par le facteur de correction approprié.
À propos des complications : moi, quand j’ai vu que d’un livre à l’autre la définition de la variance d’un échantillon changeait au gré des auteurs, c’est là, et seulement là, que j’ai vu des complications.
J’ai vite compris que la variance en n’est pas le meilleur estimateur de la variance de la population, mais de là à changer la définition de la variance... tout de même!!!
Tiens. La moyenne arithmétique d’une série de n données numériques d’un échantillon est leur somme divisée par n. Si, par impossible, on démontrait ensuite que cette moyenne échantillonnale n’est pas le meilleur estimateur de la moyenne de la population, alors changerait-on la définition de la moyenne ? Pour moi, ce serait illogique et de mauvaise pédagogie. Il suffirait de dire que :
«Oui, la définition que nous avons donnée de la moyenne échantillonnale est correcte, mais si on veut le meilleur estimateur de la moyenne de la population, il faut multiplier cette valeur par un facteur de correction k que voici [...]»
* * * * * * * * * *
P.-S. # 1 :
Tout cela me fait penser à ces pauvres anglophones qui se font parler de cette expected value alors que s’il y a une valeur à laquelle on ne s’attend pas, c’est bien celle-là :-(
P.-S. # 2 : Évariste
Mon appréciation sincère du livre : 95%.
Suivi