POur Denis

Kraepelin · #1

Salut Denis

J'ai un problème de statistique élémentaire à te poser.

J'ai un échantillon de 296 dossiers tirés d'une population de 61,000 dossiers. Je dois évaluer s'ils sont lisibles. En suivant des critères stricts, je calcule que 190/296 dossiers sont lisibles, donc 64%.

Si je veux généraliser cette mesure à ma population totale, je puis le faire avec une certaine marge d'erreur.

Dans "Manuel de Statistique" ton collègue J.T. Dayhaw (page 300) me dit que l'erreur-type d'une proportion en général est déterminée par la formule :

Erreur de p = RacineCarré de (p*q)/N

Où
"p" est la proportion
"q" est 1-p
"N" est le nombre de sujets dans l'échantillon

Ce qui me donne

Racine de [ (190/296)(1- (190/296))/296] = 0,02789713

Conclusion:

J'ai donc 68% des chances que la proportion de dossiers lisibles dans ma population totale soit entre 61% et 67%

J'ai aussi 95% des chances que la proportion de dossiers lisibles dans ma population totale soit entre 59% et 69%

Et si je voulais avoir 95% des chances avec une marge d'erreur de seulement plus ou moins 3%, il me faudrait: 1126 dossiers dans mon échantillon.

Suis-je complètement dans la brume?

#2

Salut Kraepelin,

Tu demandes :

Suis-je complètement dans la brume?

Pas complètement. Loin de là.

Il y a une petite faute de frappe dans ton 0,02789713 qui devrait être 0,02786713, mais cette coquille n'affecte pas les intervalles de confiance que tu arrondis à 2 décimales.

Pour ton premier intervalle de confiance (à 1 écart-type, i.e. à 68.3% de confiance), je trouve, en n'arrondissant qu'à la fin, (61.4% , 67.0%). Ton (61% , 67%) est donc correct.

Pour l'intervalle de confiance à 95% (i.e. à 1.960 écarts-types), je trouve (58.7% , 69.7%). Le tien (59% , 69%) serait plus correct si tu arrondissait la borne de droite à 70% plutôt qu'à 69%.

Concernant la taille d'échantillon qui te fournira un intervalle de confiance (à 95%) de rayon 3%, ta réponse (1126) est un peu trop grosse.

En supposant que la véritable proportion (inconnue) est voisine de ton p=.6419, j'arrive à
n = (1.960/0.03)²pq = 981.

Si on ne suppose rien (et qu'on veut se protéger contre le cas le plus défavorable), on trouve
n = (1.960/0.03)²/4 = 1067.

Même dans le cas le plus défavorable, on n'a pas à monter à 1126. Un échantillon de taille 1067 suffit.

Bien sûr, ici, j'ai fait comme si la population était infinie. En tenant compte qu'elle est de 61 000, les formules sont un peu plus compliquées mais les résultats seront pratiquement les mêmes car la fraction d'échantillonnage ( f = n/N = (taille de l'échantillon)/(taille de la population)) reste toujours petite. Les corrections sont donc négligeables.

Mais je pense que ta plus grosse faute est dans ta formulation. Par exemple, tu dis :

J'ai donc 68% des chances que la proportion de dossiers lisibles dans ma population totale soit entre 61% et 67%.

C'est un abus de langage (semi-légitimé par l'usage, j'en conviens) car, après avoir prélevé ton échantillon, il n'y a plus de hasard.

C'est avant de tirer ton échantillon que tu as 68% de chance qu'il te mène à un intervalle de confiance (à 1 écart-type) qui contiendra la véritable proportion.

Pas après.

Mais cet abus de langage est naturel puisque la véritable proportion (dans la population) est inconnue. On est tenté de faire comme si elle était aléatoire. En réalité, ce sont les bornes de ton intervalle de confiance qui sont aléatoires avant que tu fasses ton expérience, mais qui ne le sont plus après.

Tiens, un exemple. Quand on lance un dé, la moyenne théorique du nombre X de points est 3.5 . L'intervalle (X-2 , X+2) a 2 chances sur 3 de contenir cette moyenne théorique. (X-2 , X+2) est donc un intervalle de confiance de niveau 2/3 pour la moyenne théorique.

Si, par exemple, le dé donne X=6, notre intervalle de confiance sera (4 , 8). Il est alors abusif de dire (comme tu le fais presque) qu'on a 2 chances sur 3 que la moyenne théorique soit entre 4 et 8 car 3.5 n'est pas entre 4 et 8.

Bref, mon idée principale c'est que le niveau (ex. prob = 95%) d'un intervalle de confiance n'est objectif qu'a priori (avant de faire l'expérience). Après que l'expérience soit faite, il s'agit d'une probabilité subjective où l'on fait comme si le paramètre estimé (une moyenne ou une proportion, pour la population) variait au hasard.

Mais, comme j'ai dit, ta formulation est légitimée par l'usage, en plus de l'être par le flou qui existe entre l'inconnu et l'aléatoire.

Grosso modo.

Denis

Kraepelin · #3

Merci Denis

Le prof en toi est jamais loin...

Je n'ai pas tenu compte de la correction pour des populations finit parce que la population est tellement grande que ça ne change pas mes chiffres arrondies.

Je vais aller revoir mes calculs pour la question de la taille de l'échantillon à +/- 3%

Forum Sceptique

POur Denis

POur Denis

Je te donne 85%

Re: POur Denis

Qui est en ligne ?