Salut Alx,
Tu dis :
il m'a toujours paru étrange que l'on puisse généraliser à une population de plusieurs dizaines de millions de personnes le résultat d'un simple sondage effectué sur un échantillon de, par exemple, seulement 1000 - 1500 personnes.
(...)
Si quelqu'un peut m'expliquer, avec méthodes statistiques à l'appui s'il le faut, en quoi un simple échantillon est tout à fait représentatif d'une population entière, je lui serai reconnaissant éternellement !
Je ne sais pas à quel point tu souhaites une réponse "forte", qui va jusqu'au bout du bout de tous les détails des détails.
Je vais me contenter de commenter le tableau suivant
qu'on trouve au bas de
cette page sur l'estimation d'une proportion (inconnue)
p, dans une grande population de taille
N.
Cette proportion
p est
estimée (i.e. approximée numériquement) par la fréquence
f observée dans un échantillon (de taille
n)
tiré au hasard dans la population. Plus grand l'échantillon, meilleure est la précision.
Les nombres du tableau (où l'on considère que la taille
N de la population est
infinie) indiquent, pour différents
"risques d'erreur" α et différentes tailles d'échantillon
n, la précision obtenue (en %) dans le cas le plus défavorable (i.e. quand la véritable valeur (inconnue) de
p est voisine de ½).
Quand, dans les médias, on présente les résultats d'un sondage, on ajoute souvent une petite phrase du genre :
« la taille (1000) de l'échantillon nous assure que cette estimation est précise à 3% près, 19 fois sur 20 ». C'est le 3 qu'on trouve dans la case du tableau correspondant à
α = 5% (i.e. 1 chance sur 20 de se tromper) et
n = 1000.
On pourrait aussi dire :
« la taille (1000) de l'échantillon nous assure que cette estimation est précise à 4% près, 99 fois sur 100 ».
Je rappelle que, dans le tableau, on suppose que la population est infinie (
N = ∞). Si
N n'est pas incommensurablement plus grand que
n, les intervalles de confiance sont un peu plus étroits. Techniquement, leur rayon est multiplié par (1 - (
n/
N))
½, ce qui ne change pas grand chose tant que la
fraction d'échantillonnage n/
N est petite. Par exemple, un échantillon de taille 1000 tiré parmi 1.35 milliard de Chinois fournit des estimations pratiquement aussi précises qu'un échantillon de taille 1000 tiré parmi 35000 Liechtensteiniens car, dans les deux cas, les fractions d'échantillonnage (1/1350000 et 1/35) sont petites.
Je ne sais pas à quel point j'ai répondu à ta question. Si j'ai répondu à côté, ne te gênes pas pour le dire. J'essayerai de faire mieux.

Denis
P.S. Pour la reconnaissance éternelle, ne te sens pas obligé.

Les meilleures sorties de route sont celles qui font le moins de tonneaux.