Bon, je n'ai pas dû être claire, je recommence donc (accrochez vous, ça va être long

).
Si l'on veut savoir si il y a un lien entre le fait d'être de culture musulmane et aller en prison,
le chiffre qui donne un renseignement sur une éventuelle corrélation entre être musulman et être en prison, c'est la proportion de musulmans à aller en prison comparé à la proportion de non-musulmans à y aller, autrement dit la probabilité d'aller en prison si on est musulman comparé à la probabilité d'y aller si on ne l'est pas. Utiliser un autre chiffre revient à utiliser un thermomètre pour mesurer une distance.
Si on dit que A est l'événement aller en prison, B l'événement être musulman et C l'événement ne pas être musulman, la donnée intéressante est
\(\frac{P(A|B)}{P(A|C)}\) c'est à dire la probabilité d'aller en prison sachant qu'on est musulman sur la probabilité d'aller en prison sachant qu'on ne l'est pas. Si ce chiffre est supérieur à 1, on a une corrélation (
pas forcément une causalité) entre le fait d'être musulman et d'aller en prison. Ce chiffre représente "combien de fois plus" on va en prison quand on est d'origine musulmane que le reste de la population.
La probabilité que vous donnez est
\(P(B|A)\) c'est à dire la probabilité d'être musulman sachant qu'on est en prison. C'est ce qu'on appelle une
probabilité inversée. C'est une erreur de logique courante d'utiliser
\(P(B|A)\) à la place de
\(P(A|B)\) mais les deux chiffres n'ont
pas le même sens. Ce chiffre
\(P(B|A)\) (la probabilité d'être musulman sachant qu'on est en prison n'est
pas interprétable tel quel car suivant la proportion de musulmans dans la population française, on peut obtenir une valeur de corrélation très différente entre être musulman et être en prison. Il est même probable que, les personnes de culture musulmane étant une minorité, on trouve un chiffre plus important.
La manière la plus simple de
détecter une probabilité inversée, c'est de remplacer la probabilité d'être musulman sachant qu'on est en prison par la probabilité d'aimer le chocolat en étant en prison. Si on fait un sondage demain en prison on trouvera probablement qu'au moins 80% de la population carcérale aime le chocolat. Il ne vous viendrait pas à l'idée d'en déduire que le chocolat augmente la probabilité d'être un délinquant ? Pour les 60% de la population qui serait musulmane, c'est pareil, ce chiffre n'a pas de sens tel quel.
Il est donc maladroit (voire malhonnête si on est familier des probas) d'utiliser ce chiffre dans un débat car il induit un
sentiment de corrélation "à hauteur de 60%" alors que cette corrélation peut être très différente. Je ne suis pas en train de dire qu'il n'y a pas de corrélation (la causalité sera plus difficile à prouver) entre être musulman et être en prison, peut être qu'en faisant le calcul à partir des vraies données on trouvera un résultat bien pire, je dis juste que dans un débat basé sur des faits, on ne peut pas utiliser un chiffre qui est une
"illusion d'optique" mathématique. Et que par ailleurs le fait que certaines personnes familières des statistiques (journalistes, politiques...) utilisent ce genre de probabilités amène le
doute sur leur honnêteté et/ou leur compétence, et du coup sur la qualité des chiffres qu'ils avancent. Par exemple, dans le cas des 60%, si une personne a été suffisamment malhonnête (ou incompétente) pour publier ce chiffre alors que c'est une probabilité inversée, j'ai des doutes quant à la qualité de l'échantillonnage qu'elle aura utilisé pour faire son calcul (par exemple un échantillon représentatif de prisons, le critère choisi pour dire qui est de culture musulmane, etc.). D'autant plus que c'est un chiffre assez invérifiable étant donné qu'il n'est pas légal en France de recueillir ce genre de données.
Pour ce qui est de signaler le problème publiquement, en partant du principe que le chiffre en lui même est juste, ce qu'il faudrait c'est expliquer les probabilités inversées pour montrer que même si il est juste, il n'a pas de sens. Des erreurs comme ça il y en a une par journal télévisé, voire parfois dans les messages de sécurité routière. C'est un problème, la manière de le résoudre c'est d'apprendre au gens à les reconnaître et à ne pas les reproduire (à l'école par exemple). On ne peut pas faire une conférence de presse chaque fois que quelqu'un dit une connerie (surtout quand il y en a autant). Sans rire, combien de fois vous avez entendu "80% des tueurs de masse jouent au jeux vidéo" ou "70% des héroïnomanes ont fumé du cannabis" ?
D'ailleurs, ce qui rend ce genre de problème difficile à expliquer, c'est que les gens se braquent en disant : "Quoi ? Tu penses qu'il n'y a pas de lien entre cannabis et dépendance à l'héroïne ?" Ce n'est pas le problème, le problème c'est que même si dans 80 % des cas, on trouvait aussi une corrélation forte (voire plus forte) avec la bonne probabilité, on prend l'habitude d'accepter ce genre de chiffre et on se fait avoir les 20% du temps restant. Et le fait que personne ne dénonce publiquement ce genre de manipulation des chiffres n'est pas une excuse pour continuer à les utiliser.
Bon, revenons à nos moutons : A est l'événement aller en prison, B l'événement être musulman et C l'événement ne pas être musulman, la
donnée intéressante est
\(\frac{P(A|B)}{P(A|C)}\).
La probabilité que vous donnez est la
probabilité d'être musulman sachant qu'on est en prison:
\(P(B|A)=60\%\).
\(P(A|B)=\frac{P(A \cap B)}{P(B)}\) : c'est à dire que la probabilité d'être en prison sachant qu'on est musulman est égal à la probabilité d'être en prison et d'être musulman sur la probabilité d'être en musulman.
\(P(B|A)=\frac{P(B \cap A)}{P(A)}\) : c'est à dire que la probabilité d'être musulman sachant qu'on est en prison est égal à la probabilité d'être musulman et d'être en prison sur la probabilité d'être en prison.
\(P(A \cap B)=P(B \cap A)\) : la probabilité d'être en prison et d'être musulman est égale à la probabilité d'être musulman et d'être en prison.
Donc :
\(P(A|B)=P(B|A) \frac{P(A)}{P(B)}\)
Par ailleurs :
\(P(C)=1-P(B)\) : la probabilité de ne pas être musulman (événement contraire d'être musulman)
\(P(A|C)=\frac{P(A \cap C)}{P(C)}\) et
\(P(C|A)=\frac{P(C \cap A)}{P(A)}\) d'où
\(P(A|C)= P(C|A) \frac{P(A)}{P(C)}= P(A|C) \frac{P(A)}{1-P(B)}\)
Si 60% des gens en prison sont des musulmans, ça veut dire que 40% n'en sont pas donc la probabilité de ne pas être musulman sachant qu'on est en prison est
\(P(C|A)=1-P(B|A)\)
On trouve au final :
\(\frac{P(A|B)}{P(A|C)}= \frac{P(B|A)}{P(C|A)} \frac{P(A) P(C)}{P(B) P(A)}= \frac{P(B|A)}{1-P(B|A)}*\frac{1-P(B)}{P(B)}\)
On a donc : le rapport de la probabilité entre aller en prison sachant qu'on est musulman et de la probabilité d'aller en prison sachant qu'on ne l'est pas qui est égal à 1.5 fois le rapport entre la probabilité de ne pas être musulman et la probabilité de l'être (c'est-à-dire l'inverse de la proportion de musulmans en France). Du coup, comme je présume qu'il y a plus de non musulmans que de musulmans en France (donc
\(\frac{1-P(B)}{P(B)}>1\)), si le chiffre de 60% est juste (ce dont je ne suis pas sûre voir ma remarque plus haut),
\(\frac{P(A|B)}{P(A|C)}>1\) et il y a bien corrélation (et je répète
pas forcément causalité).
Maintenant,
il manque le chiffre de la population "de culture musulmane" en France (
\(P(B)\)). Il faut qu'il soit
calculé sur le même principe que les 60% (même critère d'appartenance) pour que ça veuille dire quelque chose. Plus ce chiffre sera petit, plus
\(\frac{P(A|B)}{P(A|C)}\) sera grand, plus la corrélation sera forte. Donc si le critère pour les 60% (genre nom à consonance arabe) est large, la corrélation baisse, si le critère est restreint (personne déclarant être musulman) la corrélation augmente. Si le calcul a été bien fait (ce dont je ne suis pas sûre voir ma remarque plus haut), c'est à dire que les critères sont les mêmes que ceux pris en général pour évaluer la population de culture musulmane en France (5M environs) on trouve
17 fois plus de chance d'aller en prison si on est "de culture musulmane" ! Maintenant si le calcul est mal fait et que l'échantillon est pris sur des prisons situées dans des zones où la moyenne des musulmans d'origine est plus haute qu'en France (par exemple Marseille : 25%) , ou qu'on les compte avec un critère du genre la consonance de nom (j'ai une grand mère qui s'appelle Benza, tout le monde croit qu'elle est pieds-noirs...) on peut tomber à
4.5 fois plus de chance. C'est quand même pas les mêmes chiffres, pourtant c'est en partant du même 60%.
Enfin, sur la différence entre
corrélation et causalité. Si je vous dit que sur une année, plus la consommation de crème solaire est importante, plus il y a de cancers de la peau, il y a corrélation entre l'usage de crème solaire et le cancer de la peau. Cependant,
on ne peut pas en déduire qu'il y a causalité. En l'occurrence, la corrélation viens du fait que la cause des deux phénomènes (mettre de la crème solaire et avoir un cancer de la peau) est la même : le soleil, et que donc si il y a plus de soleil, les deux phénomènes vont conjointement augmenter, donnant une illusion de causalité.
Une corrélation est donc un indice vers une éventuelle causalité mais en aucun cas une preuve de causalité. Pour prouver une causalité, il faut
éliminer les autres causes possibles, en l'occurrence le soleil : si je compare deux groupes de personnes exposés à la même quantité de soleil mais que je ne tartine qu'un des groupes de crème, si c'est ce groupe qui a le plus de cancers de la peau; j'ai prouvé la causalité.
Il peut également y avoir des
causalités indirectes, où le point de départ entraine une conséquence qui est elle-même la cause du point d'arrivée. Dans ce cas là, il faut séparer les deux liens de causes à effet si on veut être honnête.
Par exemple, si j'ai 15 fois plus de chance de me faire fouiller à la sortie d'un magasin si j'ai l'air jeune, j'ai 15 fois plus de chances de me faire chopper si je pique un truc (à nombre de piquage égal avec les autres tranches d'âge) et du coup 15 fois plus de chances d'aller en prison. La cause de la fouille est le fait que je sois jeune (le port du sac à dos a l'air d'être un facteur déterminant, je ne me fais jamais emmerder lorsque j'ai un sac à main même d'une contenance de 10 litres...

). La cause de l'incarcération est la fouille (et le vol). Du coup, dans cette situation, on ne peut pas conclure que les jeunes volent plus du fait qu'on ait 15 fois plus de chance d'aller en prison pour vol quand on est jeune (ni le contraire d'ailleurs). Dans cet
exemple (fictif), il y a une
causalité indirecte entre jeunesse et incarcération, mais n'y a
pas de causalité entre jeunesse et vol car
incarcération n'est pas synonyme de vol. D'ailleurs, même si les jeunes commettaient 3 fois moins de vol que les autres, en se faisant contrôler 15 fois plus, ils iraient 5 fois plus en prison...
Ramené au cas des prisonniers d'origine musulmane,
on ne peut pas tirer de conclusions avant d'avoir éliminé la contributions de causes extérieures ou intermédiaires, par exemple (ce ne sont que des
exemples illustratifs) : "je suis d'origine musulmane, donc je ne trouve pas de boulot, donc je suis pauvre, donc je tombe dans la délinquance" ne peut pas être réduit à "je suis d'origine musulmane donc je tombe dans la délinquance", car on supprime des causes intermédiaires (pauvreté). Idem : "je suis d'origine musulmane, donc je me fait contrôler tous les 3 mètres donc j'ai 15 fois plus de chance qu'un "blanc" de me faire gauler avec une barrette de shit (à trimballage de shit égal avec les autres catégories de population), donc j'ai 15 fois plus de chance d'aller en prison", ce n'est pas pareil que "je suis d'origine musulmane donc je vais plus en prison" et c'est encore moins pareil que "je suis d'origine musulmane donc je commets plus de délits" (car délit n'est pas synonyme d'incarcération, voir exemple du vol plus haut).
Voilà, désolée pour la tartine.

Il faut pas respirer la compote, ça fait tousser.