Les Simpsons comme paradoxes
Le paradoxe de Simpson (1), qui continue de fasciner, d'étonner et de révolter peut s'expliquer de plusieurs manières, et j'en connais une de particulièrement "tactile", c'est à dire "intuitive" pour les doigts.
Soit 4 individus nommés 1,2,3 et 4 dont la note à un test quelconque soient respectivement de 2,1,4 et 3.
Vous remarquerez la division naturelle des 4 individus en deux groupes contenant respectivement 1 et 2 d'une part et 3 et 4 d'autre part.
Vous remarquerez que chaque groupe présente une corrélation inverse: plus votre numéro dans un groupe est important, et plus votre note est basse. Une double tendance, donc qui semble qualifier TOUS les individus.
Regroupons alors les notes pour noter deux groupes dont les notes seront alors 2+1 = 3 d'une part et 4+3 =7, d'autre part. On a là une corrélation directe.
0
0 0 0
0 0 0 0
En fait, l'agrégation des groupes inverse le sens de la corrélation, c'est le paradoxe de Simpson. En effet, si on ne considère pas le groupage, on obtient une corrélation positive qui est en fait un résultat faux.
Sans considération des regroupements significatifs interne à une bloc de données, la corrélation ordinaire peut donner lieu à des conclusions erronées...
Supposons par exemple que les 4 individus soient ordonnés suivant leurs pratiques du sport (leurs numéros sont leurs nombres d'heures de jogging par semaine) et que la note soit l'espérance de vie. Clairement plus vous courrez, plus vous vivez longtemps.
Maintenant supposons qu'après recherche, on réalise que 1 et 2 sont des femmes et 3 et 4 des hommes. Cela pourrait se concevoir, dans certaines populations les hommes (parce qu'ils ont, les salopards, plus de temps libre) font plus de sport.
Et bien ce facteur supplémentaire (le groupement suivant le sexe) aboutit à la conclusion inverse: plus vous faites de sport, plus vous mourrez jeune... Le facteur est dit "de confusion". On ne peut tirer de conclusions sur une corrélation QUE si on a pris en compte tous les facteurs de confusion possibles, ou bien si, les connaissant, on a regroupé les notes en fonction des facteurs de confusions. Après le regroupement, le paradoxe ne doit plus se manifester, ce qui valide la corrélation...
De manière générale, il faut bien réaliser que ce n'est pas le partage en sous groupes qui donne toujours le "VRAI" et l'agrégation trop rapide qui fait illusion. Car un partage en sous groupes peut n'être pas significatif et ne contenir rien à part une relation arbitraire qui pourrait ne correspondre à aucune relation existante entre les membres du groupe...
De fait il fut montré que la chose dépend du contexte, et que sans savoir extra-statistique, on ne peut valider l'une ou l'autre des alternatives (Lindley and Novick (1981) ou plutôt on peut à partir des mêmes données valider l'une au l'autre des versions.
(1) Judas Pearl Understanding the Simpson Paradox: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2343788