Associations Libres

"Faut pas croire tout ce qu'on voit sur le web" – Einstein

La logique de la causalité : comment on sait que les vaccins marchent et que le feu brûle – Barbara Drescher

Je grince généralement des dents lorsque je lis un commentaire rédigé par un sceptique arguant que « la corrélation ne prouve pas la causalité ». Bien sûr, il est vrai la première ne prouve pas la seconde. Il est même vrai que la corrélation n’implique pas toujours la causalité.

Il y a de nombreux exemples de corrélations fallacieuses qui démontrent clairement à quel point il est inepte d’extrapoler des causes à partir de corrélations. Et le problème n’est pas trivial : les gros titres de la presse populaire à eux seuls peuvent être dommageables, puisque la plupart des gens les considèrent comme intrinsèquement vrais.

MAIS…

Je grince des dents parce que j’ai peur que cette sur-simplification ne mène les gens à croire que la corrélation ne joue pas de rôle dans l’interférence causale (inférer que X cause Y). C’est le cas. En fait, cela joue un grand rôle auquel les sceptiques devraient faire tout aussi attention qu’à la formule lapidaire « la corrélation n’implique pas la causalité » : la causalité ne peut être inférée en l’absence de causalité.

Cet article est une traduction de : The Logic of Causal Conclusions: How we know that fire burns, fertilizer helps plants grow, and vaccines prevent disease

De plus, ce slogan n’aide en rien dans l’éducation des gens à propos de comment et quand nous devons inférer la cause. Alors jetons un œil aux deux problèmes.

La causalité à partir de la corrélation

Un exemple classique utilisé pour illustrer le problème est la relation tout à fait réelle entre les ventes de glaces et les crimes violents. Comme vous le voyez, lorsque les ventes augmentent, les crimes leurs emboîtent le pas.

icecream-600x344

Alors, devrions-nous cesser de vendre des glaces ? Bien sûr que non.

Il y a basiquement deux problèmes à tirer des conclusions de causalités à partir de corrélations :

  1. Il peut tout à fait y avoir une relation causale, mais le sens de celle-ci n’est pas claire. Par exemple, il se pourrait que de manger des glaces rende les gens violent (le « shoot au sucre » est un mythe mais peut-être qu’il s’agit d’une allergie au lait ?). Ou il se pourrait que les gens aient faim après avoir fait un tour au magasin d’alcool.

  1. Il y a une autre variable impliquée. La plupart des gens se rendent compte que la corrélation entre ventes de glaces et crimes violents est fallacieuse. En d’autres termes, elle est le résultat d’une cause commune : la température. Les gens ont plus de probabilités de manger des glaces en été, lorsqu’il fait chaud dehors et il y a aussi plus de chances pourq qu’ils commettent des cries à cette époque-ci pour diverses raisons.

Les Causes

Donc, si la corrélation ne prouve pas la causalité, qu’est ce qui le fait ?

Et bien.. rien en fait. On ne peut pas « prouver », et ce n’est pas vraiment ce que fait la science de toutes façons (mais ce sera un sujet pour un autre jour).

Donc, quand pouvons-nous raisonnablement inférer que X cause Y ? Il est délicat d’atteindre le niveau de l’inférence causale, mais les requis pour se faire sont en fait assez simples.

Tout d’abord, définissons « cause » et « effet* » :

Cause : « … ce qui fait qu’une autre chose, idée, substance ou façon de faire, commence à être… »

Effet : « … cela, qui a eu son commencement à partir d’autre chose… »

Confus ? Bon, simplifions un peu tout ça.

Une cause est une condition qui fait qu’un effet se produit.

Un effet est la différence entre ce qui est (arrivé) et ce qui se serait (arrivé)si la cause n’était pas présente.

Je devrais faire remarquer ici qu’un « effet » est toujours une comparaison entre au moins deux choses. Tout est relatif, c’est souvent un concept difficile à garder à l’esprit lorsque l’on discute d’exemples précis, mais c’est important.

Donc, laissez-moi le répéter : une cause est une condition permettant la production d’un effet.

Une condition causale peut être :

  • nécessaire

  • suffisante

  • nécessaire ET suffisante

  • ni nécessaire ni suffisante.

Une condition est nécessaire si l’effet ne peut se produire sans elle. Par exemple : Pour recevoir le diplôme d’un cours, vous devez être inscrit au cours.

→ Dans ce cas, la condition est nécessaire, mais pas suffisaante : vous n’aurez pas le diplôme si vous ne suivez pas le cours, mais ça ne garantit pas que vous l’aurez (vous avez généralement besoin de notes assez hautes pour ça en plus).

Une condition est suffisante si l’effet se produit toujours lorsque la condition est remplie. Par exemple : La décapitation résulte en la mort du sujet (au moins chez les humains).

→ Dans ce cas, la condition est suffisante mais pas nécessaire. Personne ne peut survivre sans tête, mais la mort peut survenir de bien des façons.

Pour une condition qui soit à la fois nécessaire et suffisante, l’effet doit toujours se produire lorsque la condition est remplie et ne pas pouvoir se produire sans elle. Par exemple : Pour gagner à la loterie, vous devez avoir présenter un ticket avec la bonne combinaison aux autorités appropriées.

Ou encore : Pour être parent, vous devez avoir un enfant.

Le dernier cas est un peu piégeux. Une cause peut n’être ni nécessaire ni suffisante, mais si elle n’est ni l’une ni l’autre, elle doit remplir un autre requis : elle doit être une partie non redondante d’une condition suffisante. Cela en ferait une condition :

  • Insuffisante

  • Non-redondante

  • Non-nécessaire d’une

  • condition Suffisante.

Soit une condition INNS. La vérité est que la majorité des causes dans le monde sont des INNS. En sciences sociales, ce sont celles que l’on croise principalement.

La grande question est « comment les identifier » ?

Bien, intéressons-nous à la question de ce qui pourrait causer un feu de forêt. Quelques causes possibles :

  • une allumette enflammée jetée d’une voiture

  • un éclair

  • un feu de camp sans surveillance.

Aucune de ces conditions n’est nécessaire à un départ de feu de forêt. La science présuppose que tous les effets ont des causes, donc nous présupposons que quelque-chose est arrivé et a causé le départ de feu, mais cela n’a pas besoin d’être quelque-chose qui soit inclus dans cette liste. Mais ce sont toujours des conditions INNS.

Prenons l’une d’entre elles comme exemple, une allumette enflammée jetée d’une voiture n’est pas nécessaire pour démarrer un feu de forêt puisque ces derniers peuvent démarrer de multiples façons, et elle n’est pas suffisante non plus. Si chaque allumette enflammée déclenchait un incendie, alors il y en aurait beaucoup plus.

Il faut réunir d’autres conditions : l’allumette doit rester enflammée suffisamment longtemps pour commencer à brûler autre chose, il doit y avoir de l’oxygène pour alimenter le feu et la météo et le couvert végétal doivent être assez secs pour qu’il ne éteigne pas.

Si toutes ces choses sont réunies, alors la condition est suffisante. Mais elle peut aussi être no-redondante : si quelque-chose d’autre dans le mélange fait le boulot de l’allumette, alors cette dernière ne peut pas être considérée comme une cause.

L’oxygène seule ne peut pas démarrer un feu, pas plus que la météo, donc l’allumette est une partie non-redondante d’une condition suffisante.

Un autre bon exemple d’une condition INNS est la présence d’un préservatif pour prévenir la grossesse. Le préservatif n’est pas nécessaire pour cela, il y a bien d’autres moyens d’arriver à cette fin. Sa présence ne garantit pas non plus la contraception (son efficience est de 98 % et son efficacité plus basse encore).

L’efficacité est inférieure à l’efficience, tout d’abord du fait de la conformité. E, d’autres termes, il faut utiliser le préservatif de la bonne façon pour empêcher une grossesse, et même ainsi il y a des cas où cela peut échouer. Cependant, lorsque tout est parfait, il prévient la grossesse.

Les préservatifs sont des conditions insuffisantes, non-redondantes, non-nécessaires d’une condition suffisante dans la prévention de la grossesse.

Alors comment pouvons-nous identifier une condition INNS ?

L’inférence causale

En substance, pour inférer logiquement que X a causé Y, nous devons remplir trois requis :

  1. Nous devons savoir que X a précédé Y. Il n’est pas possible à une cause de suivre ni même de coïncider avec un effet. Elle doit arriver avant, même d’une fraction de seconde.

  2. X doit co-varier avec Y. En d’autres mots, Y doit être plus susceptible d’advenir lorsque X est présent que lorsque ce n’est pas le cas.

  3. La relation entre X et Y est libre de confusions. Ce que cela signifie est qu’il n’y a pas d’autres variables covariantes lorsque les conditions 1. et 2. sont remplies.

Laissez-moi expliquer cela avec quelques exemples.

Exemple 1 : Une allumette enflammée (A) cause un feu de forêt (B) → OUI !

  1. A précède B → OK

    • L’allumette est enflammée avant le départ du feu de forêt.

  2. A co-varie avec B → OK

    • Un feu de forêt est plus susceptible de se produire en présence d’allumettes enflammées.

  3. La relation entre A et B est libre de facteurs de confusion → OK

    • Le fait de craquer une allumette ne joue pas sur les autres facteurs (comme la météo ou la présence d’oxygène)

    • L’oxygène est présent que l’allumette soit présente ou pas

    • La météo est sèche que l’allumette soit présente ou pas.

Jetons un œil à un gros titre sur lequel j’étais tombé il y a quelques années sur le site du NY Times, affirmant que de bonnes notes au lycée impliquaient une meilleure santé à l’âge adulte. Sans aller dans le détail de l’étude, regardons les critères.

Exemple 2 : De bonne notes au lycée (A) donnent une meilleure santé à l’âge adulte (B) → NON !

  1. A précède B → OK

    • Les bonnes notes au lycée surviennent avant que la santé à l’âge adulte soit mesurée

  2. A co-varie avec B → OK

    • Les notes étaient corrélées positivement avec les variations mesurées.

  3. La relation entre A et B est libre de facteurs de confusion → Raté

    • En moyenne, les personnes ayant de meilleures notes ont accès à plus de ressources que celles en ayant de moins bonnes

    • En moyenne, les personnes ayant de meilleures notes sont plus intelligentes que celles en ayant de moins bonnes

    • En moyenne, les personnes ayant de meilleures notes sont plus motivées que celles en ayant de moins bonnes.

    • (probablement beaucoup d’autres choses encore)

Toutes ces choses sont des explications plus plausibles à cette corrélation que « les notes sont bonnes pour votre santé ».

Mais notez que la corrélation est un des requis pour inférer la causalité, toujours. Ce que je vois bien trop souvent, ce sont des explications détaillées, très fouillées pour des choses qui ne sont pas corrélées .

Un excellent exemple est la « fièvre lunaire », j’ai vu de nombreuses explications de pourquoi les urgences et les commissariats sont plus sollicités à la pleine Lune ; des très bonnes (par exemple, la lumière de la Lune rendrait plus probable le fait que les gens sortent) aux plus ridicules (le corps humain est plein d’eau, laquelle est affectée de la même façon que les marées).

La première explication est la plus parcimonieuse, mais elle est tout de même inutile puisqu’IL N’Y A PAS DE CORRÉLATION. Les études sont plutôt claires sur le fait que ni les urgences ni les stations de police ne sont plus occupées les nuits de pleine Lune que les autres jours du mois.

Exemple 3 : La pleine Lune (A) fait que les gens agissent extraordinairement (B) → NON !

  1. A précède B → OK

    • Les comportements sont mesurées après la pleine Lune

  2. A co-varie avec B → Raté

    • Il n’y a pas de corrélation entre comportement et phases de la Lune

  3. La relation entre A et B est libre de facteurs de confusion → probablement OK

    • Il peut y avoir des variables qui soient corrélés avec la pleine Lune et qui n’ont rien à voir avec, mais ce n’est pas vraiment pertinent puisque le requis 2. n’est pas rempli.

Alors, comment est-ce que l’on remplit ces conditions ?

→ Pour établir l’ordre temporel, on conduit des expériences

→ On élimine les variables de confusion en isolant la cause hypothétique – la seule différence entre une condition et une autre sera la variable causale ? Pour faire cela, on aura besoin :

  • d’un contrepoint (une comparaison équivalente/un placebo)

  • d’assignation randomisée (détaillée ci-dessous)

  • de contrôles pour éviter les autres variables de confusion (aveugle, double aveugle, ordre randomisé)

Si, après mesure de l’effet hypothétique, le résultat établit bien une covariation, la seule explication pour cette dernière est une cause.

D’ailleurs, on élimine les causes hypothétiques de la même manière, en créant des conditions dans lesquelles la seule explication du résultat est que A ne cause pas B.

Exemple 4 : Tester l’hypothèse que l’acupuncture (A) réduit la douleur (B).

  1. On conduit une expérience comparant l’acupuncture à rien. En faisant cela, nous avons établit un ordre temporel puisque le traitement précède la mesure de la douleur.

  2. On trouve que lorsqu’on compare la douleur des gens du groupe contrôle à celle des personnes qui ont reçu un traitement par acupuncture, ces derniers rapportent une douleur moins élevée, ce qui établit une corrélation.

  3. Cependant, y a t il des variables de confusion ? Oui : la réduction de la douleur pourrait provenir de n’importe quel covariant de l’acupuncture, comme la peur d’être piqué par une aiguille ou l’attente que le traitement fonctionne.

Ce que nous venons de voir est un contrepoint mal designé : les participants n’étaient pas aveugle au traitement ni à ses effets putatifs. De plus, le corps produit probablement des endorphines en réponse à la piqûre, ce qui fait que même si la réduction de la douleur est réelle, elle ne provient peut-être pas d’où ou comment les aiguilles sont placées.

Lorsque l’on change le contrepoint en comparant l’acupuncture « vraie » à une acupuncture réalisée par un acteur, la corrélation disparaît. Ceux qui ont reçu le faux traitement ne déclarent pas plus de douleur que ceux qui ont reçu le « vrai ».

Lorsque ni randomisation, ni double aveugle ni groupe contrôle ne sont possibles…

 

Un « contrôle » absolument impératif dans n’importe quelle expérience afin d’éliminer les variables de confusion est la randomisation de l’assignation à un groupe. En d’autres termes, les gens qui vont recevoir, disons, le faux traitement d’acupuncture de notre exemple précédent sont assignés à ce groupe au hasard (par exemple en tirant aux dés).

On fait cela car si n’importe quel critère autre que le hasard était utilisé, ce critère pourrait expliquer les différences de résultat (ou l’absence de différence). Par exemple, si on met tous les patients ayant un mal de crâne dans un groupe et tous ceux ayant mal au dos dans l’autre, le résultat serait explicable par le fait que ces deux groupes ont des symptômes différents.

C’est un problème dans de nombreuses recherches, spécialement pour l’éducation et la santé. Par exemple, on ne peux éthiquement pas obliger des gens à fumer, que ce soit au hasard ou pas, alors comment faire pour éliminer les facteurs de confusion ?

Les gens qui choisissent de fumer sont différents de ceux qui choisissent de ne pas le faire sur de très très nombreux critères et n’importe lequel de ces critères pourrait expliquer les taux supérieurs de cancer. Mais je ne connais personne qui nierait que fumer provoque le cancer.

Alors, que ce passe-t-il lorsqu’il est impossible de réaliser de « vrais » expériences contrôlant toutes les variables de confusion ? Laisse-t-on tomber ?

Bien sûr que non.

Dans ces cas, on se repose sur des preuves convergeant de différentes approches de la question jusqu’à ce que les statistiques nous disent qu’il est très très hautement improbable que la corrélation soit fallacieuse.

Lorsqu’on en vient au problème de savoir si fumer provoque le cancer, on commence par établir une corrélation avec l’ordre temporel. C’est assez facile : les fumeurs ont bien plus de chance de développer un cancer dans leur vie que les non-fumeurs.

Mais, puisqu’on ne peut pas éliminer toutes les variables de confusion, on doit recourir à de nombreuses études différentes, éliminant ainsi des explications hypothétiques. On sait, par exemple, que fumer provoque des cancers chez le rat (ça pose d’autre problèmes éthiques mais ça a été fait). On ne peut pas être sur que les effets seront les même chez les humains, mais lorsqu’on recoupe ces résultats avec d’autres études où l’on a pu contrôler des variables comme l’accès au système de santé et le fait de faire de l’exercice, la probabilité que le fait de fumer ne provoque pas le cancer est réduit.

Plus on fait d’études, plus on élimine d’hypothèses et plus il est probable que l’hypothèse restante (fumer provoque le cancer) soit la bonne.

Je vous invite à penser à la façn dont nous savons que les vaccins ne causent pas l’autisme, même si nous ne pouvons (éthiquement) pas assigner au hasard des enfants à un groupe qui serait vacciné tandis que les autres ne le seraient pas, la réponse devient claire lorsque l’approche se fait sous un angle différent.

Donc j’espère que je ne vous aurais pas fait des nœuds au cerveau avec cette explication sur-simplifiée (quoiqu’un peu longue), c’est un sujet cher à mon cœur de méthodologiste et l’un de ceux dont je pense que les sceptiques devraient s’en saisir chaque fois que possible.

Advertisements

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Information

Cette entrée a été publiée le 12 mai 2016 par dans Intermédiaire, et est taguée , , .
%d blogueurs aiment cette page :