Associations Libres

"Faut pas croire tout ce qu'on voit sur le web" – Einstein

La hiérarchie des preuves scientifiques dans la recherche médicale – The Logic of science

Les humains sont extrêmement sujets au biais de confirmation, nous avons une forte tendance à nous raccrocher à tout ce qui supporte nos opinions et à ignorer aveuglément tout ce qui ne le fait pas. Et cela est particulièrement vrai lorsqu’on en vient à des sujets scientifiques.

Les gens aiment croire que la science est de leur côté et utilisent souvent des articles scientifiques pour conforter leurs positions. Citer la littérature scientifique peut, bien sûr, être une excellente chose. De fait, j’insiste fréquemment que nous devons nous reposer sur la littérature revue par les pairs dans les sujets scientifiques.

Ce billet est une traduction de : The hierarchy of evidence: Is the study’s design robust?

NDT : merci à Vanessa C. pour la relecture et les notes de bas de page.

Le problème est que tous ne se valent pas. De recherches de piètre qualité sont parfois publiées, et nous avons atteint un point de notre histoire où il y a tellement d’articles qui paraissent que si vous cherchez suffisamment, vous pourrez trouver au moins un papier supportant à peu près toutes les hypothèses que vous pourriez imaginer.

Ainsi, nous devrions toujours être attentifs avant d’accepter avec enthousiasme les articles qui s’accordent avec nos préconceptions, tout comme il faudrait toujours examiner attentivement les publications. Je me suis déjà attelé à ce sujet en décrivant les bons et les mauvais critères pour rejeter un papier. Cependant, ces deux billets se concentraient principalement sur comment dire si oui ou non une étude avait été réalisée correctement, et la situation est nettement plus compliquée que ça.

Vous voyez, il y a de nombreux types d’études scientifiques et certaines conceptions sont plus robustes et puissantes que d’autres. Ainsi, vous pouvez avoir deux études faites correctement mais ayant atteint des conclusions différentes – voire opposées.

Par conséquent, lorsque l’on s’intéresse à un article, il est critique de s’intéresser au type de design expérimental qui a été utilisé et de se demander si oui ou non il est robuste. Pour vous aider dans ce but, je vais tenter de vous fournir une description de certains des designs les plus communs, en commençant par le moins fiable pour finir par ceux faisant le plus autorité.

Attention, avant de commencer, il convient de faire quelques clarifications.

Tout d’abord, cette hiérarchie des preuves est une ligne de conduite générale et non pas une règle absolue. Il y a certainement des cas où une étude ayant une conception relativement faible peut en surpasser une autre ayant un design plus robuste (j’évoquerai certains de ces cas dans ce billet). Et si il n’y a pas de règle absolue sur la hiérarchie, on s’accorde généralement sur le fait que l’ordre présenté ici classe effectivement la conception des publications elles-mêmes par ordre de robustesse.

Nombre d’autres hiérarchies incluent des critères dont je ne discute pas ici car je me concentrerais uniquement sur le design.

Ensuite, l’ordre exact des designs que j’ai classé de « très faible » à « faible » est discutable, mais le point clé est qu’ils sont toujours tous considérés comme étant les plus faibles formes de preuves.

Troisièmement, par amour de la brièveté, je ne détaillerais que les grandes lignes des méthodes de recherches dont je parlerais. Il existe des sous-catégories pour chacune d’entre elles que je ne ne mentionnerais pas.

Quatrièmement, cette hiérarchie est principalement valable pour tout ce qui concerne la santé humaine (c’est à dire les causes d’une maladie en particulier, la sûreté d’un médicament ou d’un aliment, l »efficacité d’une thérapie, etc etc). De nombreuses autres disciplines utilisent, cependant, des méthodologies similaires et la majeure partie de ce billet s’applique à elles aussi (par exemple, revues systématiques et méta-analyse sont toujours ce qu’il a de plus élevé).

Enfin, supposez que pour le bien de cet article, je supposerais que toutes les études ont été faites correctement et ont utilisé les contrôles, randomisation et autres qui sont requis pour ce type précis d’étude. En réalité, ce sont des choses qu’il est très important de vérifier lorsque vous lisez un article.

1 – Billets d’humeur et lettres ouvertes (fiabilité = très faible)

Certains journaux publient ce genre de choses, c’est plutôt inhabituel pour des publications académiques car ce ne sont pas réellement des recherches. Cela consiste, pour l’auteur, à donner son avis sur une position particulière, expliquer pourquoi la recherche devrait se concentrer dans une certaine direction, exposer un problème avec un article en particulier, etc.

Cela peut être assez utile puisqu’ils sont généralement écrits par des experts du domaine concerné, mais vous ne devez pas les confondre avec une nouvelle preuve scientifique. Ainsi, il serait trompeur d’en évoquer un en disant « une nouvelle étude a montré que…. », il faudrait plutôt dire « ce chercheur a mis en avant l’argumentaire suivant et il est éloquent… » mais vous ne pouvez pas donner à cet argument le statut de preuve.

Pour être clair, les argumentaires peuvent être très utiles et ils mènent souvent à des recherches ultérieures, mais vous ne pouvez pas faire une affirmation du style de « les vaccins causent l’autisme car ce scientifique pense que c’est le cas dans sa dernière lettre ouverte ». Les opinions doivent mener à des recherches mais ne pas être considérées comme ces dernières.

2 – Les rapports de cas (fiabilité = très faible)

Ce sont essentiellement des anecdotes mises en avant, il y a par exemples des études ne concernant qu’un seul cas rapporté. En médecine, elles sont typiquement centrées sur un seul patient et peuvent inclure des choses comme une réactions nouvelle à un traitement,, une malformation physiologique étrange, le succès d’une nouvelle thérapie, la progression d’une maladie rare etc.

D’autres champs d’études ont des publications similaires. Par exemple, en zoologie, on trouve des « notes d’histoire naturelle » qui sont des observations d’un nouvel attribut ou comportement (par exemple, le premier cas rapporté d’albinisme chez une espèce, un changement de régime alimentaire jamais observé,…).

Les études de cas peuvent être très utiles en temps que point de départ pour de futures investigations, mais elles ne sont généralement qu’une simple anecdote, donc vous ne devriez pas leur accorder trop de poids. Par exemple, imaginons qu’un nouveau vaccin est mis au point et que durant sa première année d’utilisation, un médecin reçoit un patient qui a commencé à avoir des convulsions après avoir reçu le vaccin. Il rédige donc un rapport de cas à ce propos.

Cette étude devrait (et sera certainement) être prise au sérieux par la communauté médicale et scientifique qui devra ensuite mettre en place une étude pour déterminer si oui ou non le vaccin cause réellement des convulsions, mais vous ne pouvez pas utiliser cette étude comme une preuve manifeste que les vaccins sont dangereux. Il faudra attendre une étude à grande échelle avant de parvenir à une telle conclusion.

N’oubliez jamais que le fait qu’un événement A survienne avant un événement B ne signifie pas que A est la cause de B (c’est en fait un sophisme appelé post hoc, ergo propter hoc). Il est tout à fait possible que les convulsions aient été causées par quelque-chose n’ayant absolument aucun rapport avec le vaccin, et que la proximité temporelle ne soit qu’un simple hasard.

3 – L’expérimentation animale (fiabilité = faible)

Les recherches sur les animaux les utilisent pour tester de nouveaux médicaments, des OGM, etc pour avoir une idée de si ils sont sûrs et/ou efficaces ou pas avant de passer aux essais sur les humains. L’endroit exact de là où ces tests se situent dans la hiérarchie des preuves est discutable, mais ils sont toujours placés plutôt bas.

La raison en est relativement simple : la physiologie humaine est différente de celle d’autres animaux, donc un médicament peut agir différemment chez un humain de ce qu’il produit chez une souris, un cochon, …

La robustesse d’une étude sur un animal dépendra également d’à quel point la physiologie de l’espèce en question « colle » à celle des humains (par exemple, en règle générale, une étude chez le chimpanzé sera plus convaincante qu’une réalisée sur des souris).

Puisque l’expérimentation animale est intrinsèquement limitée, elle n’est généralement utilisée que comme point de départ d’études plus longues. Par exemple, lorsqu’un nouveau médicament est développé, il sera généralement testé sur des animaux avant d’être essayé chez l’humain. Si il montre des résultats prometteurs durant ces tests, alors les essais sur des sujets humains seront approuvés. Une fois que ces derniers auront eu lieu, ceux sur les animaux deviennent clairement non pertinents, donc vous devriez faire très attention si vous basez une argumentation sur ce type de tests.

Il faut bien noter cependant, qu’il y a certains types d’investigations qui s’achèvent nécessairement avec des animaux. Lorsqu’on étudie la toxicité aiguë d’un produit par exemple et que l’on essaye de déterminer quelle est sa dose létale, il serait manifestement très peu éthique de conduire des recherches sur des humains.

Et donc, il nous faut nous reposer sur des études sur des animaux, au lieu d’utiliser nos congénères pour déterminer à quel dose un produit devient mortel pour nous.

Enfin, je veux mettre en exergue que le problème avec ce type d’étude n’est pas d’ordre statistique, au lieu de cela, c’est plus lié à l’applicabilité. Vous pouvez (et devez) faire de l’expérimentation animale en utilisant un design de randomisation contrôlé, cela vous donnera une extraordinaire puissance statistique, mais le résultat que vous obtiendrez peut parfaitement ne pas du tout être transposable aux humains.

En d’autres termes, vous pouvez avoir montré de façon très convaincante la façon dont X se comporte chez les souris, mais ça ne veut pas du tout dire qu’il agira de la même façon chez nous.

4 – Les études in vitro (fiabilité = faible)

In vitro signifie « dans le verre » en latin et est utilisé pour désigner les études « en éprouvettes ». C’est à dire que ce sont des études de laboratoire qui utilisent des cellules isolées, des molécules biologiques, etc au lieu de complexes organismes multi-cellulaires. Par exemple, si nous voulons savoir si oui ou non le médicament X soigne le cancer, on pourrait commencer avec une étude in vitro où quelques cellules d’un cancer serait exposées à X pour voir ce qui se passe.

Le problème est que dans un environnement limité et contrôlé comme celui d’un tube à essai, les composés chimiques se comportent souvent très différemment de la façon dont ils réagissent dans un environnement aussi incroyablement complexe que le corps humain. Chaque seconde, des milliers de réactions chimiques ont lieu au sein de notre organisme, et ces dernières peuvent interagir avec le médicament testé et l’empêcher de fonctionner comme on le désirerait.

Pour que quelque-chose comme une molécule qui tue les cellules cancéreuses puisse fonctionner, elle doit être transportée dans le corps jusqu’aux cellules en question, ignorer les cellules saines, ne pas interagir avec les milliers d’autres molécules présentes (ou au moins ne pas interagir d’une façon qui soit nuisible ou empêche quelque-chose de fonctionner) et enfin pouvoir effectivement tuer les cellules cancéreuses.

Donc, montrer qu’une substance tue les cellules cancéreuses dans une boîte de pétri ne résout qu’une toute petite partie d’un puzzle aussi grand que complexe. Ainsi, les études in vitro devraient toujours être à la base d’une étude plutôt que sa conclusion. Les gens semblent souvent ne pas réaliser cela cependant et on voit souvent des études in vitro brandies comme la preuve que tel nouveau traitement marche, que les OGM sont dangereux, que les vaccins causent l’autisme,…

En réalité, vous devez attendre des études avec une conception substantiellement plus puissante avant de dessiner une conclusion. Pour être clair, tout comme avec l’expérimentation animale, c’est un problème d’application, pas de statistique.

5 – Les études transversales (fiabilité = modérée)

Les études transversales (ou études de prévalence) détermine la prévalence d’un trait particulier dans une population particulière à un moment particulier, et elles s’intéressent souvent aux rapport entre ce trait et une ou plusieurs variables. Ce études ne sont qu’observationnelles.

En d’autres termes, elles collectent des données sans interférer avec, ni affecter les patients. Elles sont généralement réalisées grâce à des questionnaires ou des archives d’examens médicaux. Par exemple, vous pouvez faire une étude transversale pour déterminer le pourcentage réel de maladies cardiaques dans une population donnée, à un moment donné, et, dans le même temps, collecter également des données sur d’autres variables (comme la prise de certains médicaments par exemple) dans le but de savoir si certains médicaments, régimes, métiers ou autres sont corrélés à des maladies du cœur.

Pour résumer, ces études ne sont généralement que de simples recherches de prévalences et de corrélations.

Il y a plusieurs problèmes avec cette approche, ce qui rend les études qui en sont issues généralement faibles. Tout d’abord, il n’y a pas de randomisation, ce qui rend très difficile la détermination des variables de confusion. De plus, vous dépendez souvent de la capacité des gens à se remémorer des détails avec précisions et/ou à répondre honnêtement. Et, peut-être plus important encore, ces études ne peuvent pas être utilisées pour établir causes et effets.

Disons, par exemple, que vous réalisez l’étude que j’ai mentionnée plus haut sur les maladies cardiaques, et que vous trouviez un fort lien entre les gens atteint d’un problème au cœur et le médicament X. Cela ne veut pas dire que le médicament X est la cause de ces problèmes. Puisque les études transversales ne regardent, par définition, qu’un seul point à la fois, elles sont incapables de démêler les liens entre causes et effets.

Peut-être que les maladies cardiaques provoquent d’autres problèmes qui amènent les gens à prendre le médicament X (et donc la maladie mène à l’utilisation du médicament et non l’inverse). Ou alors, il pourrait y avoir une troisième variable dont vous ne soupçonnez pas l’existence et qui est à l’origine à la fois des cardiopathies et du besoin de médicament X.

Par conséquent, les études transversales ne devraient être utilisées que pour prendre connaissance de la prévalence d’un trait (comme une maladie) dans une population précise – ce qui est en fait leur fonction première – soit comme point de départ pour de futures recherches.

Déterminer le lien entre X et des maladies cardiaques, par exemple, devrait pousser à mettre en place un essai contrôlé randomisé (voir plus bas) pour déterminer si oui ou non il existe bien un lien de cause à effet.

Ce type d’étude peut également être utile, cependant, pour montrer que deux variables ne sont pas corrélées entre elles. Pour le dire autrement, si vous trouvez que X et les maladies cardiaques sont corrélés, alors tout ce que vous pouvez dire est qu’il y a une association entre les deux, mais cela ne permet pas de déterminer la nature de cette association.

Cependant, si vous ne trouvez pas de lien entre les deux, alors vous pouvez affirmer que les preuves ne soutiennent pas la conclusion que X cause des troubles cardiaques (au moins dans les limites de la puissance et de la taille d’effet détectable de cette étude).

6 – Les études cas-témoins (fiabilité = modérée)

Ces études sont également observationnelles, et elle marchent en quelque sorte à rebours de la façon dont on imagine souvent que marchent les expériences. Elles partent du résultat, et ensuite essayent de déterminer ce qui l’a produit. Typiquement, elles sont réalisées en distinguant deux groupes : un groupe ayant la particularité à étudier, et un groupe sans (le « groupe témoin »). Ensuite, elles étudient la fréquence de certaines causes potentielles au sein des deux groupes.

Pour illustrer ça, continuons à utiliser les maladies cardiaques et le médicament X, mais cette fois, mettons une étude cas-témoin en place. Pour faire ça, nous allons prendre un groupe ayant des maladies cardiaques et un groupe de gens qui n’en ont pas (le groupe contrôle). Il importe de faire attention aux facteurs de confusions dans ces groupes. Par exemple, vous ne pouvez pas comparer un groupe de gens pauvres et cardiaques à un groupe de gens riches et en bonne santé car le statut économique serait un facteur de confusion (c’est à dire que c’est peut être ce facteur-ci qui serait la cause des maladies). Il vous faut donc comparer de riches cardiaques à de riches sains (ou des pauvres avec des pauvres, et la même chose pour l’âge le sexe, le fait de fumer, etc).

Maintenant que nous avons nos deux groupes (des gens avec et sans problèmes cardiaques et sans facteurs de confusions) nous pouvons nous intéresser à l’usage de X au sein des deux groupes. Si X est bien la cause de problèmes cardiaques, alors nous devrions mettre en évidence une plus forte utilisation de ce produit dans le premier groupe, et si ça n’est pas le cas, alors nous devrions observer des taux de consommation similaires dans les deux groupes.

Attention, tout comme les études transversales, ces études se débattent avec les relations entre cause et effet. Dans certaines circonstance cependant, elles ont le potentiel de discerner l’effet de la cause si il est possible d’établir que la variable prédictive est advenue avant le résultat et que tous les facteurs de confusion sont listés. En règle générale, cependant, au moins une de ces conditions n’est pas remplie et ce type d’étude est sujet aux biais (par exemple, les gens qui souffrent de maladie cardiaque sont plus susceptibles de se rappeler avoir pris X que ceux qui n’en souffrent pas). Le résultat est qu’il est généralement impossible de tirer des liens de causalité de ce type d’études.

Ce qui est probablement le plus gros avantage de ces études, cependant, est le fait qu’elles peuvent étudier des cas rares. Disons, par exemple, que vous essayez d’étudier un symptôme rare qui ne survient que chez une personne sur 1000. Réaliser une étude transversale ou une étude de cohorte (voir ci-dessous) serait extrêmement difficile parce qu’il vous faudrait des centaines de milliers de gens présentant le symptôme pour avoir suffisamment de patients et atteindre une puissance statistique raisonnable.

Avec une étude cas-témoin, cependant, vous pouvez contourner le problème puisque vous commencez avec un groupe de gens ayant le symptôme et que vous n’avez qu’à créer un groupe de gens similaires en tous points… à l’exception du symptôme.

Ainsi, vous pouvez facilement atteindre une puissance statistique suffisante pour étudier des événements rares qui ne pourraient pas l’être autrement.

7 – Les études de cohorte (fiabilité = de modérée à forte)

Celles-ci peuvent être réalisées de manière prospective ou rétrospective (les études cas-témoins sont toujours rétrospectives). Dans une étude prospective, on prend un groupe de gens qui ne présentent pas le trait qui sera étudié (par exemple, des maladies cardiaques) et qui diffèrent (ou différeront) par leur exposition à une cause potentielle (par exemple le médicament X). Puis, vous les suivez pendant une période donnée pour voir qui finit par développer le trait qui vous intéresse.

Soyons clairs, c’est encore une étude observationnelle, donc vous ne les exposez pas vous-même à la cause potentielle. A la place, vous choisissez une population où certains seront de toutes façons exposés quoi qu’il advienne. Donc dans notre exemple, vous regarderiez si des gens qui prennent le médicament X ont plus de chance de développer des maladies cardiaques au bout de plusieurs années que ceux qui n’en prennent pas.

Des études rétrospectives peuvent également être faites si vous avez accès à des archives médicales détaillées. Dans ce cas, vous sélectionnez votre population initiale de la même façon, mais au lieu de la suivre effectivement, vous vous contentez d’étudier leurs dossiers médicaux les années suivantes (ceci, évidemment, requiert que vous ayez accès à un grand nombre de dossiers médicaux bien faits).

Ce type d’étude est souvent très cher et chronophage, mais il a un énorme avantage sur les autres méthodes en ce qu’il peut réellement détecter des liens de cause à effet. Puisque vous suivez vraiment la progression de l’apparition du trait, vous pouvez déterminer si la cause potentielle a bien précédé cette apparition (c’est à dire « est ce que les gens qui commencent à avoir des problèmes cardiaques ont pris le médicament X avant »).

Il faut faire attention au fait qu’il faut maîtriser les facteurs de confusion, mais si vous y arrivez, alors vous pouvez fournir des preuves de causalité (même si elles seront moins fortes qu’avec un essai contrôlé randomisé).

De plus, les études de cohortes vous permettent généralement de calculer le risque associé à une variable particulière (le risque de maladie cardiaque si vous prenez X par rapport à celui si vous n’en prenez pas).

8 – Les essais randomisés contrôlés

Ces essais sont le plus haut standard de la recherche scientifique, ils sont le design le plus puissant qu’on puisse trouver et fournissent les résultats les plus définitifs. Et ils sont également ceux avec lesquels les gens sont le plus familier.

Pour en mettre un en place, vous sélectionnez une population d’étude ayant le moins de facteurs de confusion possible (c’est à dire que tout le monde dans le groupe devrait avoir un sexe, un âge, un niveau de richesse, une santé, un mode de vie etc similaires)*. Puis, vous prenez au hasard la moitié de la population et vous en faites le groupe contrôle, la seconde moitié devenant le groupe test. L’importance de choisir les gens au hasard ne doit pas être sous-estimée et c’est même l’un des point-clés qui rendent ces essais si puissants. Dans tous les designs précédents, vous ne pouvez pas décider au hasard de qui prend le traitement ou pas ce qui limite grandement votre capacité à vous débarrasser des facteurs de confusion. Cela rend plus difficile le fait de s’assurer que chaque groupe est bien comparable, la prise du traitement mise à part.

Dans un essai randomisé contrôlé, cependant vous le pouvez (et le devez) ce qui vous donne une puissance bien plus grande car vous êtes assurés d’avoir un groupe test et un groupe contrôle aux caractéristiques similaires.

En plus de la randomisation, ces études doivent être soumises à des contrôles via placebo ou en comparant à un traitement de référence. Cela signifie que les gens du groupe test reçoivent la chose que vous voulez tester (c’est à dire le traitement X) et que ceux du groupe témoin reçoivent un faux traitement qui est en fait inerte. Idéalement, cela doit être fait en double aveugle, c’est à dire que ni le patient ni le chercheur ne doivent savoir qui est dans quel groupe. Cela permet de maîtriser à la fois l’effet placebo et les biais dont les chercheurs peuvent être victimes.

Lorsque vous prenez en compte tous ces facteurs, la raison pour laquelle cette façon de conduire les études est si puissante devrait vous sembler claire : puisque vous choisissez vos sujets d’études à l’avance, vous avez une maîtrise sans égale pour ce qui est des facteurs de confusion, et la randomisation permet d’égaliser les derniers**.

De plus, vous pouvez également évaluer l’effet placebo et éliminer les biais des chercheurs (au moins durant la phase de collecte des données, car l’attitude des chercheurs peut varier en fonction de si ils savent qu’ils donnent un placebo ou un traitement éprouvé). Tous ces facteurs combinés font que ces études sont les plus puissantes.

Et maintenant, vous devez vous demander, si elles sont si géniales, pourquoi n’utilise-t-on pas toujours ce type d’étude ? Il y a une myriade de raisons pour cela mais nous n’allons en évoquer que quelques-unes.

Tout d’abord, il serait souvent contraire à l’éthique d’agir de la sorte. Par exemple, utiliser ce type de test*** pour évaluer la sécurité des vaccins est généralement considéré comme contraire à l’éthique parce que nous savons que les vaccins fonctionnent, conduire ce type de test reviendrait donc à priver des enfants d’un traitement pouvant leur sauver la vie.

De la même façon, des études qui mèneraient à exposer délibérément des gens à des produits dont on sait qu’ils sont toxiques serait malvenu. Donc, dans ce genre de cas, nous devons nous reposer sur d’autres conceptions dans lesquels il n’y a pas d’intervention sur le patient.

Une autre raison pour ne pas utiliser ces études est le cas où le résultat qui vous intéresse est extrêmement rare. Si, par exemple, vous pensez qu’un médicament provoque des réactions sévères chez un patient sur 10.000, alors il sera quasiment impossible de réunir un échantillon suffisamment large pour être significatif, et vous devrez utiliser une étude cas-témoin à la place.

Le coût est également un facteur important, ces études tendent à être très chères et chronophages, et les chercheurs n’ont souvent tous simplement pas les ressources à leur accorder. De plus, dans bien des cas, les archives médicales nécessaires aux autres designs sont déjà disponible et il est donc tout à fait pertinent de commencer par elles.

9 – Revues systématiques et méta-analyses (fiabilité = très forte)

Situées au plus haut de la pyramide des preuves, ces études ne sont pas des expérimentations en elles-mêmes mais plutôt des relectures et des analyses d’expérimentation précédentes. Les revues systématiques passent au peigne fin la littérature disponible à la recherche d’informations sur un sujet donné puis condensent les résultats de nombreux essais en un seul article discutant tout ce que nous savons sur ce sujet.

Les méta-analyses vont un peu plus loin et combinent les données issues de multiples articles pour fournir une analyse statistique globale.

Ces deux designs fournissent des résultats très robustes car elles évitent le piège de se reposer sur une seule étude. L’une des choses les plus importantes à garder à l’esprit lorsqu’on lit de la littérature scientifique est qu’il faut toujours se méfier du « syndrome de l’étude unique ».

De mauvais papiers et d’autres présentant des conclusions incorrectes sont parfois publiés (parfois au corps défendant des auteurs), il faut donc toujours garder l’ensemble de la littérature en vue plutôt que de se concentrer sur une ou deux études isolées, et les méta-analyses font ce travail pour vous.

Disons, par exemple, qu’il existe 19 articles disant que X ne provoque pas de cardiopathies et 1 disant que c’est le cas. Les gens auront tendance à donner beaucoup d’importance à ce dernier article, mais une revue systématique corrigera cette erreur en pointant le fait qu’il ne s’agit que d’une seule étude au sein d’un corpus plus large et une méta-analyse en combinant les données issues de tous les articles.

Il est important de noter que si vous avez de la daube à l’entrée, vous en aurez aussi à la sortie. Ces articles devraient toujours indiquer les critères d’inclusion et d’exclusion et vous devez y être attentifs. Une revue systématique d’analyses transversales, par exemple, ne sera pas très puissante et peut facilement être dépassée en pertinence par quelques études randomisées contrôlées. A l’inverse, une méta-analyse de ces dernières sera incroyablement robuste.

Donc ces papiers tendent à être conçus de façon à éliminer les études de faible qualités et à inclure celles de bonnes qualités (le critère de la taille de l’échantillon joue aussi). Ces critères peuvent, cependant, être manipulés de façons à n’inclure que des études collant aux idées préconçues du chercheur, donc il faut aussi faire attention à ça.

Enfin, même si les critères d’inclusion semblent raisonnables et non biaisés, vous devriez quand même jeter un œil aux articles qui n’ont pas été retenus. Disons, par exemple, que vous avez une méta-analyse/revue systématique qui ne compterait que des essais randomisés contrôlés visant à étudier X (ce qui semble un critère très raisonnable), mais cela ne ferait que 5 publications, ne comptant toutes que des échantillons de petites tailles.

Si dans le même temps, vous pouvez trouver des douzaines d’études cas-témoins et de cohortes sur X basées sur des échantillons bien plus large et contredisant la revue systématique/méta-analyse alors on peut s’interroger légitimement sur la pertinence de cette dernière.

L’importance de la taille d’échantillon

Comme vous vous en êtes probablement rendu compte maintenant, cette hiérarchie des preuves est plus une ligne de conduite de base qu’une règle intangible, et qu’il y a des exceptions. Les plus importantes d’entre elles dépendant de la taille de l’échantillon observé.

C’est vraiment l’élément déterminant de ce billet de blog puisqu’un échantillon trop petit peut rendre complètement faiblard un design pourtant robuste initialement… et qu’un échantillonnage très important peut rendre solide une conception normalement assez faible.

Prenons une méta-analyse de 10 essais randomisés contrôlés s’intéressant à l’effet de X, et où chacun de ces essais comportait 100 personnes (ce qui fait un total de 1000 sujets).

Puis, après la publication de cette méta-analyse, quelqu’un publie une étude randomisée contrôlée basée sur un échantillonnage de 10.000 personnes et que cette étude contredise la première. Dans cette situation, il vaut bien mieux faire confiance à l’étude « simple ». Honnêtement, même si cette étude était une étude de cohorte ou de cas-témoin, j’aurais bien plus confiance dedans**** étant donné la taille énorme de son échantillon.

Malheureusement, cependant, il n’y a que peu de lignes de conduite à propos de quand la taille d’échantillon permet de bousculer la hiérarchie. Les études du plus bas niveau ne peuvent généralement pas être sauvée en fonction de ce critère (on peine à imaginer un scénario ou cela permettrait à une étude sur des souris ou in vitro de réfuter un essais randomisé contrôlé et il est très rare que cela arrive avec une étude transversale), mais pour celles de conceptions plus solide, les choses deviennent plus compliquées.

Par exemple, disons qu’une étude de cohorte prenant 10.000 personnes en compte, challenge un essai randomisé contrôlé où il y en avait 7.000. Laquelle faudrait-il prendre en compte ? Honnêtement je ne sais pas du tout. Si les deux ont été bien conduites et produisent des résultats nets alors en l’absence de preuves supplémentaires il serait bien difficile de savoir où se situe la réalité.

Cela ramène à un point central : il faut veiller à bien prendre en compte l’entièreté du corpus existant, pas juste un ou deux articles. Les risques qu’une seule étude soit biaisée d’une façon ou d’une autre sont assez hauts, mais dans les cas d’un ensemble de textes, elles le sont bien moins.

Dans certains cas, cela peut vouloir dire que vous ne pouvez pas parvenir à une conclusion, et ça n’est pas grave. La raison primordiale pour laquelle nous faisons de la science est que, justement, il y a des choses que nous ne savons pas et il faut parfois accumuler des années de données pour réussir à échapper au bruit statistique et distinguer une tendance générale.

Donc, il n’y a absolument rien de mal à dire « nous ne savons pas encore pour le moment, mais nous cherchons activement des réponses ».

Conclusion

J’ai essayé de vous présenter ici un panorama de certains des types les plus communs d’études scientifique et de fournir des informations sur leurs forces et faiblesses. C’est le genre de chose à garder à l’esprit lorsqu’on lit des publications scientifiques mais je veux mettre une fois de plus l’accent sur le fait qu’il ne s’agit que de directives générales et qu’il faut toujours scruter un papier dans le détail afin d’évaluer qu’il a été rédigé correctement.

Ce faisant, intéressez-vous à la taille de l’échantillon étudié et si il a la puissance nécessaire pour détecter des différences significatives entre les différents groupes. Peut-être plus important encore, gardez toujours en tête l’ensemble de la littérature sur le sujet abordé plutôt que de vous concentrer sur quelques études en particulier, notamment si ces dernières valident vos idées pré-établies.

Pour de nombreux sujets touchant à l’anti-science ou aux pseudo-sciences comme l’homéopathie, les dangers supposés des vaccins ou des OGM, etc vous pourrez trouver des articles qui supportent ces affirmations mais ils sont généralement basés sur de petits échantillons et/ou utilisent des designs de bas niveau là où des études plus larges et/ou mieux conçues sont parvenues à des conclusions différentes. Ceci indique que ces petites études sont un simple bruit statistique et qu’il vaut bien mieux se reposer sur de plus larges et robustes épaules de géants.


Commentaires faits par une relectrice :

* Du coup on perd un peu la raison principale de l’effet de la randomisation qui est justement de rendre deux population comparables même si la population de départ ne l’est pas. On vérifie en général toujours les caractéristiques de base pour vérifier que c’est bien le cas après randomisation.

** Le problème avec la sélection des patients est justement quelque chose qui est critiqué. L’industrie pharmaceutique a tendance a hyper sélectionner des patients peu vulnérables pour éviter des effets secondaires par exemple et quand le traitement est utilisé dans la vie réelle, des effets secondaires parfois graves sont mis en évidences et n’avaient pas été remarqué dans les études de phase 3 comme celle que vous citez dans ce chapitre. (cas du Vioxx p.ex).
Je pense que la force de l’essai randomisé n’est pas de choisir ses sujets à l’avance car ceci peut se faire aussi dans une cohorte prospective. La force de l’essai randomisé et de pouvoir créer artificiellement deux groupes totalement homogènes et faire « subir » une intervention à l’un de ces groupe et comparer son effet sur l’autre groupe totalement homogène qui aura reçu une intervention différente ou pas d’intervention du tout. Après il y a la force surajouté du blinding (aveuglement) qui peut être plus ou moins possible, efficace, simple ou double. Je ne sais pas si vous souhaitez entrer dans ce détail.
Je vous suggère cependant de modifier la première partie de la phrase car ce n’est pas le fait de choisir (sélectionner )les sujet de l’étude qui fait de l’essai randomisé sa force (je dirais plutôt sa faiblesse dans certains cas).

*** Je ne comprends pas pourquoi on ferait ce type d’étude car en général c’est déjà évalué dans les études de phase 3 (randomisé contrôlé avant autorisation de mise sur le marché). Dans le cas ou on souhaitait investiguer un nouvel effet secondaire ou de toxicité, je préciserais alors que ce ne serait pas considéré comme éthique de donner à la moitié de la population testée un placebo sans efficacité aucune alors qu’on sait que le vaccin a été prouvé comme efficace et à priori non dangereux et donc qu’on enlève ce bénéfice connu à la population de référence.

**** Je resterais prudente car la qualité d’une étude dépend de bcp de choses. Une étude observationnelle peut être extrêmement robuste en effet si la taille de l’échantillon est grande mais dépend également d’autres facteur. Je pondérerais légèrement cette affirmation même si je comprends ce que l’auteur veut dire.

Publicités

2 commentaires sur “La hiérarchie des preuves scientifiques dans la recherche médicale – The Logic of science

  1. Pingback: [Intox] Tétanos : une propagande vaccinale abusive et dangereuse ! – Initiative Rationnelle

  2. Pingback: [Intox] Les vaccins causent des fractures ! – Initiative Rationnelle

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Information

Cette entrée a été publiée le 4 février 2016 par dans Confirmé, et est taguée , , .
%d blogueurs aiment cette page :