P<0,05 OU COMMENT CRIER VICTOIRE TROP TÔT

Cet article est écrit en réaction à un post publié par David Louapre (Science étonnante).

Pourquoi, sur les résultats d’études scientifiques relayé par les médias, on entend tout et son contraire ?
Les mathématiques statistiques ne sont vraies qu’une fois sur deux ?

L’ultra norme de la différence significative si p-value < 5%

Lorsqu’on applique un test statistique entre deux observations, on s’intéresse surtout à la p-value. Si on a mené une étude avec des sujets pendant une certaine période, on a qu’une envie. L’envie de montrer l’impact significatif d’un phénomène sur un autre.

En effet, selon les tests paramétriques classiques des outils de statistique, une valeur de p inférieur à 5 % indique le phénomène est significatif. Cela signifie qu’en obtenant 4,99 %, on peut chanter à la gloire du statisticien et à 5,01 %, on le renie ?

Cette « dictature du petit p », si bien décrit dans l’article de notre ami, peut mener à bien des soucis. D’après un statisticien américain, près de 25 % des résultats publiés seraient faux.

Mais alors quelles sont les alternatives ?

Une solution à ce problème serait de baisser ce seuil de tolérance d’acceptation de différence significative. De manière à ce que même si nous répétons l’expérience n fois, on obtient toujours cette valeur de p bien inférieur à 5 %.

Les médias n’aident pas non plus à la bonne communication de l’étude. En effet, l’article, pour toujours et attirer l’attention du public doit avoir un titre ou une tournure un peu exagérer, qui sort de l’ordinaire et aspire la méfiance. Ce qui peut amener à déformer le message de l’étude. De plus, les relais médiatiques sont rarement des scientifiques. La confusion de corrélation et causalité est aussi que l’amalgame peut s’avérer très faux.

Pour rappel, la corrélation et le lien d’une variable avec une autre, elle peut être négative et positive et est comprise entre -1 et 1. La droite d’équation de corrélation est de type affine : y = ax + b.

La causalité, elle définit n’est pas un principe mathématique pur, mais signifie juste la cause d’un phénomène dû à un autre. Seule une étude sur des échantillons appariés permet de mettre une lumière une causalité.

Soyez donc très attentif la prochaine fois que sur votre fil d’actualité vous voyez une phrase résumant le cas d’une étude et ne criez pas victoire trop vite après une p-value obtenue de 4,95 %. 

J’espère que cet article vous a plu n’hésitez donc pas à aller checker le post qui de David qui m’a inspiré: ici.

Quel test statistique appliquer en fonction de mes données ?

–> Cliquez ici pour appliquer automatiquement vos test statistique <–

Seulement 2 questions pour résoudre la plupart des stats de mémoires universitaires

Question 1:

Mes données sont-elles quantitatives ou qualitatives ?

Question 2:

Mes données sont elles indépendantes ou appariées ?

En règle générale, l’étude statistique demandé pour un sujet de mémoire est la comparaison de deux observations du type:

« Comparaison de l’acuité visuelle avant puis après l’application d’un traitement sur un groupe de patients »

Seulement voilà, il y a plusieurs façon de le présenter (exemple sur échantillons appariés):

  • 2 colonnes où sont indiquer l’acuité visuelle du patient avant le traitement puis après le traitement.
  • Un tableau de contingence qui représente le nombre de patient ayant une acuité visuelle insuffisante avant puis après traitement.

Si vous êtes dans le premier cas avec les 2 colonnes d’acuité pour chaque patient, vous pouvez appliquer un test de student après avoir vérifier la normalité des données. Si les données ne suivent pas une distribution gaussienne, vous pouvez appliquer le test de Wilcoxon (données appariées) ou Mann-Whitney (données indépendantes).

Si vous avez un tableau de contingence vous pouvez utiliser un test du Chi 2 si vous avez suffisamment de données (disons minimum 30 patients ici). Sinon vous pouvez utiliser un test exact de Fisher.

J’ai développé un outil permettant d’automatiser les tests si vous n’êtes pas à l’aise avec des outils statistiques comme R: PlizDoMyStatz.

À bientôt !

Comment réaliser les statistiques de mon mémoire avec un outil simple ?

Ici on abordera un outil simples d’accès pour effectuer quelques analyses sur nos données. Cet outils, c’est R. Sachez que R est un outil complètement gratuit et libre. Vous pouvez utiliser même des consoles R en ligne si vous ne souhaitez pas l’installer sur votre machine.

Pour cela il vous suffit de taper « console R en ligne » dans votre moteur de recherche et le tour est joué. (voici un exemple de site: http://cristian-riccio.ch/2016/02/console-r-en-ligne/).

1 – Importer mes données

On va faire simple, même si ça va être l’étape fastidieuse et moins intéressante de ce process. Vous allez inscrire vos données en colonne de la manière suivante:

MaDonneeA = c(x1,x2,x3,x4,…,xN)

MaDonneeB = c(y1,y2,y3,y4,…,yN)

exemple:

2 – Ma première commande d’analyse

Une fois vos données importées il peut être intéressant de connaître la moyenne, minimum, maximum … Une commande permet de regrouper cela. C’est la commande: summary(MaDonnee). Exemple:

Cela vous permettra d’avoir une vision plus précise de vos données.

3 – Tester la normalité

Souvent il est utile de tester la normalité des données pour savoir si on peut appliquer le test de student ou non par exemple. Pour cela vous pouvez effectuer un test de shapiro wilk sur votre jeu de donnée en tapant shapiro.test(MaDonnee).

H0 (hyptohèse nulle) du test Shapiro-Wilk est « la distribution de la variable aléatoire est normale ». Par conséquent, si la pvalue < 0,05 alors on peut dire que le jeu de donnée ne suit pas une loi normale (au risque alpha = 5% de se tromper). Autrement dit, on rejette H0.

4 – Effectuer un test de student

Maintenant on va comparer nos deux observations. Si on a montré grace à l’étape précédente qu’elles suivaient une loi normale. Alors on effectué un test de student.

t.test(MaDonneeA,MaDonneeB)

Ici on observe une pvalue de 2.649e-05 < 5% donc on peut dire que nos deux jeux données ont une différence significative au risque alpha = 5% de chance de se tromper.

Si mes observations ne suivaient pas une loi normale alors j’aurais dû utiliser un test de wilcoxon.

wilcox.test(MaDonneeA,MaDonneeB)

Enfin, si mes données sont appariées, il me faudrait utiliser les tests pour données appariées:

t.test(MaDonneeA , MaDonneeB, paired = TRUE)

ou

wilcox.test(MaDonneeA, MaDonneeB, paired = TRUE)

5 – Avec des données quantitatives

Si vous avez des observations avec des données qualitatives il est également possible d’inscrire votre tableau de contingence de la même manière vu qu’auparavant.

le test à appliquer sera chisq.test(MonTableau).

H0 indique une indépendance des données. Si votre pvalue indique une valeur inférieur à 5%. Alors on rejette H0 (l’indépendance des données).