P<0,05 OU COMMENT CRIER VICTOIRE TROP TÔT

Cet article est écrit en réaction à un post publié par David Louapre (Science étonnante).

Pourquoi, sur les résultats d’études scientifiques relayé par les médias, on entend tout et son contraire ?
Les mathématiques statistiques ne sont vraies qu’une fois sur deux ?

L’ultra norme de la différence significative si p-value < 5%

Lorsqu’on applique un test statistique entre deux observations, on s’intéresse surtout à la p-value. Si on a mené une étude avec des sujets pendant une certaine période, on a qu’une envie. L’envie de montrer l’impact significatif d’un phénomène sur un autre.

En effet, selon les tests paramétriques classiques des outils de statistique, une valeur de p inférieur à 5 % indique le phénomène est significatif. Cela signifie qu’en obtenant 4,99 %, on peut chanter à la gloire du statisticien et à 5,01 %, on le renie ?

Cette « dictature du petit p », si bien décrit dans l’article de notre ami, peut mener à bien des soucis. D’après un statisticien américain, près de 25 % des résultats publiés seraient faux.

Mais alors quelles sont les alternatives ?

Une solution à ce problème serait de baisser ce seuil de tolérance d’acceptation de différence significative. De manière à ce que même si nous répétons l’expérience n fois, on obtient toujours cette valeur de p bien inférieur à 5 %.

Les médias n’aident pas non plus à la bonne communication de l’étude. En effet, l’article, pour toujours et attirer l’attention du public doit avoir un titre ou une tournure un peu exagérer, qui sort de l’ordinaire et aspire la méfiance. Ce qui peut amener à déformer le message de l’étude. De plus, les relais médiatiques sont rarement des scientifiques. La confusion de corrélation et causalité est aussi que l’amalgame peut s’avérer très faux.

Pour rappel, la corrélation et le lien d’une variable avec une autre, elle peut être négative et positive et est comprise entre -1 et 1. La droite d’équation de corrélation est de type affine : y = ax + b.

La causalité, elle définit n’est pas un principe mathématique pur, mais signifie juste la cause d’un phénomène dû à un autre. Seule une étude sur des échantillons appariés permet de mettre une lumière une causalité.

Soyez donc très attentif la prochaine fois que sur votre fil d’actualité vous voyez une phrase résumant le cas d’une étude et ne criez pas victoire trop vite après une p-value obtenue de 4,95 %. 

J’espère que cet article vous a plu n’hésitez donc pas à aller checker le post qui de David qui m’a inspiré: ici.

Tutoriel PlizDoMyStatz

PlizDoMyStatz est un application développé avec le langage de programmation statistique R. Il a pour but d’automatiser des tests paramétriques telle que Student/Wilcoxon ainsi que des corrélations.
Nous allons donc voir comment bien utiliser et comprendre l’outil.

1ère Étape – Préparer son fichier de données

Comme vous pouvez le voir, on vous demande sur la gauche votre fichier *.csv pour traiter vos données. Si vous ne disposez pas de fichier *.csv, j’ai écrit un article très court où j’explique plusieurs méthode pour en avoir un: ici.


– Si votre fichier comporte des observations quantitatives, il faut le disposer de cette manière là:

NE MÉLANGEZ JAMAIS VOS VALEURS D’OBSERVATIONS AVEC UNE AUTRE DONNÉE. Par exemple ne mélangez vos valeurs relevés avec le calcul de l’écart type en bas de la colonne.

– Si votre fichier comporte des variables qualitatives, alors voici le présentation à adopter:

Une fois cela fait cliquez sur « browse »:

Ensuite une fenêtre s’affichera pour accéder à votre fichier.

Cliquez sur « Header » si vos données comporte une En-tête.

Enfin vous pouvez décider d’afficher toutes vos données ou seulement les premières lignes avec les options d’affichages.

JE CONSEILLE FORTEMENT DE CHOISIR « Tout » car comme ça on sera sur que l’outil analyse toutes les données !

Si vous avez généré votre fichier avec un format français il est très probable que vous devez indiquer comme paramètre séparateur: « PointVirgule » et décimale séparé par « Virgule ».

Votre fichier ne doit comporter des colonnes avec des données seulement en rapport avec les autres données de la colonne. Par exemple, ne mélanger par l’écart type avec les données relevées au sain du même colonne.

2ème étape – Sélectionner ses paramètres

Vous aurez remarquer la présence de paramètre à remplir. ††

Sur votre droite vous pouvez sélectionner les colonnes sur lesquels appliquer les tests. Si les colonnes ne concordent pas, vous pouvez toujours modifier votre fichier *.csv.

Les deux lignes de paramètres sont indépendantes.

3ème étape – Voir les résultats

Après que vous avez téléchargé votre fichier des affichages dynamiques apparaîtront. En fonction des paramètres que vous avez indiqué, les résultats seront différents. En effet si vos données représentent un tableau de contingence ou deux distributions observées, les fonctions statistiques appliquées ne seront pas les mêmes. (Voir autre article du blog: ici).

4ème étape – Partagez avec vos Camarades/Amis et donnez votre avis

Cet outil est très fraîchement conçu. N’hésitez pas à donner votre feedback. Cela permettra aux utilisateurs suivant de bénéficier d’une meilleur version (ou même à vous).

Pour donnez votre avis, un e-mail est disponible: PlizDoMyStatz@gmail.com.

Merci encore d’utiliser PlizDoMyStatz !

À bientôt !!!

Quel test statistique appliquer en fonction de mes données ?

–> Cliquez ici pour appliquer automatiquement vos test statistique <–

Seulement 2 questions pour résoudre la plupart des stats de mémoires universitaires

Question 1:

Mes données sont-elles quantitatives ou qualitatives ?

Question 2:

Mes données sont elles indépendantes ou appariées ?

En règle générale, l’étude statistique demandé pour un sujet de mémoire est la comparaison de deux observations du type:

« Comparaison de l’acuité visuelle avant puis après l’application d’un traitement sur un groupe de patients »

Seulement voilà, il y a plusieurs façon de le présenter (exemple sur échantillons appariés):

  • 2 colonnes où sont indiquer l’acuité visuelle du patient avant le traitement puis après le traitement.
  • Un tableau de contingence qui représente le nombre de patient ayant une acuité visuelle insuffisante avant puis après traitement.

Si vous êtes dans le premier cas avec les 2 colonnes d’acuité pour chaque patient, vous pouvez appliquer un test de student après avoir vérifier la normalité des données. Si les données ne suivent pas une distribution gaussienne, vous pouvez appliquer le test de Wilcoxon (données appariées) ou Mann-Whitney (données indépendantes).

Si vous avez un tableau de contingence vous pouvez utiliser un test du Chi 2 si vous avez suffisamment de données (disons minimum 30 patients ici). Sinon vous pouvez utiliser un test exact de Fisher.

J’ai développé un outil permettant d’automatiser les tests si vous n’êtes pas à l’aise avec des outils statistiques comme R: PlizDoMyStatz.

À bientôt !

Comment réaliser les statistiques de mon mémoire avec un outil simple ?

Ici on abordera un outil simples d’accès pour effectuer quelques analyses sur nos données. Cet outils, c’est R. Sachez que R est un outil complètement gratuit et libre. Vous pouvez utiliser même des consoles R en ligne si vous ne souhaitez pas l’installer sur votre machine.

Pour cela il vous suffit de taper « console R en ligne » dans votre moteur de recherche et le tour est joué. (voici un exemple de site: http://cristian-riccio.ch/2016/02/console-r-en-ligne/).

1 – Importer mes données

On va faire simple, même si ça va être l’étape fastidieuse et moins intéressante de ce process. Vous allez inscrire vos données en colonne de la manière suivante:

MaDonneeA = c(x1,x2,x3,x4,…,xN)

MaDonneeB = c(y1,y2,y3,y4,…,yN)

exemple:

2 – Ma première commande d’analyse

Une fois vos données importées il peut être intéressant de connaître la moyenne, minimum, maximum … Une commande permet de regrouper cela. C’est la commande: summary(MaDonnee). Exemple:

Cela vous permettra d’avoir une vision plus précise de vos données.

3 – Tester la normalité

Souvent il est utile de tester la normalité des données pour savoir si on peut appliquer le test de student ou non par exemple. Pour cela vous pouvez effectuer un test de shapiro wilk sur votre jeu de donnée en tapant shapiro.test(MaDonnee).

H0 (hyptohèse nulle) du test Shapiro-Wilk est « la distribution de la variable aléatoire est normale ». Par conséquent, si la pvalue < 0,05 alors on peut dire que le jeu de donnée ne suit pas une loi normale (au risque alpha = 5% de se tromper). Autrement dit, on rejette H0.

4 – Effectuer un test de student

Maintenant on va comparer nos deux observations. Si on a montré grace à l’étape précédente qu’elles suivaient une loi normale. Alors on effectué un test de student.

t.test(MaDonneeA,MaDonneeB)

Ici on observe une pvalue de 2.649e-05 < 5% donc on peut dire que nos deux jeux données ont une différence significative au risque alpha = 5% de chance de se tromper.

Si mes observations ne suivaient pas une loi normale alors j’aurais dû utiliser un test de wilcoxon.

wilcox.test(MaDonneeA,MaDonneeB)

Enfin, si mes données sont appariées, il me faudrait utiliser les tests pour données appariées:

t.test(MaDonneeA , MaDonneeB, paired = TRUE)

ou

wilcox.test(MaDonneeA, MaDonneeB, paired = TRUE)

5 – Avec des données quantitatives

Si vous avez des observations avec des données qualitatives il est également possible d’inscrire votre tableau de contingence de la même manière vu qu’auparavant.

le test à appliquer sera chisq.test(MonTableau).

H0 indique une indépendance des données. Si votre pvalue indique une valeur inférieur à 5%. Alors on rejette H0 (l’indépendance des données).