Comment réaliser les statistiques de mon mémoire avec un outil simple ?

Ici on abordera un outil simples d’accès pour effectuer quelques analyses sur nos données. Cet outils, c’est R. Sachez que R est un outil complètement gratuit et libre. Vous pouvez utiliser même des consoles R en ligne si vous ne souhaitez pas l’installer sur votre machine.

Pour cela il vous suffit de taper « console R en ligne » dans votre moteur de recherche et le tour est joué. (voici un exemple de site: http://cristian-riccio.ch/2016/02/console-r-en-ligne/).

1 – Importer mes données

On va faire simple, même si ça va être l’étape fastidieuse et moins intéressante de ce process. Vous allez inscrire vos données en colonne de la manière suivante:

MaDonneeA = c(x1,x2,x3,x4,…,xN)

MaDonneeB = c(y1,y2,y3,y4,…,yN)

exemple:

2 – Ma première commande d’analyse

Une fois vos données importées il peut être intéressant de connaître la moyenne, minimum, maximum … Une commande permet de regrouper cela. C’est la commande: summary(MaDonnee). Exemple:

Cela vous permettra d’avoir une vision plus précise de vos données.

3 – Tester la normalité

Souvent il est utile de tester la normalité des données pour savoir si on peut appliquer le test de student ou non par exemple. Pour cela vous pouvez effectuer un test de shapiro wilk sur votre jeu de donnée en tapant shapiro.test(MaDonnee).

H0 (hyptohèse nulle) du test Shapiro-Wilk est « la distribution de la variable aléatoire est normale ». Par conséquent, si la pvalue < 0,05 alors on peut dire que le jeu de donnée ne suit pas une loi normale (au risque alpha = 5% de se tromper). Autrement dit, on rejette H0.

4 – Effectuer un test de student

Maintenant on va comparer nos deux observations. Si on a montré grace à l’étape précédente qu’elles suivaient une loi normale. Alors on effectué un test de student.

t.test(MaDonneeA,MaDonneeB)

Ici on observe une pvalue de 2.649e-05 < 5% donc on peut dire que nos deux jeux données ont une différence significative au risque alpha = 5% de chance de se tromper.

Si mes observations ne suivaient pas une loi normale alors j’aurais dû utiliser un test de wilcoxon.

wilcox.test(MaDonneeA,MaDonneeB)

Enfin, si mes données sont appariées, il me faudrait utiliser les tests pour données appariées:

t.test(MaDonneeA , MaDonneeB, paired = TRUE)

ou

wilcox.test(MaDonneeA, MaDonneeB, paired = TRUE)

5 – Avec des données quantitatives

Si vous avez des observations avec des données qualitatives il est également possible d’inscrire votre tableau de contingence de la même manière vu qu’auparavant.

le test à appliquer sera chisq.test(MonTableau).

H0 indique une indépendance des données. Si votre pvalue indique une valeur inférieur à 5%. Alors on rejette H0 (l’indépendance des données).

Publié par

Louis Aldebert

Je suis Louis Aldebert, ingénieur informatique et mathématiques appliquées. J'ai toujours aimé les mathématiques et c'est certainement cela qui m'a amené à étudier à la Sorbonne. Où j'ai eu la chance d'étudier les statistiques avec R et Python. Je travaille maintenant pour une assurance où je réalise les modèles statistiques et probabilistes. J'ai eu l'idée de ce blog suite à des personnes qui m'ont contacté en rapport avec leur statistiques de mémoire. Je me suis alors lancé pour mission de créer un outil permettant aux personnes de tester simplement leur données sans travailler en rond pendant des heures leur cours de stats. N'hésitez pas à aller voir le site: https://plizdomystatz.shinyapps.io/PlizDoMyStatz/ et à me faire vos retours ! :) À bientôt sur mon blog les amis !

Répondre

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s