Analyses descriptives avec R
Autoformation
S’autoformer en statistique via des tutoriels et des capsules vidéo
Analyses descriptives avec R
Dans ce tutoriel, nous commençons avec un fichier de données Excel, nous l’exportons en format CSV, nous l’importons dans R, puis nous générons quelques statistiques descriptives (pour tout l’échantillon, puis séparément par groupes).
Pour vous pratiquer, vous pouvez télécharger les données (fichier Excel) utilisées dans ce tutoriel !
Étape 1: Préparer un document CSV à partir de Excel
Cliquez sur « File » en haut à gauche de votre fichier Excel, puis cliquez sur « Save as… »
En bas de la boîte qui vient d’apparaître, cliquez sur « file format ».
Dans le menu déroulant choisissez Comma Separated Values (.csv)
Sauvegardez votre document CSV dans le même dossier que votre document Excel afin de ne pas le perdre.
- Truc : n’utilisez pas de symbole ou d’accent pour nommer votre fichier, ceci évite les erreurs de lecture lors de l’exportation et d’importation.
- Note : CSV signifie Comma Separated Values (valeurs séparées par une virgule). Ce type de document est souvent utilisé afin d’envoyer des tableaux Excel de manière standardiser vers d’autre logiciel.
Étape 2: Importer les données dans R
Après avoir démarré R, cliquez sur le l’icône en haut à droite.
Dans le menu déroulant, cliquez sur le premier choix « R Script ».
Un panneau apparaitra en haut à gauche. C’est là que votre code sera écrit et vos commandes exécutées.
Vous devez maintenant importer le fichier csv dans R et lui donner un nom de référence au sein même du logiciel.
Pour ce faire, utilisez le symbole de la flèche pointant vers la gauche ( <- ) précédant votre commande et choisissez un nom pour votre banque (dans l’exemple ci-contre elle s’appelle « Banque ».
Dans la même commande, utilisez la commande read.csv() afin d’importer votre fichier. Inscrivez la commande, puis le nom complet de votre fichier CSV entre guillemets à l’intérieur des parenthèses.
Votre commande devrait ressembler à l’exemple suivant :
mes_donnees <- read.csv("nom de la banque de données.csv")
Après avoir exécuté cette commande (touche COMMANDE et Enter), vous remarquerez qu’un nouvel élément portant le nom choisi vient d’apparaître dans votre « environnement ».
Si vous désirez voir vos données d’une manière similaire à Excel, cliquez simplement sur ce nouvel élément dans l’environnement, et une feuille similaire à Excel s’ouvrira en onglet en haut à gauche. Cela vous permet de faire une vérification visuelle rapide de vos données
- Truc : Utilisez le symbole # pour écrire du texte dans le script pour prendre vos notes
- Truc : Pour exécuter une commande dans le script, vous devez appuyer simultanément sur « command » et « enter ». N’appuyer que sur « enter » vous permet de sauter à la ligne suivante.
- Note : Le symbole de la flèche pointant vers la gauche « <- » est très souvent utilisé. Elle sert à attribuer un nom une banque de données, un ensemble de valeurs, une fonction ou un vecteur. Lorsque la commande est exécutée, les éléments nommés apparaitront dans votre environnement.
Étape 3: Analyse descriptive de base
Par défaut, plusieurs fonctions sont directement disponibles dans R.
La fonction summary() permet d’obtenir les données descriptives de base de votre échantillon.
Après avoir inscrit le nom de votre banque de données entre les parenthèses de la fonction summary(), exécutez la commande. Vous verrez dans la console (en haut à droite) apparaître une série de colonnes contenant les statistiques descriptives propres à chaque variable (colonne dans votre fichier CSV).
Si vous vous intéressez à une variable spécifique, il est possible d’utiliser cette même fonction en spécifiant à R pour quelle variable vous souhaitez faire ces analyses.
Pour ce faire, utilisez le symbole $. Écrivez dans le script:
summary(le nom de votre banque de données $ le nom de la variable désirée)
Après avoir exécuté la fonction, vous verrez dans la console (en haut à droite) apparaître une ligne contenant les statistiques descriptives propres à la variable choisie.
Si vous vous intéressez non seulement à une variable précise, mais également à une statistique particulière, optez directement pour les fonctions suivantes :
- mean() pour la moyenne
- median() pour la mediane
- sd() pour l’écart-type
- min() pour le minimum
- max() pour le maximum
- NOTE :
Min = valeur la plus basse
1st Qu. = valeur déterminant le seuil du plus bas quartile (25% des données se trouvent sous cette valeur).
Median = Valeur séparant la distribution des données à son juste milieu
Mean = Moyenne (somme de toutes les valeurs, divisée par le nombre de valeurs)
3rd Qu. = valeur déterminant le seuil du plus haut quartile (25% des données se trouvent au-dessus de cette valeur)
Max = valeur la plus élevée - Note : il existe une multitude de fonctions inhérentes à R vous permettant toute analyse statistique. Pour mieux les explorer, aller dans l’onglet « packages » (panneau en bas à droite) et chercher puis cliquer sur « stats ».
- Truc : Dans une fonction, le symbole $ permet d’aller chercher l’une des variables spécifiques dans une banque de données (nom de la colonne).
- Truc : Si vous oubliez à quoi sert une fonction, vous pouvez utiliser le symbole « ? » avant celle-ci. Ainsi, si vous exécutez la fonction ?sd() une fenêtre « help » s’ouvrira en bas à droite de votre écran. Cette fenêtre contient toutes les informations relatives à la fonction.
Étape 4: Analyse descriptive avancée
Allons plus loin avec le package « psych », un package expressément conçu pour les analyses statistiques en sciences humaines.
Pour télécharger un package sur R, il suffit d’utiliser la commande install.packages() directement sur le script. Il vous suffit d’avoir un accès internet et le tout ne devrait prendre que quelques secondes.
Pour télécharger le package « psych » entrez la commande install.packages (‘’psych’’) dans votre script.
Après avoir exécuté la commande, vous devriez voir apparaître le téléchargement du package dans votre panneau supérieur droit.
Pour accéder aux fonctionnalités du package, vous devez ensuite l’activer en utilisant la fonction library(). Entrez la commande library(psych) dans votre script et exécutez-la.
Vous pouvez maintenant utiliser l’une des nombreuses fonctions qu’offre le package psych. Dans le cadre de ce tutoriel, nous nous arrêterons aux analyses descriptives de base avec la fonction describe().
En écrivant et exécutant la commande describe(le nom de votre banque) dans votre script, vous générerez un tableau riche en données descriptives. La première colonne présente toutes les variables et les colonnes suivantes, les statistiques descriptives de bases pour chaque variable.
Comme pour les fonctions précédentes, il est possible de cibler une variable précise. Utiliser encore la fonction describe() en y ajoutant le nom de la banque, suivi du symbole $ et de la variable désirée.
Après avoir exécuté la fonction describe(nom de votre banque $ nom de la variable), vous verrez apparaitre une ligne dans votre console.
Disons maintenant que vous voulez faire des analyses descriptives en séparant votre échantillon en sous-groupe. Par exemple, vous voulez séparer votre échantillon selon la langue de vos participants.
La fonction describeBy() vous permet non seulement d’obtenir les informations par variable, mais également par sous-groupe.
Dans la fonction describeBy(), écrivez la variable d’intérêt, suivi d’une virgule puis de la variable qui servira à créer les groupes.
Après avoir exécuté describeBy(variable d’intérêt, variable de groupe) vous apparaître à votre droite les mêmes données descriptives, mais propres à chacun des groupes. Dans l’exemple, les groupes sont formés selon la langue des participants (en/fr).
- Note : la fonction install.packages() requiert des guillemets pour le package mais pas la fonction library().
- Note :
N = nombre de valeurs
Mean = moyenne
Sd = écart-type
Median = médiane
Trimmed = moyenne ajustée
Mad = écart moyen absolu
Min = minimum
Max = maximum
Range = écart entre le minimum et le maximum
Skew = déviation ou asymétrie
Kurtosis = coefficient d’asymétrie
Se = erreur type
Trucs généraux
- Truc : rm() pour enlever une variable ou une banque de données de l’environnement
- Truc : les majuscules sont très importantes et doivent toujours être respectées
- Truc : en haut à droite de votre console, vous trouvez l’icône d’un balai, qui permet d’effacer la console. Très pratique pour maintenir un environnement de travail propre et épuré, surtout au début de votre apprentissage.
PARTAGEZ VOS IMPRESSIONS & POSEZ VOS QUESTIONS ICI !