Modélisation par équations structurelles (SEM) avec JASP
Autoformation
S’autoformer en statistique via des tutoriels et des capsules vidéo
Modélisation par équations structurelles (SEM) avec JASP
Ce tutoriel a pour objectif de vous initier aux modélisations par équations structurelles (ou SEM pour « Structural Equation Modelling »), soit une méthode statistique qui permet d’intégrer différentes analyses statistiques telles que les analyses de trajectoires, les modérations, les médiations, les analyses factorielles, l’analyse acheminatoire et plus encore.
Les analyses de ce tutoriel seront exécutées sur JASP. Pour vous pratiquer, vous pouvez télécharger les données (fichier CSV) utilisées dans ce tutoriel !
Utilité des SEM
Les SEM sont généralement utilisées pour répondre à des questions de recherche estimant une relation linéaire (p. ex., une régression ou une médiation) entre des variables exogènes (c.-à-d., indépendantes) et des variables endogènes (c.-à-d., dépendantes ou prédites). Elles permettent également d’inclure des construits multidimensionnels qui ne peuvent être directement observés dans un échantillon (p. ex., les intentions de quitter une organisation), soit des variables latentes. Ces variables sont mesurées via des indicateurs observables théoriquement sous-jacents au construit en question. Les variables latentes seront approfondies dans la section sur les analyses factorielles confirmatoires.
Une grande force des SEM est leur capacité à examiner des modèles d’une complexité plus pointue. Par exemple, en ajoutant des variables médiatrices ou modératrices, celles-ci nous informent sur les lien directs et indirects (via un médiateur ou modérateur) des variables exogènes sur les variables endogènes. Toutefois, par principe de simplicité, ce tutoriel explorera seulement un modèle de régression dans lequel la variable endogène est latente.
Pour les fins de ce tutoriel, nous examinerons le modèle suivant :
Tel que mentionné ci-haut, une variable latente n’est pas directement mesurée dans l’échantillon et correspond plutôt à une combinaison de divers indicateurs qui eux sont empiriquement mesurés. Le facteur latent permet d’expliquer la covariance entre les indicateurs observés. Les indicateurs sont illustrés dans la figure ci-dessous. Chaque indicateur a un loading qui définit l’importance de cet indicateur observé pour la variable latente d’intérêt. Idéalement, les loadings sont tous positifs et près de 1.
Étapes de l'analyse SEM
Deux grandes étapes sont nécessaires afin de tester adéquatement ce modèle : l’analyse factorielle confirmatoire de la variable latente et la spécification du modèle SEM.
Débutons par importer nos données dans JASP. Toutes les variables ont été standardisées au préalable.
1) Analyse factorielle confirmatoire (CFA)
Kline (2015) suggère de vérifier la qualité de mesure des variables latentes comprises dans une SEM à l’aide d’une CFA, soit une analyse statistique qui cherche à détecter la structure latente qui sous-tend les relations entre les indicateurs observés. Il faut donc performer une CFA pour vérifier la qualité de mesure de la variable Intentions de quitter qui est nommée QUIT_tot dans notre jeu de données. Cette vérification est faite à l’aide du code suivant :
#CFA
QUIT_tot =~ QUIT1 + QUIT2 + QUIT3 + QUIT4 + QUIT5
Comment pouvons-nous savoir si la qualité de notre mesure est adéquate?
- Vérification des indices d’ajustements :
- Chi-carré (χ²)
- Ne devrait pas être significatif
- Indice moins pertinent lorsque notre N est élevé (n > 200) car il sera très souvent significatif
- CFI et TLI
- Grandes valeurs indiquent un meilleur ajustement
- Seuil recherché > .95 pour un très bon ajustement (Caron, 2018)
- RMSEA et SRMR
- Petites valeurs indiquent un meilleur ajustement
- Seuil minimal recherché d’environ .08, idéalement < .06. (Caron, 2018)
- La valeur des loadings standardisés des indicateurs face à la variable latente
- Le seuil souhaité est généralement .70
- Le pourcentage de variance des indicateurs expliqué par le construit latent
- Le seuil souhaité est généralement 50%
- Chi-carré (χ²)
Voici les indices d’ajustement du modèle sous forme de tableau :
Indices | Valeur |
Chi-carré | 475.54, p < .001 |
CFI | .879 |
TLI | .759 |
RMSEA | .434 |
SRMR | .049 |
Les résultats illustrés dans le tableau ci-dessus indiquent que l’ajustement de notre mesure n’est pas adéquat. En effet, le CFI, le TLI et le RMSEA n’étant pas satisfaisant, il semble nécessaire de voir comment il est possible de modifier notre modèle pour que l’ajustement s’améliore, tout en gardant une bonne partie de la variance des indicateurs expliquée par le facteur latent et en s’assurant que les loadings standardisés de chaque indicateur soient supérieurs à .70.
Pour ce faire, JASP peut proposer différentes modifications possibles, en ordre de pertinence, pour améliorer l’ajustement de notre modèle avec l’option additionnelle Modification indices. Parmi les modifications proposées, il est désirable de choisir des modifications qui se justifient théoriquement ou qui ont du sens en lisant les items du questionnaire. Une fois les modifications ajoutées au modèle, il ne reste qu’à tester ce deuxième modèle et voir si l’ajustement est maintenant plus adéquat.
#Tester le second modèle
QUIT_tot =~ QUIT1 + QUIT2 + QUIT3 + QUIT4 +QUIT5
QUIT3 ~~ QUIT5
Vous remarquez que les nouveaux indices d’ajustement sont pratiquement tous parfaits (χ²(4) = 2.48, p = .65; CFI = 1.00 ; TLI = 1.00 ; RMSEA = .000 ; SRMR = .003. Ces indices sont tirés d’un jeu de données que nous avons créé pour les fins de ce tutoriel et ne sont pas réalistes. Toutefois, puisqu’ils indiquent un « excellent ajustement, » nous poursuivrons ainsi avec notre modèle SEM complet.
2) Spécification du modèle
Une fois la qualité de notre variable latente vérifiée, nous sommes prêts à spécifier notre modèle d’analyse principale. Cela peut être fait avec l’aide du code ci-dessous. Nous pouvons ajouter des régressions en utilisant l’opérateur « ~ », en utilisant la forme : y ~ x1 + x2 + …
#Spécifier le modèle complet (CFA + SEM)
QUIT_tot =~ QUIT1 + QUIT2 + QUIT3 + QUIT4 +QUIT5
QUIT3 ~~ QUIT5
QUIT_tot ~ Bonus + Basepay
Puisque notre modèle est assez simple et ne comprend qu’une régression multiple, les indices d’ajustement restent les mêmes ou très similaires dans notre modèle complet. Dans cette nouvelle étape, il faut donc regarder comment nos deux variables exogènes influencent notre variable endogène, soit les intentions de quitter.
Tel qu’indiqué dans la boîte ci-dessus, seulement 6% de la variance des intentions de quitter est expliquée par nos deux prédicteurs, soit le salaire de base et les bonus. Cela a du sens considérant tous les autres facteurs pouvant influencer ce souhait de rester ou de changer d’organisation (p. ex., quête de développement professionnel, contexte de vie personnel, etc.). Les résultats indiquent également que les bonus prédisent positivement les intentions de quitter (β = .345, p < .001) alors que le salaire de base les prédit négativement (β = -.209, p = .001). (Note: Puisque toutes les variables ont été standardisées au préalable, les coefficients de régression peuvent être interprétés comme des coefficients standardisés.)
Références
- Caron, P.-O. (2018). La modélisation par équations structurelles avec Mplus (Ser. Mesure et évaluation, 8). Presses de l’Université du Québec.
- Kline, R. B. (2015). Principles and practice of structural equation modeling. Guilford publications.
Merci! Merci! C’est un excellent tutoriel !