Lorsque les « cas » frappent à la porte des « variables » - Quelques rappels sur l’analyse des résidus en modélisation statistique

Abstract

French

When the ‘Case’ Knocks on the Variables’ Door - Some Reminders about the Analysis of Residuals in Statistical Modeling - Modeling methods tend to generate a sociology of variables at the expense of a sociology of individuals. Taking into consideration residuals allows one to come back to the fact that the data collected are individual in nature and thus reintroduce individuals into the analysis.

Keywords

Individuals Modelling Regression Residuals Variables

Introduction

Dans son livre consacré aux méthodes de la comparaison en sciences sociales, Charles Ragin propose une distinction fondamentale entre les approches « case-oriented comparative methods » et les approches « variable-oriented approach » (Ragin et Becker, 1992). S’il propose de synthétiser ces deux types d’approches par les méthodes de type QCA (Qualitative Comparative Methods), la distinction qu’il opère avant cette synthèse se révèle être d’un grand intérêt pour comprendre les différences principales entre les méthodes qualitatives et les méthodes quantitatives. Alors que les premières sont principalement « case-oriented », les secondes sont « variables-oriented » (Levi-Faur, 2015). Si les développements des méthodes qualitatives et quantitatives depuis les dernières décennies ont montré que cette frontière est relative et que l’on a tout intérêt à ne pas en faire une paroi étanche, il n’en reste pas moins que les deux univers visent fondamentalement deux logiques différentes : l’étude des cas ou l’analyse des variables.

Partant d’un point de vue quantitatif, nous souhaitions montrer que dans ce domaine les « cas » occupent une place plus importance que ce que ne laisse penser l’apparent détachement des modélisations statistiques vis-à-vis des « cas » individuels. C’est en particulier par l’analyse de ce que les modélisations n’expliquent pas, leurs « résidus », que nous souhaitons rappeler ici quelques nécessaires précautions méthodologiques dont tout modélisateur doit tenir compte. Les « résidus » constituent en fait une quantité à la fois essentielle et souvent passée sous silence des analyses statistiques, et en particulier des modélisations. Nous souhaitons ici présenter quelques éléments montrant en quoi l’analyse des résidus permet de mieux comprendre « ce que la modélisation fait » aux cas individuels et de quelle manière les cas individuels continuent, même modélisés dans des ensemble de variables dont on recherche les liens structurels, de « frapper à la porte » des analyses quantitatives.

Quelques rappels sur les modélisations des données d’enquêtes - Les résidus définissent le modèle

Alors que l’analyse des résidus occupe souvent une place marginale dans l’analyse et la publication des résultats de modélisations de données d’enquêtes (peu d’utilisateurs en science politique procèdent à de réelles analyses des résidus de leur modèles, et encore moins publient ou font partager au lecteur les conclusions de ces analyses), il convient de rappeler ici tout d’abord que ces sont en fait les hypothèses faites sur la distribution des résidus qui définissent un modèle statistique et sa forme fonctionnelle (que le modèle soit linéaire ou ne le soit pas).

Dans la mesure où le modèle de régression constitue la technique de modélisation la plus fréquemment utilisée par les spécialistes d’analyse des données en sciences sociales, il est tout d’abord important de rappeler en quoi les hypothèses faites sur la distribution et les propriétés des résidus la définissent.

Comme son nom ne l’indique pas toujours, la régression est une technique dont le but est d’ajuster un modèle théorique sur des observations. Le mot ajustement serait indiscutablement plus adapté que le mot de modélisation : ajustement linéaire pour la régression linéaire, « ajustement fonctionnel » pour la régression non linéaire (Cibois, 1999).

La modélisation des données, notamment d’enquêtes, procède par une analyse de régression linéaire dans la situation suivante : on cherche à expliquer, puis à prévoir, les valeurs d’une variable dépendante quantitative Y (ou même souvent ordinale comme une échelle de satisfaction ou d’accord sur une opinion, par exemple mesurée par une échelle de Likert à cinq points) à partir d’un certain nombre de variables quantitatives X₁,…, X_K en général mieux contrôlées ou dont les valeurs sont supposées connues avant celles de Y. Dans la terminologie usuelle :

- Y est, selon le contexte, la variable à expliquer ou la variable endogène (pour les économistes), ou la variable dépendante (cette dénomination s’est imposée en sociologie ou en science politique, même si l’on peut émettre un doute sur la pertinence de cette mauvaise traduction de l’anglais),

- X₁,…, X_K sont les variables explicatives, ou exogènes (économie), ou indépendantes (expression qui s’est aussi imposée alors qu’elle repose sur un quasi contresens, car ces variables dites indépendantes « n’expliqueront » Y que si elles lui sont assez fortement liées).

Dans sa formulation générale, le modèle de régression s’écrit ainsi :

Y = f (X_{1}, \dots, X_{K}) + ε

expression dans laquelle ε est une variable aléatoire résiduelle, supposée ne représenter qu’une déviation de Y, négligeable, aléatoire et de moyenne nulle, autour d’une tendance principale que décrit la relation fonctionnelle Y = f(X₁,…, X_K).

Dans sa version linéaire, de loin la plus utilisée, ce modèle est :

Y = α_{0} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{k} X_{K} +

Ce modèle est assorti d’un ensemble d’hypothèses sur le comportement des résidus, dont la version la plus courante est :

ε est aléatoire et de loi indépendante de X,

ε est de moyenne nulle et d’écart type constant,

les observations de ε sont indépendantes entre elles,

ε obéit à une loi normale (ou n’en est pas « trop » loin !)

On symbolise souvent ces hypothèses ainsi :

E(∊) = 0, en moyenne le modèle est bien spécifié

E(∊²) = σ², la variance de l ‘erreur est constante (homoscédasticité)

E(∊_i , ∊_j) = 0, les erreurs sont non-corrélées

Cov(∊,x) = 0, l’erreur est indépendante de la variable explicative

∊ ≡ Normale(0, σ² _∊)

La résolution du modèle consiste alors à estimer les coefficients β_1, β_2,…β_k par la méthode des moindres carrés dit « ordinaires » (méthode OLS). Sous les hypothèses précédentes, la résolution du modèle conduit à des estimations sans biais, convergentes vers les « vraies valeurs » du modèle. Cette méthode consiste à minimiser la sommes des carrés des résidus, c’est-à-dire, des écarts entre les valeurs observées de Y et celles que produit le modèle.

L’estimation se conclut par un test de validité dont l’hypothèse nulle, H₀, est la nullité des coefficients β₁, β₂,…β_k, c’est à dire l’absence de relation entre les valeurs de Y et celles des variables explicatives X₁,…, X_K

Dans cette théorie, le caractère quantitatif des variables est essentiel : il faut que le calcul de l’expression α₀ + β₁X₁ + β₂X₂ +…+ β_kX_K ait un sens et soit comparable aux valeurs de Y. C’est précisément sur ce point que cette approche connaît ses limites dans le cas où Y est qualitative, ce qui conduit au développement et à la définition d’autres modélisations connues sous le nom de régression logistique. Dans le cas d’une régression logistique, les résidus ont un rôle tout aussi important que pour une modélisation linéaire dans la définition du modèle. Nous ne prolongeons pas ici la présentation de cette forme de modélisation, mais elle soulève des problèmes tout à fait importants pour l’analyse des résidus étant donné qu’une modélisation logistique représente la réalisation empirique d’une modélisation sur une variable latente continue que l’on ne peut observer (si la valeur observée sur cette variable latente dépasse un seuil, la variable indicatrice observée prend la valeur 1 et sinon 0).

Résidus, cas individuels et variables

Quelle que soit la forme fonctionnelle que prend le modèle de régression, une donnée fondamentale des modélisations statistiques, qui les sépare nettement des analyses de cas ou des analyses qualitatives, est le postulat d’effets « moyens ». Prenons le cas d’une analyse de régression linéaire simple, à deux variables dont l’une est « dépendante » et l’autre « indépendante ». Dans ce cas, la résolution du modèle consiste à identifier les estimateurs des deux paramètres connus sous le nom de « constante » (α₀) et « pente » de la régression (estimateur β, estimateur de B dans la population). La solution consiste à minimiser le carré des résidus, c’est-à-dire le carré des écarts entre les valeurs de Y observées et les valeurs de Y prédites (les fameux « Y » chapeau ou « Y hat »). L’estimateur de la pente de la régression donne la variation moyenne de Y estimé accompagnant la variation d’une unité de X, la variable explicative ou « indépendante ».

Ce que le modèle de régression linéaire (mais aussi le modèle de régression logistique) fait aux cas individuels est un aspect majeur de la modélisation : celle-ci propose de substituer aux valeurs individuelles de Y des valeurs moyennes. Autrement dit, alors que dans les données observées chaque cas varie de manière individuelle et représente une combinatoire unique de traits ou de caractéristiques individuels (les variables et leurs relations structurelles), l’analyse de régression propose que chaque cas, qui se caractérise par une même combinaison de variables, obtienne sur la variable dépendante la même valeur. C’est le paradigme des « effets moyens » du modèle de régression.

La valeur prise par la variable dépendante Y estimée remplace dès lors la valeur de Y observée : chaque individu qui prend la même valeur qu’un autre sur la variable explicative ou les variables explicatives obtient la même valeur sur la variable Y estimée. En d’autres termes, la modèle de régression opère un passage des cas individuels vers les variables : la modélisation constitue une « variable-oriented approach » pour reprendre la terminologie de Charles Ragin. Le graphique de régression qui montre la droite de régression visualise parfaitement de passage des cas vers les variables. Une illustration frappante de cette logique peut être donnée ci-dessus. Il s’agit du graphique de régression d’une analyse de régression linéaire réalisée sur les données d’une vaste enquête américaine (n = 3.826) sur les entrants au collège universitaire, les « freshmen ». Il s’agit d’analyser le lien statistique entre un indicateur de tolérance vis-à-vis des minorités (variable dépendante) et le pourcentage de minorités ethniques vivant là où les « freshmen » ont grandi.

Figure 1.

Graphique de régression d’une analyse de régression linéaire

On a représenté sur ce graphique la droite de régression (celle qui unit les valeurs prédites aux valeurs prises par les individus sur la variable explicative) simultanément aux points individuels. Ce graphique illustre de manière assez saisissante « ce que le modèle fait aux cas ». Sans entrer ici dans des développements plus longs, on voit qu’ici se rejoignent la plupart des préoccupations méthodologiques développées depuis plusieurs années à l’intersection des méthodes quantitatives et qualitatives : le questionnement sur les codages et les variables, sur les cas et les individus (groupés en variables), mais aussi les développements récents de l’analyse géométrique des données et la représentation graphique du nuage des individus.

L’analyse des résidus - Comment se prémunir des « faux bons » résultats ?

Un exemple d’analyse des résidus d’une enquête

Si les distributions et les propriétés des résidus définissent en fait la forme fonctionnelle d’un modèle de régression, lorsque l’on applique un modèle particulier à des données observées, l’analyse des résidus va permettre de valider de manière plus stricte le modèle ou de l’invalider, s’il apparaît que les cas pour lesquels le modèle s’écarte le plus des données observées (résidus larges) sont les cas qui sont au cœur de l’analyse.

Tableau 1.

Résultats du modèle de régression estimée

Analyse de la variance

	Somme des carrés	Degrés de liberté	Carrés moyens
Somme des carrés de la régression Somme des carrés des résidus	388.34 728.17	3 2500	129.44 0.2912
Total	1116. 51	2503	0.4460

Qualité de l’ajustement du modèle : nombre d’observations = 2504 ; F-test (3, 2500) : 444.43, significatif au seuil de p < 0.0000 ; R²: 0.3478 ; R^{2 ajusté:} 0.3470

Estimateurs des paramètres de la régression de l’échelle d’opinions sur l’Europe

	Coefficient estimé	Erreur standard	t-test	p-value	Intervalle de confiance (95%)
	Coefficient estimé	Erreur standard	t-test	p-value	Borne inférieure	Borne supérieure
Echelle de libéralisme économique	−0.245	0.0238	−10.29	0.000	−0.292	−0.198
Echelle de libéralisme culturel	−0.352	0.0244	−14.38	0.000	−0.400	−0.304
Echelle d’ethnocentrisme	0.403	0.018	21.83	0.000	0.367	0.440
Constante	4.42^e−07	0.010	0.00	1.00	−0.021	0.021

Une seule observation sensiblement différente des autres peut faire une grande différence dans les résultats d’une analyse de régression. L’analyse statistique des résidus, qu’il s’agisse de cas traités séparément ou de groupes d’observations peut en effet changer considérablement le point de vue que l’on peut développer sur un modèle statistique, notamment sous deux aspects : la qualité de l’ajustement du modèle aux données observées (le « goodness of fit » du modèle) et la pertinence sociologique du modèle. Il y a trois manières d’effectuer une analyse des résidus dont l’objectif est de détecter les cas individuels qui échappent de manière significative au champ d’application du modèle.

On peut tout d’abord procéder à l’analyse des valeurs aberrantes (outliers). En régression linéaire, une valeur aberrante est une observation caractérisée par une forte valeur. En d’autres termes, il s’agit d’une observation dont la valeur prise par la variable dépendante est inhabituellement forte compte tenu de ses valeurs sur les variables explicatives. Une valeur aberrante peut indiquer que le cas en question appartient à un sous-échantillon qu’il convient également d’analyser (elle peut également indiquer une erreur de saisie de données ou d’autres problèmes de collecte des données).

On peut ensuite effectuer une analyse des « leverage », ou « effets de levier ». Une observation avec une valeur extrême sur la variable prédictive est appelé un « point de levier élevé ». L’effet de levier est une mesure de la distance d’une observation à la moyenne des observations sur la variable dépendante. Ces cas particuliers peuvent avoir un effet sur l’estimation des coefficients de régression.

Tableau 2.

Les résidus les plus négatifs

hilo r gender

r	gender
−3.199	male
−2.995	male
−2.960	male
−2.957	male
−2.928	male
−2.789	female
−2.776	female
−2.667	male
−2.615	male
−2.499	male

r	gender
−2.488	female
−2.496	female
−2.528	female
−2.536	female
−2.543	female
−2.591	female
−2.649	female
−2.651	male
−2.687	female
−2.736	male

Enfin, on peut procéder à une analyse des observations « influentes ». Une observation est qualifiée « d’influente » si la suppression de cette observation modifie sensiblement l’estimation des coefficients. « L’influence » peut être considérée comme le produit de l’effet de levier et de l’effet d’un cas aberrant.

On peut illustrer l’intérêt d’une analyse des résidus à l’aide des données de l’enquête post-électorale du CEVIPOF de 2012 (CEVIPOF, 2012). On réalise ici une analyse de régression linéaire à partir de variables quantitatives d’attitudes politiques, crées par des analyses factorielles. Le modèle consiste ici à prédire les opinions sur l’Union européenne (échelle d’attitude créée à partir de plusieurs indicateurs et qui mesure l’attitude négative vis-à-vis de l’UE) par trois variables explicatives : une échelle d’attitudes vis-à-vis du libéralisme économique (ech_eco), vis-à-vis du libéralisme culturel (ech_cult) et une échelle d’attitudes ethnocentriques (ech_eth).

Le modèle explique assez bien la variation des attitudes vis-à-vis de l’UE (R2 = .347) et les tests statistiques sur les estimateurs montrent une significativité statistique très élevée. De nombreux utilisateurs des modèles de régression arrêtent ici leurs analyses et se réjouissent de la qualité du modèle et d’obtenir des tests statistiques « significatifs », ce qui semble valider la modèle.

Tableau 3.

Les résidus les plus fortement positifs

	r	ech_eco	ech_cult	ech_eth
2466.	2.004	.303	.628	−1.023
2467.	2.009	−.577	.397	−1.062
2468.	2.009	.816	.389	−0.223
2469.	2.010	−.191	.389	0.012
2470.	2.016	1.084	.061	−0.401
2471.	2.034	0.538	.082	−0.693
2472.	2.055	0.947	.519	0.037
2473.	2.062	0.234	−.168	−0.285
2474.	2.063	−.448	.267	−1.170
2475.	2.064	0.306	−.003	−0.101
2476.	2.071	0.123	.050	−0.174
2477.	2.102	0.723	−.491	−0.321
2478.	2.105	0.816	−.426	−0.212
2479.	2.113	−.185	.019	−0.444
2480.	2.114	0.154	.284	−0.008
2481.	2.117	0.504	.435	0.333
2482.	2.126	0.089	.400	0.037
2483.	2.144	0.350	−.131	−0.951
2484.	2.153	−.121	.251	−0.256
2485.	2.158	−.333	−.465	−0.205
2486.	2.186	0.080	.222	−0.203
2487.	2.195	0.508	.394	−0.124
2488.	2.293	0.919	.341	0.269
2489.	2.312	0.438	.097	−0.262
2490.	2.333	−.034	.494	−0.231
2491.	2.354	−.298	.451	−0.456
2492.	2.384	−.300	.523	−1.266
2493.	2.418	0.502	.471	−0.887
2494.	2.332	−.231	.263	−0.690
2495.	2.488	0.071	.400	−0.456
2496.	2.406	0.542	0.063	−1.366
2497.	2.528	−.251	−.154	−1.186
2498.	2.536	−.212	0.208	−0.859
2499.	2.543	0.074	0.2213	−0.689
2500.	2.591	0.109	0.010	−0.908
2501.	2.649	−.228	−.193	−1.366
2502.	2.651	−.176	0.267	−0.938
2503.	2.687	0.515	−.012	−0.808
2504.	2.736	−.369	0.549	−0.923

Mais si on prend le temps d’analyser les résidus du modèle, on s’aperçoit dès la première analyse et par une simple méthode graphique, que certains cas individuels prédits présentent des écarts aux données observées importants (résidus standardisés supérieurs à + ou – 2). Pour s’en rendre compte, on peut réaliser un graphique de type « stem and leaf » sur les valeurs standardisées des résidus. Mais le nombre élevé d’observations (n=2.504) rend cette tâche peu pratique. On peut en revanche, isoler les résidus les plus élevés et les caractériser, par exemple en termes de genre : les cas qui s’ajustent le moins bien aux données observées, sont-ils plus fréquemment observés lorsqu’il s’agit d’hommes ou alors de femmes ? Il est tout à fait intéressant de constater que les résidus les plus négatifs sont en général des hommes et les résidus les plus positifs des femmes.

Tableau 4.

Variables quantitatives d’attitudes politiques crées par des analyses factorielles des correspondances multiples

; sum ech_eco ech_cult ech_eth, detail

Axe factoriel 1
	Percentiles	Smallest
01%	−1.440	−1.440
05%	−0.779	−1.335
10%	−0605	−1.329	Obs	2504
25%	−0320	−1.317	Sum of Wgt.	2504
50%	0.015		Mean	6.44e−09
		Largest	Std. Dev.	0.461
75%	0.332	1.084
90%	0.598	1.121	Variance	0.212
95%	0.741	1.121	Skewness	−0.144
99%	0.952	1.121	Kurtosis	2.655
Axe factoriel 1
	Percentiles	Smallest
01%	−1.285	−2.061
05%	−0.924	−1.948
10%	−0711	−1.710	Obs	2504
25%	−0336	−1.680	Sum of Wgt.	2504
50%	0.064		Mean	3.61e-09
		Largest	Std. Dev.	0.504
75%	0.392	0.799
90%	0.634	0.799	Variance	0.254
95%	0.747	0.799	Skewness	−0.525
99%	0.795	0.799	Kurtosis	2.815
Axe factoriel 1
	Percentiles	Smallest
01%	−1.366	−1.366
05%	−1.170	−1.366
10%	−0.935	−1.366	Obs	2504
25%	−0.480	−1.366	Sum of Wgt.	2504
50%	0.027		Mean	1.39e-09
		Largest	Std. Dev.	0.679
75%	0.496	1.239
90%	0.875	1.239	Variance	0.461
95%	1.064	1.239	Skewness	−0.076
99%	1.239	1.239	Kurtosis	2.108
XX

Autrement dit le modèle s’ajuste moins bien aux cas féminins que masculins, une indication qu’il faut sans doute contrôler les effets de genre. On voit sur cet exemple simple que le modélisateur qui passerait outre l’analyse des résidus, se contentant de se satisfaire de la qualité de l’ajustement aux données observées du modèle, passerait en fait à côté d’un élément d’interprétation fondamental.

On peut compléter cette analyse, dont le but est de détecter soit les « cas aberrants », soit les « points de levier » ou les « cas influents », en listant par ordre d’importance les résidus dont la valeur absolue est supérieure à 2 et en donnant pour chacun les valeurs prises par les cas en question sur les variables explicatives. Pour des raisons de commodité de présentation, on donne ci-dessus les cas pour lesquels les résidus standardisés sont de valeur supérieur à +2, car nous ne voulons qu’illustrer à nouveau la puissance de l’analyse des résidus. Pour rendre l’analyse compréhensible on donne également ci-dessus les statistiques descriptives de base des variables explicatives (pour les trois variables explicatives, ces statistiques explicatives sont données dans l’ordre suivant : l’échelle de libéralisme économique, de libéralisme culturel et d’ethnocentrisme, bien que la sortie logiciel indique à chaque fois « Axe factoriel l »). En comparant les tableaux 3 et 4 on peut ainsi comprendre ce qui caractérise, sur les variables explicatives, les cas marqués par les valeurs positives des résidus standardisés les plus fortes.

L’analyse des résidus les plus fortement positifs (au nombre de 39) nous permet ainsi d’identifier le profil des cas observés lorsque les valeurs des résidus standardisés sont significatifs et les plus élevés en valeurs.

On s’aperçoit dès lors que les résidus les plus fortement positifs sont très fréquemment observés lorsque l’échelle d’ethnocentrisme obtient des valeurs négatives et l’échelle de libéralisme culturelle des valeurs positives. Ce type d’analyse, très simples à réaliser alors même que l’analyse des résidus peut être très sophistiquée, guide le modélisateur vers des analyses plus complexes comme pourrait l’être la prise en compte d’effets d’interaction ou la prise en compte d’autres facteurs explicatifs.

Conclusion

Nous avons souhaité présenter ici quelques rappels et quelques outils très simples à mettre en œuvre pour analyser les « résidus » issus des modélisations statistiques, notamment du modèle de régression linéaire. Ce type d’analyses peut bien entendu procéder à des mesures (notamment en termes de distance entre valeurs observées et valeurs prédites de la variable dépendante, par exemple la distance de Cook) nettement plus sophistiquées. Mais nous souhaitions surtout montrer en quoi les méthodes quantitatives de type « variable-oriented » peuvent avec grand profit ne pas oublier que l’origine des données collectées et analysées est de nature individuelle. Le paradigme des « effets moyens » sur les variables au sein duquel le modèle de régression opère est un paradigme puissant ; mais bien souvent ses utilisateurs négligent les contrôles pourtant simples à mettre en œuvre de leurs « résidus » : trop occupés à analyser les relations structurelles entre les variables, ils oublient que les « individus » n’ont pas disparu des données analysées. L’analyse des « résidus » procède en ce sens à un très sain et utile rappel : si la perspective fondamentale des analyses modélisatrices est la mise à jour de relations structurelles entre variables, leur base empirique est constituée des données individuelles. En ce sens, l’analyse des résidus des modélisations statistiques n’est pas sans rappeler les développements récents de l’analyse géométrique des données qui proposent d’analyser simultanément dans les plans factoriels les modalités des variables et les points-individus (Perrineau et al., 2000).

References

CEVIPOF (2012) L’enquête post-électorale 2012, http://www.cevipof.com/fr/2012/recherche/postelectorale/.

Cibois

(1999) Modèle linéaire contre modèle logistique en régression sur données qualitatives. Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique 64: 5–24.

Levi-Faur

(2015) Case-Oriented versus Variable-Oriented Comparative Strategies. Comparative Methods in Political and Social Research, accès du 8 décembre 2015, http://poli.haifa.ac.il/∼levi/weber.html.

Perrineau

Chiche

Le Roux

Rouanet

(2000) L’espace politique des électeurs français à la fin des années 1990 - Nouveaux et anciens clivages, hétérogénéité des électorats. Revue française de science politique 50: 463–88.

Ragin CC et Becker HS (1992) What is a Case? Exploring the Foundations of Social Inquiry. Cambridge: Cambridge University Press.