La régression signée : principe et mode d’emploi

Abstract

Résumé

Il n’existe pas à notre connaissance de méthode de régression linéaire garantissant systématiquement que le signe des coefficients concorde avec celui de la corrélation simple entre la variable à expliquer et chacun des régresseurs et dont la valeur ne se cale pas sur la contrainte qu’on pourrait leur imposer. Or ce double impératif – un coefficient positif et suffisamment différent de zéro pour chaque variable – est souvent requis par les praticiens travaillant, notamment, dans le domaine de la satisfaction où la colinéarité statistique est la norme. L’objectif de cet article est de leur fournir une méthode formelle qui réponde à cette attente et produise des résultats comparables à ceux de méthodes statistiquement fondées, au respect strict et systématique du signe près.

Keywords

colinéarité contrainte poids régression signe satisfaction

Introduction

Bien que les causes et les conséquences de la multicolinéarité dans le cadre du modèle de régression linéaire aient été étudiées extensivement depuis Farrar et Glauber (1967) et que l’on dispose désormais d’une panoplie importante d’outils de diagnostic et de procédures adaptés à ce problème récurrent, certains praticiens attendent toujours que leur soit proposée une méthode de régression signée, c’est-à-dire un dispositif qui associe à toutes les variables un coefficient de régression non nul et dont le signe soit identique à celui de leur corrélation simple avec la variable à expliquer. On pense notamment aux études de satisfaction impliquant un grand nombre d’items corrélés pour lesquelles, faisant fi du rasoir d’Ockham, un tel objectif est souvent requis.

Si plusieurs propositions l’atteignent ponctuellement comme, par exemple, les régressions contraintes de type Ridge (Hoerl et Kennard, 1970) ou Lasso et ses variantes (Tibshirani, 1996 ; Gaines et Zhou, 2016), les régressions sur composantes de type PCR (Jolliffe, 1982), PLS (Tenenhaus, 1998) ou CCR (Magidson, 2013), la régression en cascade (Bachelet, 1996), aucune hormis la dernière ne garantit le caractère non nul et positif des coefficients des régresseurs, car aucune n’a été conçue avec cet objectif en tête¹.

Ces méthodes ont en effet le mérite (statistique) et l’inconvénient (managérial) de ne pas chercher à résoudre un problème d’optimisation mal posé, en l’occurrence un problème sans solution, sinon triviale. Or, vouloir absolument que tous les critères susceptibles d’expliquer un phénomène aient un coefficient non nul et doté du « bon » signe est une ambition qui présente tous les symptômes d’un problème mal posé, en particulier la redondance. Pour s’en persuader, il suffit de voir le sort réservé aux solutions brutales (recours aux expédients en substituant $w_{i}^{2}$ ou $e^{b_{i}}$ à $b_{i}$ dans $Y = \sum_{i} b_{i} X_{i}$ ; recours à la programmation quadratique en imposant une contrainte de non-négativité sur les coefficients) ou indirectes (Lasso, par exemple) : la contrainte est respectée, mais a minima, avec des coefficients qui ne sont que marginalement différents de 0. La solution est triviale parce que l’objectif n’est pas raisonnable.

Le but de cette note est de proposer au praticien une démarche sous-optimale, mais rigoureuse, pour atteindre au mieux cet objectif statistiquement déraisonnable. Nous commençons par préciser le contexte dans lequel cette démarche s’inscrit puis, dans la mesure où nous en aurons besoin pour la justifier et la tester, nous effectuons un bref rappel des outils de diagnostic de la multicolinéarité et de la façon dont trois des méthodes les plus utilisées – Ridge, PLS et CCR – tentent d’en atténuer les effets indésirables. Notre démarche est ensuite exposée, puis testée comparativement sur des données simulées et réelles. Nous concluons sur ses avantages et ses limites et proposons quelques pistes de recherche pour les lever.

Le contexte

Le contexte qui motive cette recherche est celui de la mesure de l’importance des critères de satisfaction à l’égard d’un produit, d’un service ou d’une expérience, telle qu’elle se pratique dans les entreprises (Ray et Sabadie, 2006 ; Windal et Desmet, 2000). Sans préjuger de la diversité des approches qu’on y trouve, l’une des figures souvent imposées, une fois la liste des critères établie, et à supposer qu’il s’agisse d’importance déduite plutôt que déclarée, consiste à calculer un poids strictement positif pour chacun de ces critères. Leur nombre est souvent élevé (10, 20, 30…) et ils sont en général corrélés les uns avec les autres, quoique sans excès. On ne se retrouve pas, en effet, dans les cas de figure de quasi-colinéarité qui caractérisent certains jeux d’essais (Tomassone et al, 1992) utilisés pour tester les modèles.

Le but visé – un poids strictement positif – est dans ce contexte une contrainte qu’il faut impérativement respecter. Ces poids font partie des processus que mettent en place certaines entreprises pour le suivi quantitatif et l’amélioration de leurs prestations. On cherche moins ici à identifier des « leviers », les quelques critères qui pèsent le plus sur la satisfaction globale, qu’à respecter un cahier des charges, quitte par la suite à utiliser ces poids dans une optique plus souple de hiérarchisation. Ce point est important, car il s’oppose au principe de parcimonie cher aux scientifiques. On ne prétend pas non plus que le recours au modèle linéaire, la non-prise en compte d’éventuels segments² ou l’insistance à obtenir un poids strictement positif soient les meilleures façons de traiter la mesure de l’importance des critères de satisfaction. On se contente de prendre acte d’une attente insatisfaite et, à tort ou à raison, de tenter d’y apporter une réponse.

Par ailleurs, en vertu même de la contrainte initiale, on ne se situe pas dans une optique de maximisation d’une fonction objective parce qu’elle conduirait inévitablement à une solution triviale, le prix à payer quand on force des critères dans une équation de régression où ils n’ont, statistiquement parlant, pas leur place. Libéré de cet impératif d’optimisation, on propose une heuristique qui produit des poids strictement positifs et « voisins » au sens de la corrélation d’une méthode retenue comme garde-fou. La consigne est alors respectée et la proximité des poids avec ceux issus de procédés statistiquement fondés sert de caution à notre démarche.

S’adressant avant tout à des praticiens, on cherche également à rendre plus intuitifs et visibles les effets néfastes de la colinéarité statistique sur chacune des variables. Montrer à quel « moment » un coefficient bascule dans le négatif ou pourquoi telle inflexion de ce coefficient est accidentelle plutôt que structurelle est, avec le respect du cahier des charges, un objectif prioritaire de cette recherche.

Outils de diagnostic de la colinéarité statistique

Le rappel de cette section s’appuie en particulier sur les travaux de Belsley et al (1980) et Foucart (1992 ; 2006). La colinéarité statistique entre les variables tend, pour les coefficients des variables les plus corrélées, à :

Augmenter leur taille.

Inverser leur signe.

Gonfler leur variance.

Les rendre instables d’un échantillon à l’autre.

Dans notre contexte managérial de colinéarité diffuse où tout est lié, mais sans excès, ce sont les conséquences n° 2 et 4 qui se manifestent le plus souvent et que l’on souhaite atténuer. Les cas d’extrême colinéarité sont rares (point n° 1) et le praticien peut s’accommoder d’une inflation modérée de la variance (point n° 3).

Le facteur d’inflation de la variance

Pour mesurer l’importance de cette colinéarité et identifier les variables qu’elle affecte le plus, on dispose, entre autres critères, du facteur d’inflation de la variance (FIV) – défini comme : $f_{i} = \frac{1}{1 - R_{i}^{2}}$ où $R_{i}^{2}$ est le coefficient de détermination obtenu en régressant la variable i sur les autres variables. Ce facteur varie de 1 (variable orthogonale aux autres) à ∞ (variable colinéaire). Tomassone et al (1992) appellent indice de multicolinéarité $I$ la moyenne des facteurs d’inflation : $I = \frac{1}{p} \sum_{i}^{p} f_{i}$

En pratique (Saporta, 1990), on estime à 3 le seuil au-dessus duquel le FIV commence à poser un problème d’estimation. L’intérêt de cette mesure simple à comprendre et facile à calculer – $f_{i}$ correspond au terme diagonal de l’inverse de la matrice des corrélations R – est d’identifier rapidement les variables les plus impliquées dans la colinéarité statistique.

L’indice de conditionnement de Belsley

Considérons maintenant les valeurs propres $μ_{i}$ de cette matrice rangées en ordre décroissant. La moyenne de l’inverse de ces valeurs propres est égale à l’indice de multicolinéarité : $I = \frac{1}{p} \sum_{i} \frac{1}{μ_{i}}$ . Belsley et al (1980) définissent l’indice de conditionnement de la valeur propre $μ_{i}$ comme la racine carrée des rapports entre la plus grande valeur propre de R et chacune de ses autres valeurs propres : $I C_{i} = \sqrt{\frac{μ_{m a x}}{μ_{i}}}$

Sur la base d’études de simulation, les auteurs constatent que des corrélations faibles entre les variables sont associées à des indices de l’ordre de 5 à 10 ; des corrélations fortes, à des indices de l’ordre de 30 ou plus. Entre 20 et 30, la situation de multicolinéarité est ambiguë, au-dessus de 100, pathologique.

On examine ensuite le tableau de décomposition des variances. La variance de l’estimateur $b_{i}$ est égale à (Draper et Smith, 1998) :

σ^{- 2} V (b_{i}) = (π_{i 1} + π_{i 2} + \dots + π_{i p}) \sum_{j = 1}^{p} \frac{v_{i j}^{2}}{μ_{j}^{2}}

où $v_{i j}$ est le ième élément du vecteur propre associé à μj et la proportion $π_{i j}$ représente la part de variabilité de $b_{i}$ « portée » par la jème composante principale de R. Prolongeant les travaux de Belsley, Erkel-Rousse (1995) propose la règle suivante pour identifier les variables susceptibles de poser un problème d’estimation, lorsque la colinéarité statistique n’affecte qu’un nombre limité de variables :

Supposons que p indices de conditionnement exactement soient « élevés » (de l’ordre de 30 ou plus). Alors :

– Les indices k ∈ {1, 2,…, K} tels que $\sum_{j = K - p + 1}^{K} π_{j k}$ est petite (inférieure à 0,5 ou 0,6 environ) correspondent à des variables non impliquées dans des relations de quasi-colinéarité.

– Dans le cas contraire, et plus cette somme est proche de 1, plus les coefficients $b_{i}$ risquent d’être estimés de manière imprécise par les moindres carrés ordinaires.

– Enfin, cette somme étant fixée, la précision des $b_{i}$ est d’autant plus faible que les $π_{i j}$ les plus élevés sont situés dans les lignes les plus basses du tableau de décomposition des variances (indices proches de K).

L’indice de distorsion de Foucart

A ce stade du diagnostic, on aura isolé la plupart des paires de variables responsables de la colinéarité statistique, lesquelles coïncident en général avec les coefficients de corrélation les plus élevés. Foucart (1992), toutefois, s’appuyant sur les propriétés des matrices symétriques définies positives, démontre que des corrélations modérées peuvent également perturber l’estimation des coefficients de régression. Il existe en effet un intervalle de variation ]a, b[ tel que, quel que soit $r_{i j}$ ∈ ]a, b[, la matrice des corrélations R est symétrique définie positive.

Il se trouve que lorsque $r_{i j}$ est proche de l’une des bornes de cet intervalle, il crée une corrélation élevée entre les estimateurs des coefficients de corrélation correspondants. Foucart propose un indice de distorsion pour mesurer ce risque :

d_{i j} = \frac{2 (\frac{a + b}{2} - r_{i j})}{b - a}

Une petite valeur de $d_{i j}$ signifie que $r_{i j}$ est proche du centre de l’intervalle ; une valeur proche de ±1 que $r_{i j}$ est proche de l’une des bornes. Le fait que cet indice est aussi égal à :

d_{i j} = \frac{s_{i j}}{\sqrt{s_{i i} s_{j j}}}

où les $s_{i j}$ sont les termes de $R^{- 1}$ permet de calculer facilement les bornes a et b. Foucart propose d’écarter légèrement des bornes les corrélations incriminées pour stabiliser les estimateurs correspondants. Notre contexte de colinéarité diffuse où la colinéarité n’est pas limitée à un nombre restreint de variables, mais les implique toutes plus ou moins, rend cette recommandation difficile à appliquer. On se contentera du caractère diagnostic de l’indice de distorsion pour identifier les variables problématiques, possiblement à corrélation modérée, qui auraient échappé aux outils précédents (FIV, indices de conditionnement, décomposition de la variance), lesquels permettent de préciser ce que l’on entend par colinéarité diffuse : une grande majorité de FIV inférieurs à 3 associée à une grande majorité d’indices de conditionnement supérieurs à 30. En d’autres termes, une colinéarité statistique individuellement modérée, mais collectivement forte.

Les méthodes de régression de référence

Parmi toutes les familles de méthodes développées pour atténuer les effets de la colinéarité statistique sur les estimateurs linéaires (Birkes et Dodge, 2003), nous en retiendrons deux qui serviront de références à la méthode proposée dans cette note : la régression pénalisée et la régression sur composantes.

La régression pénalisée

L’objectif de la régression pénalisée est de faire en sorte que la « norme » des coefficients $b_{i}$ ne dépasse pas une valeur prédéfinie. Cet objectif se traduit mathématiquement par l’ajout d’une pénalité P à la fonction objective à minimiser. Selon la forme prise par cette pénalité, on parlera de régression bornée ou « ridge » : $P = λ \sum_{i} b_{i}^{2}$ , de lasso : $P = λ \sum_{i} | b_{i} |$ ou de filet élastique : $P = λ \sum_{i} \frac{1}{2} (1 - a) b_{i}^{2} + a | b_{i} |$ .

Si ces méthodes réduisent efficacement la taille et l’instabilité des coefficients, le lasso tendra à produire des coefficients exactement égaux à 0 (« sparse recovery »). C’est une grande qualité dans certains contextes, en particulier celui de la sélection des variables, mais ce n’est pas l’objectif recherché ici.

Pour cette raison et parce qu’elle est très facile à mettre en œuvre, nous lui préférerons la régression ridge dont l’estimateur est donné par : $b = {(X^{'} X + λ I)}^{- 1} X^{'} y$ où $λ$ est un nombre réel positif choisi à partir de la représentation graphique des coefficients de régression, la « ridge trace ». Il existe des méthodes pour déterminer la « meilleure » valeur de $λ$ (Tze-San, 1988), sauf qu’ici, la borne inférieure de $λ$ est imposée : c’est la plus petite valeur conduisant à des coefficients strictement positifs ( $λ^{+}$ ). On peut craindre que cette valeur soit très supérieure à celle que l’on aurait choisie en l’absence de contrainte de signe.

La régression sur composantes

La régression orthogonale (PCR) est intuitivement très attractive. En éliminant des composantes principales celles qui ne sont que faiblement liées au critère à expliquer ou instables, parce que dotées d’une valeur propre trop faible, on atténue fortement les effets de la colinéarité. La régression PLS (Partial Least Squares) initialement proposée par Wold (Tenenaus, 1998) et la régression CCR de Magidson (« Correlated Component Regression ») poursuivent cet objectif en y apportant une amélioration de taille : alors que les composantes principales ne font qu’extraire le maximum de variance des prédicteurs (X) sans tenir compte du critère à expliquer (y), les composantes PLS et CCR sont optimisées pour en être prédictives.

PLS : à chaque itération, on maximise le carré de la covariance entre y et $t_{i}$ , nette de l’effet des composantes déjà extraites, une composante étant une combinaison linéaire des variables : $t_{i} = X w_{i}$ . Sachant que les $w_{i}$ sont proportionnels aux covariances entre y et X, les coefficients de régression des variables originales tendront à être du même signe que celui des corrélations simples. L’algorithme est simple (ni inversion ni diagonalisation), s’accommode des valeurs manquantes et donne de bons résultats.

CCR : les composantes successives ne sont plus nécessairement orthogonales et la méthode est invariante d’échelle. Elle produira ainsi les mêmes résultats, que les données aient été standardisées ou non. Selon son auteur, la première composante mesure l’effet direct d’un régresseur sur la variable à expliquer ; les composantes suivantes servent à prendre en compte les effets de médiation (« suppressor variables »).

Seul caveat dans notre contexte : rien ne garantit la stricte positivité des coefficients de régression au-delà de la première composante dont on ne se satisfait pas. Il faut en général au moins deux composantes pour atteindre une qualité d’ajustement du même ordre que celle de méthodes concurrentes. En PLS, la première composante produira toujours des coefficients positifs, mais ces coefficients, proportionnels à la corrélation simple entre X et y, ne peuvent constituer une mesure du poids intrinsèque d’une variable.

Néanmoins, la robustesse de ces deux méthodes, nonobstant la présence occasionnelle de signes négatifs, justifie qu’on les retienne pour étalonner la nouvelle proposition. Nous avons choisi de l’adosser à PLS pour identifier l’un de ses éléments clés, le pas optimal. Dans notre contexte de satisfaction à colinéarité diffuse, CCR aurait suggéré le même pas³.

La régression signée

La régression signée (RS) consiste à rétrocéder aux variables dotées de coefficients négatifs par les moindres carrés ordinaires (MCO) une partie du poids capté par les autres variables. Pour y parvenir, on introduit la notion de « trajectoire optimale de corrélation partielle » entre chacun des régresseurs $x_{i}$ et la variable à expliquer (y). Cette trajectoire est propre à $x_{i}$ et se calcule avec l’ensemble des régresseurs en introduisant l’une après l’autre les variables dans la fonction de régression.

Sans perte de généralité, dénotons par l’indice 1 la variable « pivot », celle dont on recherche la trajectoire. Soit E l’ensemble des N régresseurs : {1, 2, 3,…, N}. A l’étape k de la procédure, on se trouve face à trois sous-ensembles :

– L’item pivot : {1}

– L’ensemble « IN » des variables déjà entrées dans la régression : {2, 3,…, k}.

– L’ensemble « OUT » des variables qui ne sont pas encore entrées dans la régression : {k+1, k+2,…, N}.

Rappelons que l’on calculera successivement autant de trajectoires que de régresseurs. Parmi les $! (N - 1)$ trajectoires possibles, on recherche celle qui, à chaque étape, maximise la corrélation partielle entre y et la variable pivot.

Soit j un élément de l’ensemble OUT et $R_{1, I N, j}^{2}$ le coefficient de détermination que l’on obtient en régressant $y$ sur les items 1, IN et j. A chaque étape, le principe consiste à choisir j de OUT telle que la différence $R_{1, I N, j}^{2} - R_{I N, j}^{2}$ soit maximale. On ajoute donc l’item qui, associé à 1 et IN, augmente le plus le $R^{2}$ . En d’autres termes, on préserve au mieux à chaque pas la corrélation partielle de l’item pivot. Elle diminue, mais le moins possible.

On notera que ce principe est très différent de celui de la régression pas-à-pas qui consiste à choisir l’item j de {1, OUT} qui augmente le plus le $R^{2}$ : maximiser $R_{I N, j}^{2} - R_{I N}^{2}$ . En RS, l’accent est mis tour à tour sur un item, l’item pivot.

Au signe près, la corrélation partielle entre l’item pivot et y sachant Z (ici : IN et j) est égale à :

$\sqrt{\frac{R_{1, I N, j}^{2} - R_{I N, j}^{2}}{1 - R_{I N, j}^{2}}}$ . Si l’on dénote cette corrélation par $r_{y 1 | Z}$ , on remarquera qu’elle est égale…

– à la corrélation simple entre y et 1 (l’item pivot) quand Z = ∅ (ensemble vide)

– à la corrélation partielle quand Z = E~1 (E hors item 1).

Ainsi, quel que soit l’ordre d’introduction des variables, on obtiendra toujours la même corrélation partielle entre y et l’item pivot en fin parcours ( $r_{y 1 | Z = E ~ 1}$ ), laquelle est proportionnelle au coefficient de régression des MCO. En revanche, le fait de « préserver » à chaque pas l’item pivot a une conséquence heureuse, celle de produire des trajectoires { $r_{y 1 | Z}$ } longues (« longtemps positives »), régulières (au bruit près) et de même forme pour toutes les variables, même si l’ordre d’entrée de ces variables diffère d’une trajectoire à l’autre. La forme des trajectoires variera selon la structure des corrélations – elle pourra être concave ou convexe ou correspondre à une droite – mais cette forme tendra à être identique pour toutes les variables d’un ensemble homogène (comme celui constitué par des items de satisfaction, par exemple). C’est cette similarité de forme qui rend possible le principe de la régression signée (Figures 3 et 4).

Rappelons qu’au pas 0, la corrélation $r_{y 1 | Z}$ est égale à la corrélation simple entre la variable pivot et y, et que cette trajectoire représente l’évolution de la corrélation partielle de la seule variable pivot au fur et à mesure de l’introduction du reste des variables dans l’équation de régression. A chaque pas on effectue deux régressions et la variable pivot est la seule à figurer toujours dans la première.

L’idée de base de la régression signée est de ne pas aller jusqu’au terme de cette trajectoire, l’équivalent du coefficient de régression MCO, où se regroupent les variables les plus corrélées au pivot, mais de s’arrêter « avant » à un pas qu’il reste à déterminer, sachant que ce pas doit être identique pour toutes les variables pour n’en privilégier aucune. L’une des règles de fixation de ce pas est évidente : si $r_{y 1 | Z_{k}}$ dénote la corrélation partielle entre $y$ et l’item pivot au pas $k$ , $k$ doit être choisi de façon à ce que cette corrélation soit strictement positive pour toutes les variables. A cette règle nécessaire, on ajoute une règle suffisante pour que la solution soit unique et pertinente : si $k^{+}$ correspond au dernier pas positif – le pas au-dessus duquel $r$ devient négatif pour au moins l’une des variables pivot – alors $k$ est le pas inférieur ou égal à $k^{+}$ qui maximise la corrélation entre les $r_{y 1 | Z_{k}}$ et les coefficients de régression d’une méthode référente. On obtient donc des poids tous strictement positifs et proches, au sens de la corrélation, de ceux d’une méthode statistiquement fondée et efficace, les poids étant assimilés aux corrélations partielles au pas optimal normées à 1 : $p_{j} = \frac{r_{y j | Z_{j k^{o}}}}{\sum_{i} r_{y i | Z_{i k^{o}}}}$ où $k^{o}$ dénote le pas optimal et le terme $Z_{j k^{o}}$ reflète le fait que l’ensemble des variables de contrôle au pas optimal est spécifique à chaque régresseur $j$ . Dans cet article, nous avons opté pour la PLS comme méthode de référence pour le choix du pas optimal. D’autres référents sont possibles (CCR, Ridge, etc.), mais, comme la simulation et l’expérience l’attestent, la régression PLS s’adapte bien aux différentes formes de colinéarité manifestes dans la diversité des formes des trajectoires optimales de corrélation partielle.

Calcul numérique des trajectoires

Il n’est pas nécessaire d’effectuer les $N^{2} \frac{N - 1}{2}$ régressions pour obtenir les trajectoires optimales des N régresseurs. Les corrélations partielles qui les composent sont obtenues directement de la matrice des corrélations par un calcul récursif :

r_{y 1 | 2, 3 \dots j, j + 1} = \frac{r_{y 1 | 2, 3 \dots j} - r_{1, j + 1 | 2, 3 \dots j} \times r_{y, j + 1 | 2, 3 \dots j}}{\sqrt{(1 - r_{1, j + 1 | 2, 3 \dots j}^{2}) (1 - r_{y, j + 1 | 2, 3 \dots j}^{2})}}

A l’étape $k$ de ce calcul, on dispose de la matrice $R^{k}$ de corrélations partielles entre $y, 1 e t O U T_{k}$ , contrôlées par l’ensemble $I N_{k}$ . On calcule alors tous les $r_{y 1 | j, I N_{k}}$ pour $j \in O U T_{k}$ et l’on choisit le $j$ correspondant à la corrélation partielle la plus élevée. On actualise ensuite $R^{k}$ qui devient $R^{k + 1}$ en appliquant la formule ci-dessus à chaque paire de corrélations de $R^{k}$ .

Ce calcul est très rapide, car il manipule uniquement les entrées de la matrice des corrélations et non les données elles-mêmes. Comme pour PLS, il n’y pas de matrice à diagonaliser ou inverser ni de valeurs manquantes à remplacer, puisque les corrélations sont calculées deux à deux ; comme pour CCR, la méthode est invariante d’échelle, puisque le calcul des poids ne fait intervenir que la matrice des corrélations. Ces trois propriétés, en particulier la seconde, font de RS un outil particulièrement adapté aux données incomplètes. Un pseudo-code assorti d’un exemple numérique est disponible en annexe.

Surapprentissage (overfitting)

Pour minimiser le risque de surapprentissage, PLS et CCR ont recours à la validation croisée pour déterminer le nombre optimal de composantes. L’échantillon initial est divisé en k sous-échantillons. Dans sa forme la plus simple (k=2), l’un sert à calibrer les paramètres, l’autre à les tester ; si k>2, les sous-échantillons servent tour à tour au calibrage et au test.

Cette précaution est possible, mais ne nous semble pas indispensable en régression signée où, par construction, les variables les plus corrélées à chaque régresseur, donc celles qui pourraient poser un problème d’estimation, sont rejetées en fin de trajectoire. En fixant un pas inférieur au nombre de variables, on se prémunit en quelque sorte contre le surapprentissage : les variables sont toutes utilisées, mais pas tout le temps (pour toutes les variables), en particulier celles qui causent localement (pour une variable donnée) une inversion de signe.

Invariance d’échelle et constante

En RS, l’extraction des poids ne repose que sur la matrice des corrélations. La question de la constante, des valeurs manquantes⁴ et de la standardisation des régresseurs ne se pose donc pas. Toutefois, si l’utilisateur souhaite utiliser cette méthode dans un cadre prédictif, il est indispensable, une fois les poids extraits de la matrice des corrélations, de remplacer ou d’éliminer les valeurs manquantes de $y e t X$ et de régresser $y$ sur le score issu des poids et des variables standardisées : $Z_{i j} = \frac{X_{i j - μ_{j}}}{σ_{j}}$ , $S_{i} = \sum_{j = 1}^{J} p_{j} Z_{i j}$ et $y_{i} = a + b S_{i}$ où $p_{j}$ dénote les poids et $a$ et $b$ sont deux paramètres à estimer par régression simple. Le retour aux variables originales est immédiat : $y_{i} = α + \sum_{j = 1}^{J} β_{j} X_{i j}$ avec $α = a - b \sum_{j} \frac{p_{j} μ_{j}}{σ_{j}}$ et $β_{j} = b \frac{p_{j}}{σ_{j}}$ .

Test de significativité des poids

Les poids étant des corrélations partielles normées, tester un poids revient à tester une corrélation partielle. Si $r$ dénote la corrélation partielle au pas optimal $k$ entre un régresseur et la variable à expliquer (précédemment écrite $r_{y j | Z_{j k^{o}}}$ ), la statistique $\frac{r}{\sqrt{1 - r^{2}}} \sqrt{n - k - 2}$ suit la loi de Student avec $n - k - 2$ degrés de liberté, où $n$ correspond à la taille de l’échantillon.

Application de la régression signée à des données simulées

Trois situations de colinéarité statistique ont été simulées avec la fonction mvnorm du package MASS du logiciel R, selon la structure de la matrice des corrélations : diffuse, par blocs et Robinsonnienne⁵ (tableaux 1 à 3). Les paramètres communs à chacun de ces trois cas sont le nombre d’unités statistiques (1000), le nombre de régresseurs⁶ (25), leur poids (5 fois 0,06, 0,05, 0,04, 0,03, 0,02), leur moyenne (de 6 à 8), leur écart-type (1 pour tous) et le terme d’erreur (trois aléas : faible, moyen, fort) qui, ajouté à la somme des produits des poids par les régresseurs, engendre la variable à expliquer ( $y$ ). Par la suite, les termes « régresseurs », « variables » ou « items » désigneront la même chose (X) et le terme « poids » dénotera les coefficients de régression normés à 1. La variable à expliquer est une combinaison linéaire des poids sans constante : $y = \sum_{i}^{p} b_{i} X_{i} + ϵ$ où $ϵ$ est distribuée $N (μ = 0, σ = 0, 5, 1 e t 1, 5)$ .

Tableau 1 .

Données simulées à colinéarité diffuse.

Paramètres de la simulation
Nombre d’items/de cas :	25/1000
Poids :	5 fois 0.06, 0.05, 0.04, 0.03, 0.02
Matrice des corrélations (i ≠ j) :	r(i,j) = 0.5
Type de colinéarité : diffuse - individuellement modérée, collectivement forte.	FIV moyen : 1.99
	Nombre de FIV > 3 : 0
	Nombre d’indices de conditionnement > 30 : 24
	Nombre d’indices de Foucart > 0.3 : 0
Terme d’erreur :	Normal (μ=0, σ = 0.5, 1.0, 1.5)
Résultats de l’estimation
	Aléa
	Faible	Moyen	Fort
Corrélation avec les poids simulés
RS	0,42	0,46	0,35
Ridge	0,44	0,46	0,36
PLS	0,43	0,47	0,34
CCR	0,44	0,46	0,34
% Écart absolu moyen avec les poids simulés : ∑\|x-y\|÷∑x/n
RS	7,7%	7,9%	9,4%
Ridge	7,8%	8,3%	10,0%
PLS	16,7%	17,8%	24,1%
CCR	16,4%	17,8%	24,0%
Nombre de poids < 0
MCO	4	5	6
PLS	4	4	7
CCR	4	5	7
Forme de la trajectoire des corrélations partielles	Convexe (logarithmique)
Remarque notoire :	Les poids RS et Ridge sont pratiquement confondus.

Tableau 2 .

Données simulées à colinéarité par bloc.

Paramètres de la simulation
Nombre d’items/de cas :	25/1000
Poids :	5 fois 0.06, 0.05, 0.04, 0.03, 0.02
Matrice des corrélations (i ≠ j) :	5 blocs de 5 variables
	Intra-bloc : r(i,j) = 0.7
	Inter-blocs : r(i,j) = 0.3
Type de colinéarité : forte intrabloc, faible interblocs	FIV moyen : 2.79
	Nombre de FIV > 3 : 1
	Nombre d’indices de conditionnement > 30 : 21
	Nombre d’indices de Foucart > 0.3 : 0
Terme d’erreur :	Normal (μ=0, σ = 0.5, 1.0, 1.5)
Résultats de l’estimation
	Aléa
	Faible	Moyen	Fort
Corrélation avec les poids simulés
RS	0,87	0,83	0,51
Ridge	0,76	0,52	0,48
PLS	0,86	0,74	0,53
CCR	0,87	0,73	0,52
% Écart absolu moyen avec les poids simulés : ∑\|x-y\|÷∑x/n
RS	3,9%	3,9%	6,7%
Ridge	5,0%	6,3%	8,4%
PLS	4,6%	5,3%	12,3%
CCR	4,7%	5,6%	12,0%
Nombre de poids < 0
MCO	2	4	7
PLS	0	0	2
CCR	0	0	2

Forme de la trajectoire des corrélations partielles	Linéaire avec forte rupture pour les 5 derniers pas (colinéarité intrabloc)
Remarque notoire :	La forte rupture permet une identification visuelle du pas optimal

Tableau 3 .

Données simulées à colinéarité Robinsonnienne.

Paramètres de la simulation
Nombre d’items/de cas :	25/1000
Poids :	5 fois 0.06, 0.05, 0.04, 0.03, 0.02
Matrice des corrélations (i ≠ j) :	r(i,j) = 0.9 ^{1.5\|i - j\|}
Type de colinéarité : localement forte	FIV moyen : 6.3
	Nombre de FIV > 3 : 25
	Nombre d’indices de conditionnement > 30 : 21
	Nombre d’indices de Foucart > 0.3 : 21
Terme d’erreur :	Normal (μ=0, σ = 0.5, 1.0, 1.5)

Résultats de l’estimation
	Aléa
	Faible	Moyen	Fort
Corrélation avec les poids simulés
RS	0,88	0,90	0,88
Ridge	0,87	0,78	0,74
PLS	0,93	0,89	0,86
CCR	0,93	0,90	0,86
% Écart absolu moyen avec les poids simulés : ∑\|x-y\|÷∑x/n
RS	3,5%	3,8%	4,3%
Ridge	3,8%	4,5%	6,3%
PLS	2,7%	3,5%	6,4%
CCR	2,6%	3,3%	6,2%
Nombre de poids < 0
MCO	8	7	6
PLS	0	0	0
CCR	0	0	0
Forme de la trajectoire des corrélations partielles	Concave (polynôme de degré 2)
Remarque notoire :	PLS et CCR bien adaptées à ce type de colinéarité statistique

La seule différence entre les trois cas porte sur la matrice des corrélations $R = {r_{i j}}$ entre les items.

Colinéarité diffuse : $r_{i j}$ = 0,5 pour tout i différent de j. Cette corrélation modérée crée une situation où tous sont coupables (selon l’indice de conditionnement de Belsley), mais personne n’est responsable (selon le FIV moyen et l’indice de distorsion de Foucart). C’est le pire des cas et celui qui caractérise le mieux les données subjectives de satisfaction. Ce type de colinéarité produit des trajectoires de corrélation partielle convexes, de type logarithmique. La corrélation moyenne entre les items s’élève à 0,5. Le FIV moyen est égal à 2 ; aucun des FIV et indices de Foucart n’excède leur seuil fatidique respectif. En revanche, 24 indices de conditionnement sur 25 sont supérieurs à 30, signe d’une colinéarité diffuse.

Colinéarité par bloc : la matrice des corrélations est constituée de 5 blocs contigus de 5 items avec une corrélation forte intrabloc ( $r_{i j}$ = 0,7), faible interblocs ( $r_{i j}$ = 0,3). Cette situation pourrait correspondre à 5 dimensions de satisfaction faiblement corrélées mesurées par 5 items fortement corrélés. Le FIV moyen ressort à 2,79 avec un seul item doté d’un FIV supérieur à 3. Aucun item ne dépasse le seuil de 0,3 pour l’indice de Foucart, mais 21 d’entre eux excèdent le seuil de 30 pour l’indice de conditionnement de Belsley. La corrélation moyenne s’élève à 0,37 et les trajectoires suivent une décroissance linéaire associée à une forte rupture pour les 5 derniers pas, correspondant à la corrélation intrabloc. Ainsi, malgré un FIV et des corrélations parfois élevées, la colinéarité moyenne est moins sévère que dans le cas précédent.

Colinéarité Robinsonnienne : $r_{i j} = 0, 9^{1, 5 | i - j |}$ . Ce cas de figure engendre une situation locale de forte colinéarité – $r_{i, i + 1} = 0, 85$ – où tous les signaux sont au rouge : FIV moyen de 6,3 ; FIV supérieur à 3 pour tous les items ; indices de conditionnement et de distorsion supérieurs à respectivement 30 et 0,3 pour 21 items. Pourtant, la corrélation moyenne, à 0,36, est égale à celle du cas précédent. La courbe des trajectoires est concave (polynôme de degré 2). Ce cas pourrait correspondre à une batterie d’items entachée d’un fort effet d’ordre.

Ces trois exemples illustrent le caractère polymorphe et insidieux de la colinéarité statistique. Le cas diagnostiqué comme le plus sévère (colinéarité Robinsonnienne) est celui qui produit les estimations les plus précises des poids simulés ; à l’inverse, le cas le plus favorable en apparence (colinéarité diffuse), s’avère être le plus difficile à traiter par toutes les méthodes. Nous recommandons d’ajouter la corrélation moyenne aux outils de diagnostic usuels de la colinéarité. Plus cette corrélation est élevée, moins les estimations seront fiables, indépendamment des problèmes spécifiques que peuvent poser des corrélations localement fortes. Pour dramatique que puisse être une quasi-colinéarité, elle s’élimine plus facilement qu’une colinéarité diffuse.

Les résultats de l’estimation

La qualité de la récupération des poids simulés est mesurée par deux indices, l’un de corrélation (entre poids simulés et estimés), l’autre de précision (écart absolu moyen entre poids simulés et estimés, exprimé en pourcentage de la moyenne des poids simulés). A cette aune, on tire les conclusions suivantes (Tableaux 1 à 3) :

Comme Ridge, RS satisfait l’objectif prioritaire de poids strictement positifs. Dans tous les cas de figure et d’aléa, MCO produit des coefficients de régression négatifs (de 2 à 8 selon les configurations). PLS s’accommode très bien de la colinéarité Robinsonnienne (aucun poids négatif) et, dans une moindre mesure, de la colinéarité par bloc (2 poids négatifs en cas d’aléa fort), mais ne fait pas mieux que MCO en cas de colinéarité diffuse (de 4 à 7 coefficients négatifs selon l’aléa).

Les estimations de Ridge sont moins précises que celles de RS et PLS en cas de colinéarité par bloc et Robinsonnienne, même en s’aidant de PLS pour choisir le ridge optimal⁷. La colinéarité diffuse lui est plus favorable, car c’est un cas de figure où le choix de $λ^{+}$ est bon, comme celui de $k^{+}$ l’est pour RS. A noter : dans ce dernier cas, les poids Ridge et RS sont pratiquement confondus (corrélation de 0,99 et écart absolu moyen de moins de 1 % entre les deux méthodes).

Les estimations de PLS et CCR sont très voisines, tant en qualité de récupération des poids qu’en occurrence de signes négatifs. La possibilité d’extraire des composantes corrélées ne règle donc pas le problème managérial et contre-intuitif d’inversion occasionnelle de signe.

En corrélation, PLS, CCR et RS se valent ; en précision, RS l’emporte. Parce qu’elle garantit des poids strictement positifs sans dégrader la précision des estimations, RS est une alternative viable à PLS et CCR lorsque la positivité des poids est requise.

La difficulté à recouvrer les poids simulés dépend moins de la force de l’aléa que de la structure des corrélations. Si un aléa fort nuit davantage à la précision des estimations qu’un aléa faible, la dégradation de cette précision est moins prononcée que celle observée entre une colinéarité Robinsonnienne et une colinéarité diffuse. L’examen des trajectoires des corrélations partielles contribuera à identifier à quel type de colinéarité l’on a affaire.

L’examen des trajectoires permettra parfois d’identifier le pas optimal. C’est le cas pour la colinéarité par bloc où la rupture est forte et intervient au même pas pour tous les items et aléas (Figure 1).

Figure 1.

Trajectoire des corrélations partielles de l’item V1 ( $r_{y 1 | Z_{k}}$ ) – Colinéarité par bloc, selon trois aléas : faible, moyen et fort.

Identification du pas optimal

La connaissance des poids simulés permet d’identifier le pas optimal ou pas qui maximise la corrélation entre les poids simulés et estimés. Comparer ce pas avec celui issu de la règle consistant à s’adosser à PLS ou celui que suggère une inspection visuelle des trajectoires fournit une mesure de la perte d’optimalité qu’induit ce nécessaire calage (Tableau 4). Cette comparaison est rassurante : pour tous types d’aléa et de colinéarité, la règle PLS identifie soit le pas optimal, soit un pas associé à une forte corrélation entre les poids estimés et simulés.

Tableau 4.

Pas PLS et corrélation avec les poids simulés en pourcentage de la corrélation du pas optimal.

Type de colinéarité	ALÉA
	Faible		Moyen		Fort
	Pas	% optimal	Pas	% optimal	Pas	% optimal
Diffuse	13	99%	15	100%	16	100%
Blocs	21	100%	21	99%	3	100%
Robinsonnienne	9	97%	9	95%	13	98%

Sur la base de cette simulation, caler RS sur PLS s’avère efficace et permet de s’affranchir de la variabilité du pas optimal selon le type de colinéarité. Le pas optimal se situe en effet plutôt en début de trajectoire pour les formes concaves et plutôt en fin de trajectoire pour les formes convexes ou linéaires. Un examen visuel de chacune des trajectoires (ici : 25) peut conduire à modifier ce pas qui, rappelons-le, doit être le même pour tous les items, mais seule une règle simple (comme s’adosser à PLS) permet d’automatiser la démarche.

Fréquence des variables omises et structure des corrélations

Les variables de la trajectoire d’un régresseur se situant au-delà du pas optimal ne participent pas au calcul du poids de celui-ci. La fréquence des variables omises, tous régresseurs confondus, est liée à la structure de la matrice des corrélations. Pour la colinéarité par blocs, avec un pas de 21 (aléas faible et moyen), chacune des 25 variables est omise 4 fois, reflétant la forte corrélation intrablocs. Les 4 variables omises sont celles qui sont corrélées à hauteur de 0,70 avec le régresseur (V2 à V5 pour le régresseur V1, par exemple). Pour la colinéarité Robinsonnienne, les variables les plus corrélées aux autres sont celles qui se situent, par construction, au milieu de la matrice (V9 à V17). Elles sont donc omises plus souvent que les autres du calcul des poids. Pour la colinéarité diffuse, la fréquence des variables postérieures au pas optimal ne semble pas suivre de modèle précis bien que l’on s’attendît à ce qu’aucune ne soit omise plus qu’une autre ( $r_{i j} = 0, 5$ pour tout i ≠ j $i \neq j$ ). Cette absence de régularités dans la fréquence des variables omises est une manifestation subsidiaire de la difficulté à neutraliser ce type de colinéarité. De manière générale, les variables les plus fréquemment omises sont celles qui perturbent le plus l’estimation des poids.

Application de la régression signée à des données réelles

Les données réelles proviennent d’une enquête de satisfaction périodique portant sur respectivement 3319, 3483 et 3375 possesseurs de véhicules utilitaires achetés neufs en années T, T+1 et T+2. On dispose d’une batterie de 19 items regroupés en cinq grandes dimensions de satisfaction (Conduite, Confort, Qualité, Volume et Divers), mesurés par des notes de 1 à 10, ainsi que d’une note de satisfaction globale servant de variable à expliquer. Pour des raisons de confidentialité, ces items sont libellés de 1 à 19.

Ces données présentent tous les symptômes d’une colinéarité diffuse avec des statistiques pratiquement identiques pour les trois années :

Corrélation moyenne entre items de 0,43.

FIV moyen de 2,2.

Nombre d’items à FIV ⩾ 3 : 3

Nombre d’indices de conditionnement ⩾ 30 : 12

Nombre d’indices de distorsion ⩾ 0,3 en valeur absolue : 6.

Trajectoire des corrélations partielles : convexe.

Sur les 19 items, 11 sont impliqués dans des paires de corrélations à indice de distorsion excédant le seuil empirique acceptable, les mêmes d’une année à l’autre. Selon les méthodes, cette distorsion sera plus ou moins bien traitée.

Les résultats des régressions sont regroupés dans le tableau 5. On y trouve les poids par item et des mesures de la qualité et de la stabilité de l’ajustement entre périodes successives. Le fait qu’il s’agisse d’une étude périodique facilite le diagnostic des anomalies. On ne s’attend pas, en effet, à de fortes variations de poids d’une année à l’autre. Un exemple de trajectoires optimales et d’identification du pas est disponible en figure 3 pour l’année T+1.

Tableau 5 .

Application de la régression signée à des données réelles – Poids des items et qualité de l’ajustement.

	Régression PLS			Régression Signée			Régression Ridge			Régression CCR
	T	T+1	T+2	T	T+1	T+2	T	T+1	T+2	T	T+1	T+2
Item 1	0,074	0,092	0,065	0,068	0,076	0,074	0,080	0,090	0,088	0,077	0,091	0,068
Item 2	0,000	0,039	0,021	0,025	0,050	0,019	0,009	0,036	0,021	–0,017	0,037	0,014
Item 3	0,023	0,042	0,024	0,042	0,053	0,031	0,034	0,036	0,023	0,013	0,038	0,017
Item 4	0,049	0,055	0,040	0,040	0,058	0,038	0,052	0,059	0,045	0,048	0,054	0,041
Item 5	0,069	0,073	0,028	0,066	0,062	0,024	0,070	0,068	0,030	0,076	0,080	0,032
Item 6	0,021	0,039	0,011	0,038	0,048	0,024	0,028	0,037	0,022	0,023	0,036	0,015
Item 7	0,046	0,071	0,050	0,044	0,057	0,045	0,047	0,061	0,054	0,056	0,080	0,059
Item 8	0,076	0,095	0,078	0,075	0,072	0,086	0,077	0,104	0,091	0,079	0,098	0,088
Item 9	0,050	0,012	0,058	0,054	0,037	0,058	0,060	0,039	0,079	0,040	0,009	0,052
Item 10	0,046	0,019	0,052	0,054	0,041	0,062	0,042	0,019	0,042	0,042	0,016	0,050
Item 11	0,042	0,009	0,035	0,035	0,019	0,045	0,045	0,020	0,042	0,043	0,013	0,037
Item 12	0,024	–0,015	0,023	0,030	0,026	0,033	0,018	0,001	0,001	0,017	–0,016	0,018
Item 13	0,068	0,028	0,068	0,054	0,040	0,050	0,061	0,037	0,063	0,070	0,026	0,070
Item 14	–0,009	0,033	0,006	0,009	0,038	0,010	0,001	0,034	0,007	–0,007	0,035	0,009
Item 15	0,096	0,061	0,078	0,081	0,057	0,072	0,090	0,058	0,085	0,105	0,065	0,087
Item 16	0,052	0,059	0,029	0,050	0,054	0,015	0,043	0,054	0,002	0,056	0,071	0,032
Item 17	0,067	0,092	0,106	0,056	0,071	0,106	0,051	0,077	0,104	0,072	0,096	0,115
Item 18	0,137	0,107	0,111	0,100	0,077	0,104	0,106	0,089	0,098	0,111	0,089	0,097
Item 19	0,122	0,101	0,117	0,081	0,065	0,104	0,087	0,082	0,103	0,096	0,085	0,099
R²	0,52	0,47	0,45	0,51	0,46	0,44	0,51	0,46	0,46	0,52	0,47	0,45
Corrélation avec PLS				0,95	0,95	0,96	0,96	0,96	0,93	0,96	0,98	0,97
Corrélation avec Ridge	0,96	0,96	0,93	0,96	0,92	0,94				0,95	0,94	0,94
Corrélation d’une année sur l’autre		0,68	0,66		0,68	0,56		0,73	0,72		0,66	0,63
Écart absolu moyen		8,7%	9,0%		5,1%	8,2%		6,3%	7,4%		9,1%	9,2%
Pas /Ridge/Nb. Comp	2	2	2	16	13	18	0,32	0,36	0,11	2	2	2

La qualité de l’ajustement, mesurée par le R², varie très peu entre méthodes. Par ailleurs, les quatre – PLS, CCR, RS et Ridge – produisent des poids très voisins, avec une corrélation entre méthodes excédant 0,95. Ce résultat corrobore ce que l’on a constaté avec les données simulées, en l’occurrence qu’aucune des quatre méthodes ne dominait les trois autres en présence de colinéarité diffuse.

Cette convergence globale des poids au sens de la corrélation ne signifie pas qu’il n’y ait pas de différences locales d’une méthode à l’autre, différences qu’il est instructif d’analyser avec les trajectoires des corrélations partielles.

Poids négatifs

En PLS et CCR, deux items en année T (Items 2 et 14) et un item en année T+1 (Item 12) sont dotés de poids négatifs. Pour ces trois items, Ridge respecte la contrainte de signe, mais à la marge : leur poids est pratiquement nul. L’examen de la trajectoire de l’item 12, par exemple (Figure 2), permet de comprendre pourquoi PLS et CCR lui octroient un poids négatif ou nul : la corrélation partielle devient négative au pas 16, après l’introduction de l’item 9 dans l’équation de régression en T+1. RS s’en accommode en fixant un pas antérieur à la rupture.

Figure 2.

Trajectoire optimale de l’item 12.

Il fallait s’y attendre avec une corrélation entre ces deux items de 0,81 et un indice de distorsion de −0,67. On notera, toutefois, que les années T et T+2 connaissent exactement la même situation de colinéarité, telle que mesurée par ces deux quantités, à cette différence près que l’introduction de l’item 9 n’intervient pour ces deux années qu’au dernier pas. Sur la seule base de la corrélation et de l’indice de distorsion, rien ne permettait de prévoir que l’estimation de l’item 12 en T+1 en pâtirait plus qu’en T et T+2. Parce qu’elle s’inscrit dans une dynamique, la trajectoire des corrélations partielles est beaucoup plus riche d’enseignement qu’une simple mesure statique de la colinéarité.

Ici, par exemple, elle suggère que le poids de l’item 12 devrait être le même en T et T+2, à en juger par la proximité des deux courbes. C’est le cas pour PLS et RS, mais pas pour Ridge. On s’attend également à ce que le poids de cet item soit moins fort en T+1 en raison du décalage constant de la courbe vers le bas, tout en restant positif. C’est effectivement le cas pour RS, la seule méthode à traiter correctement la rupture, même si l’ajustement introduit par le choix du pas 13 (lequel prend en compte le contexte de colinéarité de tous les autres items) peut être jugé excessif.

Effet de bascule du poids d’un item vers un autre

Face à deux items fortement corrélés, MCO et Ridge, mais aussi, dans une moindre mesure, PLS tendent à privilégier l’un des deux items en lui octroyant plus de poids. Considérons les items 8 et 10 en T+1 ( $r = 0, 71; d i s t o r s i o n = - 0, 51$ ). Le total de leur poids est très proche (PLS : 0,114 ; RS : 0,113 ; Ridge : 0,123), mais la répartition de ce poids entre les deux items est très différente : PLS et Ridge favorisent l’item 8 (resp. 0,095 et 0,104) au détriment de l’item 10 (0,019) tandis que RS, tout en privilégiant le premier (0,072) accorde davantage de poids au second (0,041). Le phénomène de bascule auquel succombent PLS et Ridge se lira dans les trajectoires des items les plus corrélés.

Rétrocession du poids

Si l’on travaille en dimensions – regroupement d’items élémentaires – on constate que les quatre méthodes leur accordent pratiquement le même poids et que ce poids correspond à ce que l’on obtient par une régression multiple pas à pas. Cette dernière se contente d’exploiter 14 items sur 19 en ignorant un à deux items par dimension.

Prendre en compte la colinéarité aboutit donc, dans un contexte de colinéarité diffuse, à rétrocéder du poids aux items les plus vulnérables, ceux dont la faible corrélation avec la variable à expliquer, relativement à celle des autres items, ne parvient pas à compenser leur forte intercorrélation. Dans cet exercice, comme l’illustrent les exemples ci-dessus, c’est RS qui répond le mieux à cet objectif.

Conclusion et voies de recherche

Cet article comble un manque, celui d’une méthode de régression dont l’objectif prioritaire est de produire systématiquement pour toutes les variables des coefficients dont le signe concorde avec celui de la corrélation simple entre la variable à expliquer et chacun des régresseurs et dont la valeur ne se cale pas sur la contrainte. Nous l’avons appelée RS : « Régression Signée ». L’idée de base est qu’il existe entre la corrélation simple et la corrélation partielle une étape intermédiaire qui permet d’atteindre cet objectif.

On introduit à cet effet la notion de trajectoire optimale de corrélation partielle qui retrace le chemin parcouru par chaque régresseur entre le moment où il est seul dans l’équation de régression (corrélation simple) et celui où il est rejoint par l’ensemble des régresseurs (corrélation partielle). Chaque régresseur est doté de sa propre trajectoire, établie indépendamment de celles des autres régresseurs.

Cette trajectoire est définie de manière à préserver au mieux la corrélation partielle du régresseur dont on recherche la trajectoire au fur et à mesure de l’introduction des autres régresseurs dans la fonction de régression. Si l’ordre d’introduction des variables varie d’un régresseur à l’autre, tous sont, à chaque pas, en quelque sorte, logés à la même enseigne au sens où le choix de la variable à introduire dans l’équation de leur trajectoire se fait au mieux de leur intérêt.

La forme de ces trajectoires, convexe, concave ou linéaire, identique pour tous au bruit et aux ruptures spécifiques près, varie selon la structure de la matrice des corrélations entre régresseurs. Ces ruptures peuvent être systématiques (cf la simulation par blocs) ou occasionnelles, c’est-à-dire propres à une paire de régresseurs. Les trajectoires constituent par ailleurs un outil diagnostic visuel très puissant.

L’étape finale du processus consiste à fixer le curseur entre la corrélation simple (premier pas) et la corrélation partielle (dernier pas)⁸. La condition nécessaire est que ce pas, le même pour tous les régresseurs, doit être tel qu’il garantisse le caractère strictement positif des corrélations partielles (pas nécessaire : $k^{+}$ ). Une condition suffisante est ensuite introduite pour obtenir une solution unique qui coïncide parfois, mais pas toujours, avec celle du pas nécessaire.

A ce stade de notre recherche, nous avons opté de fixer ce pas en calant les coefficients RS sur ceux de la régression PLS, une méthode simple, robuste et efficace. Les coefficients RS correspondent donc au pas qui satisfait la contrainte de signe et maximise la corrélation avec leurs homologues PLS.

Les simulations réalisées suggèrent que RS est une bonne alternative à PLS ou CCR lorsque la contrainte du respect du signe de la corrélation simple est imposée. En situation de données réelles, les trajectoires, outre de rendre visuel l’impact insidieux de la colinéarité, permettent parfois de déterminer le pas optimal. Le calcul des trajectoires est rapide, grâce au recours à la récursivité, et il tolère les valeurs manquantes. Avec la régression signée, le praticien dispose enfin d’une méthode lui garantissant des poids strictement positifs et statistiquement fondés.

Limites et voies de recherche

Deux limites de cette nouvelle approche méritent d’être soulignées, l’une d’ordre méthodologique, l’autre, plus fondamentale, d’ordre théorique.

Limite méthodologique

Adosser RS à PLS ou CCR pour le choix du pas optimal est efficace, mais contestable. Si rien n’empêche l’utilisateur de leur substituer un autre référent, l’idéal serait de s’en passer.

Choisir systématiquement $k^{+}$ comme pas optimal, le pas au-dessus duquel la corrélation partielle devient négative pour au moins un pivot, n’est pas une option. Si ce pas est en général proche du pas PLS pour les trajectoires de forme convexe (Figure 3), il sera très suboptimal pour les trajectoires concaves (Figure 4). Pour les données simulées à colinéarité Robinsonnienne et aléa faible, par exemple, le pas $k^{+}$ , égal à 21, ne récupère les poids simulés qu’à hauteur de 0,77. Le pas PLS de 9 (0,88) est une bien meilleure approximation du pas optimal de 14 (0,89).

Figure 3.

Trajectoires optimales et identification du pas – Enquête VU – Année T+1.

Figure 4.

Trajectoires optimales et identification du pas – Colinéarité Robinsonnienne – Aléa faible.

Choisir le pas $k \leq k^{+}$ qui maximise le $R^{2}$ n’est pas non plus la solution, ce pas coïncidant presque toujours avec $k^{+}$ . Rien d’étonnant à cela puisque le $R^{2}$ est monotone croissant.

En revanche, la progression du $R^{2}$ selon le pas pourrait aider à identifier le pas optimal. On constate, avec les données simulées, que le pas optimal, celui correspondant au maximum de la corrélation entre les poids simulés et estimés, intervient très souvent à un moment de rupture de cette progression. Alors que l’on serait tenté de considérer cette hausse plus rapide du $R^{2}$ comme une bonne nouvelle, la simulation montre que c’est à partir de ce moment-là que la qualité de l’estimation, mesurée non pas par le $R^{2}$ , mais par la corrélation entre poids simulés et estimés, se dégrade. Si, au contraire, la progression du $R^{2}$ est régulière, sans effet de seuil marqué, comme dans le cas de la colinéarité diffuse, le pas optimal est proche de $k^{+}$ . L’utilisateur sera donc avisé d’examiner la progression du $R^{2}$ pour conforter le pas PLS, en particulier lorsque les trajectoires des corrélations partielles sont concaves ou linéaires.

Hormis le calage sur PLS ou CCR, l’examen de la forme des trajectoires optimales et la présence de ruptures systématiques (communes à plusieurs items) restent le moyen le plus fiable d’identification du pas optimal. La règle serait alors la suivante :

– Si la trajectoire est linéaire ou convexe, le pas optimal est égal à $k^{+}$ .

– Si la trajectoire est concave, un polynôme de degré 2 en est une bonne approximation (a+bx+cx²). La simulation montre que le pas optimal correspond approximativement à l’entier le plus proche de $| \frac{b}{c} |$ , c’est-à- dire au moment où la trajectoire cesse d’être plus ou moins plate (Figure 4), le terme en $x^{2}$ prenant le dessus sur le terme en $x$ . On calcule les $b$ et $c$ de tous les items et l’on retient comme pas optimal la médiane des $| \frac{b}{c} |$ .

– En cas de rupture forte et systématique (Figure 1), le pas optimal correspond au pas précédant cette rupture.

Appliquée aux données simulées, cette règle fournit une bonne approximation du pas optimal⁹.

Limite théorique

On pourrait arguer que le rôle d’un scientifique n’est pas de résoudre les problèmes mal posés, mais de les poser correctement. Dans le contexte de cet article, cela conduirait à tenter de convaincre les managers à « vivre » avec des facteurs de satisfaction à importance nulle ou négative, laquelle importance correspondrait aux « vrais » résultats, multicolinéarité comprise. L’objectif poursuivi dans cet article nuirait alors à la validité des résultats et ne serait qu’un artifice de communication visant à rassurer certains managers et les conforter dans leur utilisation dévoyée des études de satisfaction.

Cet argument n’est pas sans fondement. Si une inversion de signe peut révéler un processus de médiation ou de modération (Chumpitaz et Vanhamme, 2003), il n’est pas impossible, « en théorie », qu’un facteur présupposé de satisfaction ne pèse pas sur la satisfaction globale. Et la différence pratique entre un facteur nul et un facteur de très faible importance n’est pas immédiate. Encore faut-il que le modèle soit bien spécifié : ni RS, ni PLS, ni CCR ne sont adaptées à une structure des données intrinsèquement hiérarchique, sauf à ne travailler qu’avec les items du niveau le plus bas. Une surabondance d’items, source de poids nuls ou négatifs, est souvent le signe d’une structure hiérarchique non prise en compte. La présence de segments de clientèle aux attentes divergentes peut également conduire à des coefficients nuls. Il faut alors conduire l’analyse sur ces segments ou recourir à un modèle spécialisé (classes latentes).

La colinéarité statistique peut être limitée, mais rarement éliminée¹⁰. Dans le domaine automobile, par exemple, les notes de satisfaction des items « esthétique de l’intérieur » et « qualité de finition de l’intérieur » sont très corrélées, l’esthétique en quelque sorte, déteignant sur la qualité. Ces deux notions, liées dans la tête du client, le sont beaucoup moins dans celle du constructeur qui ne souhaite pas faire l’économie de l’une d’entre elles pour cause de colinéarité. C’est à ce type de dépendance inévitable que la méthode s’adresse en priorité.

L’ambition de cet article n’est pas de tester une hypothèse ni de résoudre la sempiternelle question de l’importance des critères de satisfaction – chacun sait que le modèle compensatoire sous-jacent à la régression linéaire est une pauvre approximation des phénomènes asymétriques et non linéaires potentiellement à l’œuvre dans le processus de satisfaction et de la théorie prévalente (confirmation des attentes) – mais de répondre à un souhait de managers qui, par métier, arbitrant des compromis, prenant des décisions et cherchant à donner du sens à leur action, attendent des solutions plutôt qu’une liste de problèmes. On ne peut pas motiver les ingénieurs responsables de la conception d’un sous-ensemble en affirmant qu’il ne pèse rien dans la satisfaction du produit dans lequel il s’insère. Les managers sont ainsi faits qu’ils peuvent s’accommoder d’un poids de 0,001, mais pas d’un poids de 0,000 et encore moins d’un poids de −0,001. Laisser aux seules données le soin de déterminer le signe d’une relation est hasardeux, car un signe contraire aux attentes signale presque toujours un problème de théorie, de données, de spécification ou d’estimation (Kennedy, 2003).

La régression signée ne court pas après une chimère (la « vraie » importance d’un facteur de satisfaction) ; elle constitue une réponse approximative et rigoureuse à la démarche consistant à profiter de la « voix du client » (une étude de satisfaction) pour fonder une action qui, sinon, ne s’appuierait que sur l’expertise et les convictions personnelles des concepteurs, et de le faire d’une manière qui en facilite l’appropriation.

Footnotes

Annexe : Pseudo-code et exemple chiffré de calcul des trajectoires optimales

Le cœur de la régression signée repose sur le calcul de la trajectoire optimale des corrélations partielles de chaque régresseur. Le pseudo-code ci-dessous indique comment mettre à profit la formule récursive de la section intitulée « Calcul numérique des trajectoires » pour les obtenir.

Notes

References

Bachelet

(1996) La mesure de la satisfaction du consommateur ou la chaîne, l’arbre et la cascade. Congrès Esomar, Madrid, Customer satisfaction, 199–228.

Bachelet

(2016) Des enquêtes marketing et d’intentions de vote plus opérationnelles. Riga: Editions Universitaires Européennes, 77–99.

Beckwith

Lehmann

(1975) The importance of halo effects in multi-attribute attitude models. Journal of Marketing Research (12/3): 265–275.

Belsley

Kuh

Welsch

(1980) Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: John Wiley & Sons.

Birkes

Dodge

(2003) Alternative Methods of Regression. New York: John Wiley & Sons.

Chumpitaz Cáceres

Vanhamme

(2003) Le processus modérateurs et médiateurs : distinction conceptuelle, aspects analytiques et illustrations. Recherche et Applications en Marketing 18(2): 67–100

Draper

Smith

(1998) Applied Regression Analysis, 3^rd edn. New York: John Wiley & Sons.

Erkel-Rousse

(1995) Détection de la multicolinéarité dans un modèle linéaire ordinaire : quelques éléments pour un usage averti des indicateurs de Belsley, Kuh et Welsch. Revue de Statistique Appliquée (43/4): 19–42.

Farrar

Glauber

(1967) Multicollinearity in regression analysis: the problem revisited. Review of Economics and Statistics (49): 92–107.

10.

Foucart

(1992) Colinéarité dans une matrice de produit scalaire. Revue de Statistique Appliquée (40/3): 5–17.

11.

Foucart

(2006) Colinéarité et régression linéaire. Mathématiques et sciences humaines (44/173): 5–25.

12.

Gaines

Zhou

(2016) Algorithms for Fitting the Constrained Lasso. arXiv:1611.01511v1 [stat.ML].

13.

Hoerl

Kennard

(1970) Ridge regression: biased estimation for nonorthogonal problems. Technometrics 12(1): 55–67.

14.

Jolliffe

(1982) A note on the use of principal components in regression. Applied Statistics (31): 300–303.

15.

Kennedy

(2003) Oh no! I got the wrong sign! What should I do? University of Columbia, Department of Economics, Discussion Paper 02–3. Disponible en ligne: http://www.stat.columbia.edu/~gelman/

16.

Magidson

(2013) Correlated component regression: re-thinking regression in the presence of near collinearity. In: Abdi

Chin

Esposito Vinzi

Russolillo

Trinchera

(éds) New Perspectives in Partial Least Squares and Related Methods. New York: Springer Verlag.

17.

Ray

Sabadie

(2006) Marketing relationnel : rentabiliser les politiques et satisfaction, fidélité et réclamation. Paris: Dunod.

18.

Robinson

(1951) A method for chronologically ordering archaeological deposits. American Antiquity 16(4): 293–301.

19.

Saporta

(1990) Probabilités, analyse des données et statistique. Paris: Technip.

20.

Tenenhaus

(1998) La régression PLS. Paris: Technip.

21.

Tibshirani

(1996) Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society (B/58/1): 267–288.

22.

Tomassone

Lesquoy

Millier

(1992) La régression, nouveaux regards sur une ancienne méthode statistique. 2^ème édn. Paris: Masson.

23.

Tze-San

(1988) Optimum ridge parameter selection. Applied Statistics (36/1): 112–118.

24.

Windal

Desmet

(2000) Les méthodes de mesure de l’importance des critères de satisfaction : application dans le domaine du service automobile. Revue Française du Marketing (4–5): 205–220.

25.

Windal

(2004) A la recherche d’invariants en matière de satisfaction spécifique à une transaction : un exemple automobile. Décisions Marketing 33(janvier/mars): 51–62.