« Statistiquement significatif » ? Respectons l’incertitude de l’effet testé

Abstract

Résumé

Ne rêvons-nous pas tous de pouvoir conclure que nos résultats sont « statistiquement significatifs », c’est-à-dire associés à une probabilité p inférieure à un seuil, généralement de 5% ? Dans cet article, nous montrons d’abord que p n’est pas ce qu’on croit, et qu’il conduit à une dichotomisation fallacieuse et à une sous-évaluation de l’incertitude de l’effet testé. Nous proposons ensuite une nouvelle mesure directe de la plausibilité de cet effet. A partir d’un exemple tiré d’un article, nous l’illustrons et la complétons de contextualisations concrètes reposant sur des contrastes graphiques entre intervalles crédibles. Finalement, nous soulignons que la démarche proposée contribue à réaliser à quel point l’interprétation de p, ou de toute autre probabilité, doit être prudente dès lors qu’il s’agit d’émettre une conclusion dans un environnement incertain à propos de l’existence ou non d’un effet.

Keywords

contextualisation dichotomisation incertitude interprétation probabilité seuil significatif

« La connaissance progresse en intégrant en elle l’incertitude, non en l’exorcisant. »

Edgar Morin

Introduction

En marketing, spécifiquement dans le cadre d’une démarche hypothético-déductive, nous testons classiquement des hypothèses, relatives aux effets de facteurs que nous voulons mettre en évidence. A la recherche de résultats (différences ou associations) que nous espérons convaincants, nous nous référons, quasiment toujours, à la valeur p d’une probabilité que nous confrontons à un seuil, généralement de 5%. Si p est inférieure ou égale à ce seuil, d’aucuns sont tentés de qualifier, de façon mécanique, les résultats de significatifs. A l’inverse, lorsque p est supérieure à 5%, les mêmes peuvent être enclins à affirmer, tout aussi mécaniquement, qu’il n’y a pas de différence ou pas de relation, respectivement entre deux groupes ou deux variables, parce que l’estimation de cette différence, ou du degré d’association n’est, croient-ils, pas statistiquement significative.

Il arrive même que des chercheurs renoncent à communiquer leurs résultats craignant qu’ils n’intéressent pas éditeurs, évaluateurs et lecteurs de revues scientifiques parce que les valeurs p s’y rapportant sont supérieures à 5%. D’autres malheureusement ne présentent que les seuls résultats en-deçà de ce seuil, une dérive appelée best-of tactic (Laurent, 2013 : 323). Ce biais de sélection affecte les travaux de réplication pourtant indispensables au développement de connaissances robustes. D’autres enfin, avant même d’avoir terminé leur enquête ou expérimentation, veulent s’assurer que l’analyse de leurs données ne produise pas des résultats de tests transgressant la fatidique limite des 5%. En conséquence, ils décident de ne pas compléter leur échantillon appréhendant que l’ajout d’observations conduise à un test assorti d’une valeur p dépassant ce plafond (un des comportements non éthiques souligné par Levelt Committee et al., 2012).

Le présent article fait écho aux appels répétés des statisticiens mettant en garde contre l’assuétude à la confrontation de p à ce plafond aussi peu justifié qu’invariable (e.g. Amrhein et al., 2019a ; Wasserstein et Lazar, 2016 ; Wasserstein et al., 2019). Notre objectif est d’abord de relayer ces appels et de provoquer une réelle prise de conscience dans la communauté marketing et des sciences de gestion. Nous nous efforçons ensuite de présenter un indicateur plus approprié que p en ce qu’il permet de juger de la véracité de l’hypothèse soumise à l’épreuve des faits, habituellement désignée par $H_{1}$ .

Dans la première partie, nous nous employons à sensibiliser aux erreurs d’interprétation de p et au caractère fallacieux de la dichotomisation entre résultats significatifs et non significatifs qui en découle.

Afin d’éviter ces erreurs, nous préconisons, dans une deuxième partie, une mesure directe de la plausibilité de l’effet testé, mesure optimiste de la probabilité de $H_{1}$ , développée par Sellke et al. (2001), reprise ensuite et discutée par Benjamin et Berger (2019 : 188). Nous l’expliquons en nous appuyant principalement sur les premiers cités. Dans un souci pédagogique, illustrations graphiques et numériques à l’appui :

(1) nous exposons leur raisonnement permettant de traduire p, en coefficient de réduction (ou augmentation) de l’incertitude quant à la réalité de l’effet $(H_{1})$ , appelé facteur de Bayes, noté B(p);

(2) nous montrons ensuite comment exploiter une borne supérieure de ce facteur¹ B(p) pour actualiser la probabilité a priori de l’effet : $P (H_{1})$ , et transformer celle-ci en estimation optimiste de sa probabilité a posteriori : $P (H_{1} | p)$ , symbolisée par la lettre $P$ .

Enfin, dans une troisième partie revisitant un exemple tiré d’un article publié (Herrmann, Derbaix et Kacha, 2018), nous montrons concrètement en quoi $P$ incite à nuancer les affirmations relatives à la véracité de $H_{1}$ . Cette discussion de cas se conclut par des comparaisons graphiques d’intervalles crédibles de ratios de cotes (odds ratios) qui circonscrivent bien la magnitude des effets (effect size) et enrichissent le diagnostic.

Pratiques courantes d’inférence

Le but d’une démarche inférentielle est de déduire d’un échantillon de données – issues d’expérimentations, ou récoltées par voie d’observations ou d’enquêtes – des généralisations propres à cerner, le plus fidèlement possible, l’univers étudié (marché ou segment). Le plan d’échantillonnage se calque sur un modèle, le plus réaliste possible, de cet univers. Ce modèle prend la forme d’un jeu cohérent d’hypothèses, articulant les caractéristiques et variables pertinentes pour cerner le champ de recherche dans cet univers. L’analyse statistique des données rassemblées vise à quantifier, le plus précisément possible, les paramètres qui spécifient formellement les hypothèses à tester. Pour juger du réalisme de chacune de ces hypothèses, on estime la probabilité de rejeter à tort l’hypothèse nulle $(H_{0})$ , complémentaire de celle que l’on veut tester. La valeur p de ce risque conditionne donc l’issue du test de l’hypothèse. Conclure en confrontant p, à une valeur repère, unique et consacrée par l’usage, facilite le diagnostic et rassure. Les trois paragraphes qui suivent critiquent cette fuite du risque, en apportant les clarifications nécessaires à dissiper toute illusion quant à la portée de p. Certes, la valeur p synthétise valablement les données exploitées pour falsifier une hypothèse. Mais interpréter 1-p comme étant la probabilité de l’effet est une erreur.

Clarification

Soit un facteur dont l’incidence présumée est modélisée par une relation dont un paramètre $δ$ reflète l’impact. Naturellement, cet impact, on l’espère non-nul : soit négatif (test unilatéral gauche), soit positif (test unilatéral droit), soit différent de zéro (test bilatéral). Cette attente se traduit par l’hypothèse $H_{1}$ : soit $δ$ $< 0$ , soit $δ$ $> 0$ , soit $δ$ $\neq 0$ , par contraste avec $H_{0} : δ = 0$ . L’influence supposée sera considérée établie pour autant qu’on puisse rejeter l’hypothèse la niant, dite hypothèse nulle $H_{0} : δ = 0$ Ce test s’effectue sur base d’une estimation de $δ$ , dénotée d, tirée de l’analyse d’un échantillon d’observations portant sur l’effet prétendu. La conclusion se fonde sur le risque d’erreur p, c’est-à-dire : la probabilité conditionnelle que l’estimateur de l’effet $(\hat{δ})$ puisse produire une estimation au moins aussi considérable que celle obtenue $(d)$ , alors qu’en réalité, le facteur étudié ne jouerait aucun rôle ( $H_{0} : δ = 0$ ). Par considérable, nous entendons une estimation :

- égale ou inférieure à d, si on est persuadé que $δ$ est négatif ;

- égale ou supérieure à d, si on croit $δ$ positif ;

- aussi extrême (positivement ou négativement) que d, si on suppose $δ$ différent de zéro.

La formalisation mathématique de cette définition est explicitée dans le tableau de synthèse 5.

Dans les cas de tests unidirectionnels – si la distribution de l’estimateur est symétrique (ce qui est souvent le cas), et pour autant que d présente le signe attendu –, il convient de diviser par deux la valeur p fournie par les logiciels statistiques, ce qu’on oublie souvent. En revanche, si le signe de d est contraire, l’effet doit être considéré comme étant non établi. Ce point est particulièrement critique lorsque $5 % < p < 10 %$ . Le fait de ne pas indiquer l’orientation de l’hypothèse $H_{1}$ laisse à penser qu’on n’a aucun a priori fondé quant au sens de l’effet, c’est-à-dire quant au signe du paramètre qui le concrétise. Recourir à un test bilatéral trahit parfois une revue de la littérature pauvre ou une étude exploratoire « légère », voire inexistante. Dans certaines situations assez rares, le bilan d’une revue de la littérature, pourtant bien conduite, ne permet pas de trancher quant au signe attendu. Il est des cas où on ne peut anticiper dans quel sens une variable dépendante (l’attitude par exemple) peut être déterminée par une variable indépendante (une réaction émotionnelle). Ainsi, la tristesse éprouvée pendant ou après la vision d’une annonce publicitaire pourrait altérer, tantôt positivement tantôt négativement, l’attitude envers l’annonce ou envers la marque présentée.

Méprise originelle compréhensible

La définition de p n’est ni élémentaire, ni opérationnelle. Rien de surprenant à ce qu’elle soit perçue si ardue, qu’en pratique on veuille la simplifier au risque d’en perdre le sens et de lui accorder un crédit qu’elle ne mérite pas. Matthews (2019 : 205) et de nombreux autres (e.g. Goodman, 2008 ; Greenland et al., 2016) ont dressé une liste très complète des pratiques entachant l’interprétation de p. Ainsi, ils dénoncent que l’erreur la plus souvent commise consiste à confondre p avec la probabilité d’absence d’effet, $P (H_{0}),$ et donc à assimiler $(1 - p)$ à la probabilité d’existence de l’effet, $P (H_{1}) .$

En fait, p n’est que la valeur prise par la probabilité d’obtenir des résultats supportant autant, voire davantage, $H_{1}$ , que celui issu du traitement statistique de l’échantillon étudié, en supposant que $H_{0}$ soit vraie. Au mieux, p jauge donc le degré de compatibilité des données avec l’hypothèse nulle, rien de plus, ce qui ne satisfait évidemment pas, ni le chercheur, ni le manager. Sur le plan statistique, importe la plausibilité de l’effet postulé, ce que p ne révèle pas, pas directement du moins. Quant aux progrès des connaissances et à la portée managériale, la substantialité (taille) de l’effet estimé importe tout autant, voire davantage.

Un irrépressible besoin de seuils

La référence quasi-systématique à des seuils arbitraires pour étalonner p a entrainé une dichotomisation dogmatique opposant les résultats prétendus significatifs aux autres, considérés non significatifs². Ces seuils sont arbitraires, car ils ont été prédéterminés indépendamment du contexte, sans tenir compte des conséquences (asymétriques) des faux négatifs et faux positifs³. En matière de pré-test d’innovations, par exemple, un faux positif entraîne un coût monétaire, alors que d’un faux négatif résulte une perte d’opportunité⁴. En ce qui concerne le label significatif décerné dès lors que p est inférieure à 5% (ou à 1%, . . .), il est peu informatif quant à la réalité de l’effet présumé. Mutatis mutandis, disqualifier une hypothèse parce que p excède 5% ne permet pas de conclure à l’absence d’effet⁵. Cette dichotomisation, et les labels trompeurs qui vont de pair, sont par conséquent à proscrire définitivement (Amrhein et al., 2019a ; Wasserstein et al., 2019).

Reflets d’une forme d’aversion au risque, les jugements, fondés uniquement sur p, hiérarchisés en degrés de signification rigides, risquent :

d’induire la diffusion de conclusions sans nuances, voire fausses ;

d’alimenter des polémiques en cas de non-réplication ;

de polluer des revues de littérature (méta-analytiques ou non) ;

et in fine de mettre en péril le processus de développement des connaissances scientifiques.

Le marketing n’échappe pas à cette tendance à s’affranchir de l’incertitude. Nous sommes nombreux à avoir osé tirer des conclusions que les seules valeurs p calculées ne suffisent pas à légitimer. Les deux exemples résumés dans le tableau 1 – extraits des travaux de deux des auteurs du présent article – sont assez représentatifs de ces pratiques toujours courantes.

Tableau 1.

Deux exemples de dérives « significatives ».

Dans un commentaire co-signé par 854 autres scientifiques⁶, publié dans Nature, Amrhein et al. (2019a) s’élèvent contre ce seuil quasi-immuable $p = 5 %$ . S’appuyant sur cinq revues de littérature (publiées respectivement dans Archives of Clinical Neuropsychology, Conservation Biology, Biological Conservation, Psychonomic Bulletin & Review et European Sociological Review), ils estiment, assez grossièrement mais prudemment⁷, que plus de 50% des quelque 800 articles passés au crible avaient confondu « non significatif » (p ⩾ 0,05) et « pas d’effet ». En croisade contre la dichotomanie, ils recommandent un retour aux intervalles de confiance, qu’ils préconisent de rebaptiser intervalles de compatibilité, afin que l’on reste mieux conscients de l’incertitude qui entache toujours toute estimation. En nous ralliant au point de vue de ces contestataires éclairés, nous proposons ci-après d’ajouter au tableau de bord des statistiques pertinentes, un indicateur plus direct de la vraisemblance de l’effet testé, et bien moins sujet à malentendus que 1- p.

Issue : la voie bayésienne

Un test d’hypothèse nous éclaire quant à la probabilité d’un résultat empirique $(E)$ , supposant que $H_{0}$ soit vraie⁸ : $P (E | H_{0})$ . Cependant, le diagnostic statistique devrait plutôt se fonder sur la probabilité de l’hypothèse testée, réévaluée à la lumière de ce même résultat empirique : $P (H_{1} | E)$ . La deuxième partie de notre article montre comment, grâce au théorème de Bayes, passer de $P (E | H_{0})$ à $P (H_{1} | E)$ , en substituant ensuite p à E, puisque $p$ est l’aboutissement de l’analyse statistique des données recueillies. A l’instar de Brinberg et al. (1992 : 152 : premier point de leur résumé), nous misons sur l’approche bayésienne, « reconnaissant que le résultat du test d’une théorie est un changement dans les croyances plutôt qu’un verdict d’acceptation ou de rejet » et que la connaissance scientifique est contingente, faillible et déterminée par l’expérience et les croyances a priori.

De p à $P$ , en quête d’un indicateur de la plausibilité de $H_{1}$

Après avoir rappelé que p n’est qu’une jauge de la cohérence des données avec l’hypothèse nulle, nous en justifions ici deux transformations, de portée pragmatique⁹ :

- la première, appelée facteur bayésien maximum, noté $B (p)$ , qui est le degré de corroboration factuelle, maximale, de l’hypothèse $H_{1}$ , et se traduit concrètement par un coefficient d’ajustement des convictions probabilistes initiales, qu’on espère voir renforcées ;

- la seconde transforme la première en une mesure optimiste de la probabilité a posteriori de $H_{1}$ , que nous qualifions de plausibilité maximale et dénotons $P$ .

Sellke et al. (2001), qui les ont développées, ont qualifié de calibrations¹⁰ de p, ces deux indicateurs de la contribution de p à la réduction (ou accroissement) de l’incertitude planant sur $H_{1}$ . Benjamin et Berger (2019) s’en sont récemment fait les avocats. Le tableau 2 en synthétise la dérivation formelle ; le lecteur est invité à s’y référer, comme à un plan-répertoire, à mesure qu’il progresse dans la lecture des paragraphes suivants.

Tableau 2.

Cheminement du raisonnement : définitions et notation.

Facteur bayésien

La valeur p est instructive en ce qu’elle ramasse – on ne peut plus concisément – les résultats du test et nous pousse à revoir nos attentes quant à l’effet escompté : elle peut soit ébranler (p élevée), soit renforcer (p faible), nos (in)certitudes initiales (« prior beliefs »). Statistiquement, p doit inciter à corriger à la baisse ou à la hausse la cote a priori (« prior odds ») de $H_{1}$ , c’est-à-dire le ratio de la probabilité de réalisation de $H_{1}$ , rapportée à la probabilité de réalisation de l’hypothèse complémentaire $H_{0}$ . Par définition, cette cote indique donc combien $H_{1}$ est, a priori, plus probable que $H_{0}$ :

\begin{array}{l} O (H_{1}) : C o t e d e H_{1} a p r i o r i \\ = \frac{P (H_{1})}{P (H_{0})} = \frac{P (H_{1})}{1 - P (H_{1})} . \end{array}

(2.1.a)

L’information tirée du test et synthétisée par p doit modifier les conjectures premières, qui se muent alors en cote a posteriori :

\begin{array}{l} O (H_{1} | p) : C o t e d e H_{1} a p o s t e r i o r i \\ = \frac{P (H_{1} | p)}{P (H_{0} | p)} = \frac{P (H_{1} | p)}{1 - P (H_{1} | p)} . \end{array}

(2.1.b)

Cette mise à jour, ex post, de l’état d’incertitude, conditionnée par $p$ , s’effectue par multiplication de la cote a priori par un coefficient positif, dénommé facteur Bayésien d’actualisation des a priori quant à la réalité de l’hypothèse $H_{1}$ , noté B(p):

O (H_{1}) \times B (p) = O (H_{1} | p) .

(2.2)

Le paragraphe suivant (Modélisation) détaille la manière dont la valeur de B(p) est déterminée. Le tableau 3 illustre numériquement les relations (2.1) et (2.2). Ainsi, par exemple, si $P (H_{1}) = 0, 2$ , alors la cote de $H_{1}$ est a priori de 1 chance contre 4 en faveur de $H_{0}$ , puisque : $O (H_{1}) = 0, 2 / (1 - 0, 2) = 1 / 4$ ; de plus, si B(p)=4, alors $O (H_{1} | p) = 4 \times (1 / 4) = 1$ , ce qui signifie qu’a posteriori, $H_{1}$ et $H_{0}$ s’avèrent équiprobables ; l’application du facteur de Bayes résulte donc ici en une augmentation de la probabilité de $H_{1}$ , qui a posteriori atteint $P (H_{1} | p) = 0, 5 .$

Tableau 3.

Mécanique de l’actualisation des cotes.

Concrétisant la valeur informative ajoutée par $p$ , le facteur de Bayes est le standard essentiel de référence pour juger valablement de la force probante, relative, de la preuve empirique¹¹, apportée en faveur de $H_{1}$ comparativement à $H_{0}$ . Consécration de sa popularité grandissante, un numéro spécial du Journal of Mathematical Psychology de plus de 200 pages lui a été dédié (Mulder et Wagenmakers, 2016). Le raisonnement, exposé ci-après, montre comment le quantifier sans devoir prédéterminer la cote de $H_{1}$ . Il s’appuie sur la dérivation qu’Held et Ott (2018 : 10–11 et 2016 : 340) en ont esquissée.

Modélisation

Le facteur bayésien (2.2) est déterminé par le rapport indiquant la vraisemblance relative du résultat empirique au regard des deux hypothèses :

B (p) = \frac{\begin{array}{l} P r o b a b i l i t é d u r é s u l t a t \\ o b s e r v é, s i H_{1} e s t v r a i e \end{array}}{\begin{array}{l} P r o b a b i l i t é d u r é s u l t a t \\ o b s e r v é, s i H_{0} e s t v r a i e \end{array}} .

L’annexe I démontre qu’il est égal au rapport des vraisemblances conditionnelles de p. C’est-à-dire :

B (p) = \frac{\begin{matrix} V r a i s e m b l a n c e d e p, \\ s i H_{1} e s t v r a i e : ℓ (p | H_{1}) \end{matrix}}{\begin{matrix} V r a i s e m b l a n c e d e p, \\ s i H_{0} e s t v r a i e : ℓ (p | H_{0}) \end{matrix}} .

Son dénominateur est égal à l’unité, car si $H_{0}$ est vraie, alors p est distribuée selon la loi uniforme, définie dans l’intervalle compris entre 0 et 1, de densité égale à l’inverse de l’étendue de l’intervalle, c’est-à-dire : 1. Dès lors, le facteur Bayésien se réduit à son numérateur qui ne peut être que monotone décroissant, car si $H_{1}$ est un fait, alors p a plus de chances d’être faible qu’élevée.

L’allure que la fonction $ℓ (p | H_{1})$ est susceptible de prendre est représentée en figure 1. Les courbes y dessinées ont été engendrées par la fonction puissance :

\begin{array}{l} B (p) = ℓ (p | H_{1}) = θ . p^{(θ - 1)}, \\ valable pour autant que 0 < θ < 1 . \end{array}

(2.3)

Elle est un cas particulier de la fonction bêta, dont l’annexe II prouve la pertinence. Son seul paramètre, $θ$ , doit être maintenu inférieur à 1, pour que la fonction diminue à mesure que p augmente ; lorsqu’il est égal à 1, alors $(2.3)$ se réduit à la loi uniforme. Aussi particulière soit-elle, cette fonction reste suffisamment souple pour couvrir une grande variété de types de décroissance : de celles présentant les pentes les plus fortes (valeurs de $θ$ les plus basses), aux plus horizontales (valeurs de $θ$ approchant 1).

Figure 1.

Distributions de probabilités adéquates pour $B (p) .$

Paramétrage

Reste à déterminer θ. La figure 2, duale¹² de la figure 1, y aide. Elle illustre l’incidence de ce paramètre, pour 7 valeurs de p précisées par la légende : de 1% (en trait continu) à 20% (en pointillés). Chacune de ces 7 courbes est strictement concave et présente un maximum global. Leurs maxima sont reliés par des segments fléchés, dont les pentes se réduisent à mesure que p augmente, jusqu’à tendre vers 0: asymptotiquement, les ordonnées des maxima tendent donc vers une limite inférieure, égale à 1, et leurs abscisses tendent elles aussi vers 1, point de convergence des courbes.

Figure 2.

Sensibilité du facteur bayésien au paramètre.

Si tout $θ$ compris dans l’intervalle $] 0, 1 [$ est acceptable, on ne peut cependant pas en fixer arbitrairement la valeur, sans conscience de ce que l’option retenue a comme impact sur $B (p) .$ A la lumière de la figure 2, s’impose la seule valeur remarquable de θ : celle qui maximise le facteur bayésien et donc maximise la vraisemblance de p à condition que $H_{1}$ soit vraie. Statistiquement, ce choix est optimal car cette valeur est, d’un point de vue probabiliste, la plus en adéquation avec p, en admettant que le modèle $(2.3)$ soit réaliste. Opter pour cet estimateur conduit donc à une borne supérieure , pertinente, de $B (p)$ que nous noterons $B (p)$ . L’annexe III.1 prouve qu’elle est égale à :

B (p) = 1 / [p . l n (1 / p) . e] .

(2.4)

Cette formule n’a de sens que si lorsque p est élevée, $B (p)$ est faible. Son dénominateur doit donc croître en fonction de p et par conséquent, sa dérivée doit être positive, ce qui ne se vérifie que si¹³ $p < [e^{- 1} ≅ 0, 3679] .$ . La tendance asymptotique mise en évidence en figure 2 se confirme puisque la limite inférieure de $B (p)$ s’avère être :

B (e^{- 1}) = 1 / [e^{- 1} . l n (e) . e] = 1 .

(2.5)

Donc, si $p \geq e^{- 1}$ , $B (p) = 1$ .

Autres possibilités de modélisation et paramétrage

D’autres lois statistiques que celle définie par $(2.3)$ pourraient également convenir. Deux d’entre elles sont traitées en annexes III.2 et III.3. Néanmoins, Sellke et al. (2001 : 68–69) ont démontré la robustesse de la borne $(2.4)$ qui est valable pour « une très grande classe de distributions et d’alternatives non-paramétriques ». Held et Ott (2018 : 18) concluent que $(2.4)$ est d’autant plus défendable que la taille d’échantillon est grande. Nonobstant les réserves que ces derniers ont pu émettre, à propos des tests réalisés sur des effectifs réduits, il est raisonnable de se rallier à $(2.4)$ , borne à laquelle ont souscrit un nombre de collègues suffisant pour en faire la norme (Bayarri et al., 2016 : 96).

Probabilité a posteriori

En soi, B(p) suffit pour apprécier à quel point le test conforte – si B(p)>>1 – ou atténue nos préjugés favorables à $H_{1}$ . Néanmoins, l’interpréter – comme il se doit – comme le multiplicateur de la cote a priori de l’hypothèse, et bien en saisir la portée, n’est aisé que pour les chercheurs familiarisés avec le concept statistique de cote et sensibilisés à l’approche bayésienne. C’est pourquoi jeter un pont, entre p et la probabilité a posteriori de l’hypothèse avancée, n’est pas superflu.

Tant Sellke et al. (2001 : 62–63), que Benjamin et Berger (2019 : 188), la calculent ; ces derniers – bien qu’ils promeuvent $B (p$ ) – le font à l’intention de « ceux qui se sentent plus confortables avec une probabilité qu’avec une cote » (ibidem).

Formule de calcul

Par inversion de la cote a posteriori¹⁴, donnée en $(2.1 . b)$ , on obtient

\begin{array}{l} P (H_{1} | p) = O (H_{1} | p) / [1 + O (H_{1} | p)] \\ = 1 / {{[O (H_{1} | p)]}^{- 1} + 1}, \end{array}

expression qui peut s’expliciter davantage en y substituant $(2.2)$ ,

P (H_{1} | p) = 1 / {1 + {[O (H_{1}) \times B (p)]}^{- 1}} .

(2.6)

Si $p$ n’apporte rien, alors B(p) = 1 et $P (H_{1} | p) = P (H_{1}) = 1 / {1 + {[O (H_{1})]}^{- 1}}$ , ce qu’implique (2.1.a). La section 2.1 nous a permis de déterminer une borne supérieure fiable $B (p)$ , la substituer à $B (p)$ dans $(2.6)$ détermine la borne supérieure¹⁵ correspondante de $P (H_{1} | p)$ :

P = \frac{1}{1 + {O (H_{0}) . [p . \ln (1 / p) . e]}}

(2.7)

puisque ${[O (H_{1})]}^{- 1} = O (H_{0})$ , encore à déterminer.

Présupposition essentielle

Appliquer $(2.7)$ demande qu’on s’interroge d’abord sur la crédibilité a priori de l’hypothèse, prise en compte par sa cote : $O (H_{1}) = 1 / O (H_{0})$ . Si on en restait à $B (p)$ , on risquerait de se dispenser, à tort, d’une telle réflexion qui n’est pourtant que l’aboutissement formel de la première étape d’une recherche appliquée. Cette cote doit être déterminée avant que le chercheur ne collecte les données qu’il entend exploiter pour tester $H_{1}$ , sur base de sa propre expérience et de son savoir, alimentés par une conséquente revue de la littérature scientifique et nourris d’échanges avec ses pairs. . . Et, le cas échéant, avec les éventuels commanditaires qui devront décider des suites opérationnelles à donner aux résultats du test.

Ainsi, $O (H_{1})$ doit être aussi spécifique que possible, propre au contexte de l’étude :

Benjamin et Berger (2019 : 189) font remarquer que « s’il semble raisonnable d’assigner a priori (à $H_{1}$ ) une cote de 1 (chance) contre 1 pour (le test d’) un traitement thérapeutique, pour les études génétiques, elle s’établit souvent à 1 contre 100.000 » ;

Concernant les expérimentations en psychologie, Benjamin et al. (2018 : 6) suggèrent une cote a priori de l’ordre de $1$ pour $H_{1}$ , contre $10$ pour $H_{0}$ . Pour avancer ce chiffre¹⁶, ils se fondent principalement sur une remarquable analyse statistique de 73 réplications, menée par Johnson et al. (2017) : tenant compte du biais de publication (attribuable à la référence au seuil : $p = 5 %$ ), ils estiment (Johnson et al., 2017 : 6, tableau 1, π₀) la probabilité a priori de $H_{0}$ à $93 %$ , ce qui implique $P (H_{1}) = 7 %$ et une cote de 7 chances pour $H_{1}$ contre 93 pour $H_{0},$ ou de 1 contre 13,3 ;

Cohen (1994 : 1000), lui, fait sienne une remise en cause des méthodes de la psychologie « molle » (soft) dont les théories n’auraient a priori pas plus de $10 %$ de chances de se vérifier : $P (H_{1}) \leq 10 %$ .

Adoptant une plus large perspective dans leurs conclusions, Benjamin et Berger (2019 : 189–190) opposent les domaines inexplorés (« ‘novel’ situations ») « dans lesquels les chances a priori d’une découverte n’excèdent pas la cote de 1 contre 1 », à d’autres scénarios – tels que les réplications ou études phasées¹⁷ – pour lesquelles « les chances en faveur de l’hypothèse alternative peuvent être considérablement plus grandes ».

Mais quid des recherches appliquées qui n’ont pas la prétention de consolider empiriquement une percée théorique aux frontières de la connaissance, mais visent une plus grande efficience des processus organisationnels et l’optimisation des décisions prises¹⁸ ? Qui pourra convaincre des partenaires privés d’y participer (a fortiori, de les sponsoriser) si la probabilité a priori de succès du test est de moins de 50% ? Dans ces cas, analogues aux tests de médicaments, la prudence commande de considérer que $O (H_{1}) = O (H_{0}) = 1$ . Si on devait envisager de retenir une cote supérieure à $1$ pour $H_{1}$ , la plus grande rationalité et la plus totale transparence s’imposeraient. Du reste, Benjamin et Berger (2019 : 189) préconisent que « les cotes a priori et leur justification soient pré-enregistrées » pour que les participants au processus éditorial de sélection des papiers, en vue de leur publication, soient en mesure d’évaluer leur réalisme et la justesse de la méthode employée ex ante.

Mise en œuvre

La figure 3 visualise la relation entre $p$ (portée en abscisse) et $P$ (portée en ordonnée), telle que formalisée par $(2.7)$ . Chacune des 6 courbes y représentées correspond à l’une des 6 valeurs de $P (H_{1})$ , pré-supposées. Chacune illustre qu’en toute logique, $P$ tend vers $P (H_{1})$ à mesure que p approche de sa limite pertinente $e^{- 1}$ . En effet, selon $(2.5)$ , $B (p) = 1$ si $p \geq e^{- 1}$ et $(2.7)$ se réduit alors à :

\begin{array}{l} \lim_{p ↗ e^{- 1}} P = \frac{1}{1 + O (H_{0})} \\ = \frac{1}{1 + {[1 - P (H_{1})] / P (H_{1})}} = P (H_{1}) \end{array}

Au-delà de cette limite, $P$ est aussi égale à $P (H_{1}) .$

Figure 3.

Probabilités a posteriori $P$ , en fonction de p.

Sur ce graphique, sont pointées – pour $P (H_{1}) = 0, 50$ – les valeurs de p qui correspondent aux seuils critiques de $p$ rituellement utilisés : $5 %$ et 1%, auxquels s’associent des niveaux de la plausibilité maximale de l’hypothèse $H_{1}$ bien au-dessous de ce que beaucoup d’entre nous imaginent, c’est-à-dire : $71 %$ et 89%, respectivement. Le tableau 4 complète la figure 3 : il réexamine l’échelle standard d’appréciation des effets testés.

Tableau 4.

Table de $P$ selon les paliers de référence classiques La probabilité a priori spécifiée en tête de colonne – par exemple $P (H_{1}) = 40 %$ , combinée avec la valeur $p$ indiquée en ligne – par exemple $p = 1 %$ , donne une probabilité a posteriori maximale de $H_{1}$ : $P$ = 84,19%.

A la vue des valeurs $P$ qui y sont rapportées, on comprend que Benjamin et Berger (2019 : 188, § 4.2) plaident pour que les irréductibles partisans de p abaissent son seuil critique de 5 à un demi pourcent. Nous présumons néanmoins que Benjamin et Berger (ibidem) avaient à l’esprit un a priori proche de l’équiprobabilité ( $P (H_{1}) = 50 %$ ), pour en arriver à recommander un seuil de $p = 0, 5 %,$ et certainement pas une cote de l’ordre de 1 contre 10 [cf. note de bas de page n°16]. En effet, comme le révèle le tableau 4, si elle était aussi basse, alors $P$ serait inférieure à $60, 68 %$ et on ne pourrait dans ce cas que difficilement considérer $H_{1}$ crédible [cf. les qualifications des valeurs de $P$ proposées au tableau 7 ci-après].

Avant eux, Johnson et al. (2017 : 9) – se référant au cas de probabilités a priori faibles : $7 %$ – étaient allés plus loin en prônant de réduire p à $0, 1 %$ pour pouvoir « déclarer significatives des ‘découvertes’ scientifiques en psychologie et dans beaucoup d’autres sciences sociales ».

La formule (2.7) montre que poser $O (H_{0})$ égal à $1$ revient à neutraliser l’incidence des a priori sur le calcul de la probabilité a posteriori. Ainsi, en cas de grande incertitude ex ante, il est sage de considérer $P (H_{1}) = 0, 5$ , de sorte que $P$ ne soit déterminée que par le poids de l’évidence empirique (p).

Le tableau 5 schématise la façon de procéder pour mener à bien le test d’hypothèse.

Tableau 5.

Marche à suivre.

La partie I.a du tableau 5 n’est autre que le point de départ de la démarche fréquentiste, qui contraint à opter pour l’une des trois variantes classiques de $H_{1} .$ En découle la probabilité $p$ , formalisée en II.a comme la probabilité pour que l’estimateur $(\hat{δ})$ du paramètre reflétant l’effet testé $(δ)$ génère des estimations au moins aussi conformes à l’effet postulé que celle inférée de l’échantillon $(d)$ , alors même qu’en réalité cet effet serait nul.

Complémentairement, emprunter la voie bayésienne, amorcée en I.b, force à concrétiser notre conviction ex ante¹⁹ en probabilité a priori, fondée sur des recherches antérieures ou exploratoires, comme évoqué plus haut (Présupposition essentielle). Cette probabilité se traduit, en II.b, en cote, selon $(2.1 . a)$ .

En III, la borne supérieure du facteur bayésien – qui mesure comment se corrige la cote a priori en fonction de l’information tirée de l’étude empirique – est déduite de $p$ , via $(2.4)$ .

En IV, la plausibilité maximale de l’effet est calculée en combinant la cote a priori avec le facteur bayésien, selon $(2.6)$ - $(2.7) .$

Pour concrétiser la démarche décrite, nous avons, au tableau 6, revisité des résultats rapportés tout récemment par Song et al. (2021 : 175–176). Ils sont extraits de leur remarquable article portant sur l’effet modérateur de la tendance à s’attendre à, et accepter, les inégalités (power distance belief, dénoté PDB) sur les préférences des consommateurs pour des produits conçus par des utilisateurs versus ceux conçus par des concepteurs professionnels.

Tableau 6.

Exercice pédagogique.

Epilogue provisoire

Figure 3 et tableau 4 nous apprennent que $p$ ne reflète pas, à la différence de $P$ , le degré de corroboration de $H_{1}$ . Certes, le fait que la relation entre ces deux indicateurs soit non-linéaire ne simplifie pas la compréhension du rapport entre p et la plausibilité maximale ex post de $H_{1}$ , mais $P$ est sans aucun doute moins sujette à erreur d’interprétation et plus édifiante que p.

Néanmoins $P$ n’évacue pas l’incertitude, mais elle la cerne mieux. En conclure qu’elle (ne) conforte (pas) de manière suffisamment convaincante l’hypothèse $H_{1}$ résultera d’un jugement, qu’il soit individuel ou collectif, par nature subjectif. Ce jugement ne peut être objectivé qu’en le contextualisant, en relativisant $P$ :

par évaluation des enjeux socio-économiques spécifiques des décisions prises sur base de $P$ ;

par référence aux normes, à établir par les experts du domaine concerné, comme la gradation du type de celle présentée au tableau 7, transposition d’une catégorisation des valeurs du facteur de Bayes, proposée par Held and Ott (2018 : 4, tableau 2).

Tableau 7.

Qualification de la crédibilité de l’hypothèse.

Dans tous les cas, la valeur de $P$ devra – avec celle, justifiée de $P (H_{1})$ – être rapportée, en soulignant qu’elle n’est qu’une estimation optimiste de la plausibilité de l’hypothèse $H_{1}$ . Ainsi, tout tiers concerné pourra se forger sa propre conviction.

Pertinence managériale

Herrmann et al. (2018) rapportent une expérimentation montrant l’effet du parrainage sportif sur les comportements des consommateurs-supporters en réponse à un publipostage promotionnel pour une chaîne de 28 points de vente. En l’absence de publication scientifique sur cet effet de levier, les auteurs s’appuient sur les attentes optimistes du parrain qui espère un effet positif.

Premier diagnostic

Le tableau 8 résume les résultats de leur expérimentation (Herrmann et al., 2018 : 85–86). S’y trouvent présentées les fréquences relatives :

des comportements favorables spécifiés par l’indice (f) : visite de magasin (f = v) ou achat en magasin (f = a) à l’enseigne du parrain ;

de deux groupes (G) :

- le groupe exposé, identifié par : X_X, ayant reçu le publipostage dans lequel la chaîne est mentionnée comme sponsor du club de football parrainé,

- et le groupe de contrôle, non-exposé, identifié par : $\bar{X}$ , ayant reçu le même publipostage mais ne mentionnant pas son soutien à ce club.

Les probabilités de comportements favorables des groupes sont notées :

P (G_{f}), pour G \in {X, \bar{X}} e t f \in {v, a} .

Elles sont estimées par les proportions correspondantes $\hat{P (G_{f})}$ calculées sur un grand échantillon, bien équilibré : 622 dans X et 627 dans $\bar{X}$ .

Tableau 8.

Comportements des supporters.

Sur base de ces données, Herrmann et al. (2018) testent :

$H_{1} : Effet d'exposition P (X_{f}) > P ({\bar{X}}_{f})$ contre

$H_{0} : Pas d^{’} effet P (X_{f}) = P ({\bar{X}}_{f})$ ,

pour les deux types de comportement favorable : $f \in {v, a}$ .

De ces pourcentages, ils concluent que : « les supporters de l’équipe parrainée ont plus souvent tendance à adopter des comportements favorables (visites en magasin et achats) à l’enseigne du parrain en réponse au publipostage qui met en avant son activité de parrainage, qu’en réponse au publipostage qui ne le mentionne pas. » Ils ajoutent à propos des visites que la « différence est significative avec un risque d’erreur de première espèce de moins de 1% ( $p_{v}$ =0,0038, test exact de Fisher unilatéral ») et que : « La même tendance est observée pour les comportements d’achat des supporters (différence significative, $p_{a}$ =0,0152, test exact de Fisher unilatéral) ». De leurs commentaires, certains pourraient extrapoler que la probabilité que la clientèle de supporters ait été positivement influencée par la mention du parrain sur le publipostage s’élève à :

pour les visites : $1 - p_{v} = 99, 62 %$

et pour les achats : $1 - p_{a} = 98, 48 %$ .

Ce type d’interprétation – monnaie courante, dont le marketing ne détient pas le monopole – porte involontairement à croire que :

1 - p_{f} = P ([P (X_{f}) - P ({\bar{X}}_{f}) > 0])

Cela est pourtant faux comme le montre l’application de la démarche préconisée au tableau 5, dont les résultats sont présentés étape par étape dans le tableau 9.

Tableau 9.

Calcul de la plausibilité des effets.

En conclusion, si on suppose a priori que $H_{1}$ et $H_{0}$ sont équiprobables, il y a au maximum :

94,56% de chances que le fait de mentionner le parrain sur le publipostage entraîne une augmentation des comportements de visite en magasins au sein de la population des supporters ;

85,25% de chances que le fait de mentionner le parrain sur le publipostage entraîne une augmentation des comportements d’achat au sein de la population des supporters.

L’effet de levier du parrainage apparaît donc moins établi qu’au regard de $1 - p_{f}$ .

Analyse de sensibilité aux a priori

Vu le caractère exploratoire de l’étude ici revisitée, nous avons supposé $P (H_{1}) = 0, 5$ . En l’occurrence, cela semble un minimum pour prendre le risque d’une telle expérimentation (cf. discussion dans la deuxième partie de cet article). Néanmoins, lorsque des valeurs différentes des cotes a priori peuvent être déduites de travaux antérieurs ou de réplications existantes sur des questions de recherche similaires, ou encore de croyances d’experts du domaine, elles méritent d’être prises en compte dans le calcul. Ainsi, si a priori la cote devait tomber à chance pour $H_{1}$ , contre $10$ pour $H_{0}$ [cote évoquée par Benjamin et Berger (2019)], alors la formule (2.7) conduirait à respectivement :

\begin{array}{l} P_{v} = \frac{1}{1 + {10 . [0, 0038 . \ln (1 / 0038) . e]}} = 63, 47 % et \\ P_{a} = \frac{1}{1 + {10 . [0, 0152 . \ln (1 / 0, 0152) . e]}} = 36, 63 % \end{array}

En dépit d’un a priori extrêmement pessimiste, la contribution informative de l’expérimentation n’est toutefois pas négligeable puisque²⁰ :

\begin{array}{l} P_{v} / P (H_{1}) = 0, 6347 / 0, 1 = 6, 347 et \\ P_{a} / P (H_{1}) = 0, 3663 / 0, 1 = 3, 663 . \end{array}

Mode d’étalonnage robuste

Sans aucun doute $P_{f}$ reflète bien mieux la fiabilité de l’inférence, que $p_{f}$ . Qu’on le veuille ou non cependant, le risque subsistera toujours, comme le montrent les paragraphes précédents. On assumera d’autant mieux cette incertitude résiduelle qu’on constatera que l’ampleur estimée de l’effet est conséquente. Toutefois, $P_{f}$ , présomption de cet effet, n’informe qu’insuffisamment quant à son ordre de grandeur²¹. De plus, comme le font fort justement remarquer Goodman et al. (2019 : 170) : « il n’y a pas de réponse universelle à la question de savoir quelle doit être l’importance de la différence, par rapport à l’hypothèse nulle, pour qu’on puisse la considérer digne d’intérêt ». La substantialité d’un effet ne peut s’apprécier que contextuellement. Idéalement, on devrait en premier lieu, la jauger par rapport à l’ordre de grandeur d’effets pertinents (situations comparables) dont la réalité a déjà été reconnue crédible.

Par conséquent, il faut d’abord pouvoir comparer statistiquement des effets les uns aux autres. Ici, l’analyse porte sur une réponse qualitative (nominale, binaire : comportement favorable, ou pas) à un stimulus (exposition, ou non) qui est, lui aussi, de même nature. En pareil cas, le ratio de cotes (« odds ratios ») de réaction positive, du groupe traité par rapport au groupe de contrôle, est recommandé. Agresti (2007 : 28–34) plaide en faveur de ratios de cotes en argumentant :

d’abord, qu’une même différence entre deux proportions est plus importante quand les deux proportions sont proches de 0, ce qui est le cas pour Herrmann et al. (tableau 7). Ainsi, des augmentations de 2 à 4%, comme de 50 à 52% sont bien toutes deux égales à 2 points, mais la première est bien plus conséquente (×2) que la seconde (×1,04) ;

ensuite, qu’un ratio de cotes est une mesure d’association synthétisant, de manière très parlante, un tableau de contingence deux par deux.

Conformément à $(2.1)$ , les cotes d’un comportement favorable du consommateur sont déterminées par : $O (G_{f}) = P (G_{f}) / [1 - P (G_{f})],$ et le ratio de la cote relative au groupe exposé, à celle relative au groupe non-exposé, est la statistique la plus indiquée de l’effet différentiel d’un traitement (Agresti, 2007 : 32–34). Elle s’interprète par rapport à la valeur-pivot 1, comme suit :

\frac{O (X_{f})}{O ({\bar{X}}_{f})} \Rightarrow {\begin{matrix} > 1 \Rightarrow e f f e t p o s i t i f \\ = 1 \Rightarrow p a s d ’ e f f e t \\ < 1 \Rightarrow e f f e t n é g a t i f \end{matrix}

Concrètement, pour la visite en magasin, ce rapport s’estime par :

\begin{array}{l} \hat{\frac{O (X_{v})}{\hat{O ({\bar{X}}_{v})}}} = \frac{\hat{P (X_{v})} / [1 - \hat{P (X_{v})}]}{\hat{P ({\bar{X}}_{v})} / [1 - \hat{P ({\bar{X}}_{v})}]} \\ = \frac{7, 9 % / (100 % - 7, 9 %)}{4, 1 % / (100 % - 4, 1 %)} ≅ 2 . \end{array}

Les six exemples d’analyse de la crédibilité d’effets présentés par Matthews (2019 : 204–205) sont, tous, exclusivement basés sur l’examen des intervalles de confiance (IC) de ratios de cotes. Leur représentation graphique, par des segments parallèles, permet de mieux relativiser la taille des effets. Ce n’est donc pas un hasard si un tel schéma a été utilisé dans Nature, par Amrhein et al. (2019a : 306), pour contraster deux estimations ponctuelles identiques²², dont l’une pourtant ne permet pas de rejeter l’hypothèse nulle pour cause d’imprécision.

Dans leur éditorial, tirant les leçons des quelque 400 pages du numéro spécial exceptionnel de The American Statistician, Wasserstein et al. (2019: 14), recommandent de « faire plein usage, tout à la fois, de l’estimation ponctuelle, ainsi que de l’amplitude et de la localisation de l’IC par rapport à la ligne marquant l’absence d’effet ». A leur suite, retenons que :

qu’elle soit statistiquement convaincante ou pas, l’estimation ponctuelle s’interprète comme la valeur de l’effet la plus compatible avec les données, telles qu’elles ont été analysées ;

la preuve empirique de la réalité de l’effet s’avère d’autant plus convaincante que l’IC est étroit et éloigné de la valeur-repère d’absence d’effet.

Application

Ne disposant ni de valeurs de référence suffisantes quant aux effets de levier du parrainage sportif (Herrmann et ses collègues (2018: 18) parlent d’ailleurs d’« une première contribution sur cette question importante de l’effet de levier du parrainage »), ni de données relatives à la rentabilité des promotions de la chaîne de magasins, nous nous sommes contentés de vérifier si les effets de la mention du sponsor sur les supporters, sont bien supérieurs aux effets de cette même mention sur les non-supporters. Pour ce faire, nous avons calculé les intervalles crédibles ( ICréd ) des ratios de cotes reflétant les effets à comparer car l’ ICréd , l’équivalent bayésien de l’IC, s’interprète plus aisément : il définit l’étendue de la plage dans lequel le ratio de cotes peut réellement se situer.

La figure 4 synthétise les ICréd à 95% des quatre ratios des cotes obtenus par régression logistique (Agresti, 2007 : 70–73 ; Wooldridge, 2015 : 824–830), généralisée pour traiter les paramètres comme des variables aléatoires et en inférer leurs distributions a postériori. L’annexe IV précise davantage cette technique.

Figure 4.

Intervalles crédibles à 95% des ratios de cotes²³.

Le modèle spécifié traite visite en magasin et achat, tour à tour, comme variables dépendantes, et la mention du sponsor, ou non, comme facteur explicatif.

Les ICréd des deux ratios – le premier pour les visites, le second pour les achats – des supporters apparaissent dans la partie supérieure de cette figure, tandis que les ICréd relatifs aux comportements des non-supporters ont été ajoutés dans sa partie inférieure. Chacun de ces quatre ICréd résume un des quatre tableaux de contingence récapitulant les quatre sous-ensembles de données collectées par Herrmann et al. (2018). La comparaison graphique des ICréd , les uns aux autres, est robuste car elle est insensible au niveau de confiance fixé : le modifier (passant par exemple, de 95% à 99%) équivaut à un simple changement d’échelle.

Ce calibrage graphique révèle que :

Côté supporters

l’ ICréd est plus étroit pour les visites en magasin que pour les achats, ce qui confirme que l’effet sur les visites est statistiquement plus marqué : $P_{v} > P_{a}$ ;

alors que la borne inférieure de l’ ICréd relatif aux achats est légèrement inférieure à celle de l’ ICréd relatif aux visites, c’est l’inverse pour les bornes supérieures : il se pourrait donc que l’effet sur les achats soit proportionnellement plus fort ;

les estimations ponctuelles des ratios de cotes de leur réaction favorable se montent à plus du double de celles des non-supporters, tant pour les visites en magasin que pour les achats.

Côté non-supporters

les deux estimations ponctuelles des ratios de cotes sont assez proches de 1 : concernant les visites, elle lui est même très légèrement supérieure, tandis que pour les achats, elle lui est un peu inférieure ; ainsi, le risque d’un effet négatif n’est pas à écarter, particulièrement sur leur achats ;

les parties droites des intervalles crédibles de leurs réactions recouvrent assez notablement, les portions gauches de ceux relatifs à celle des supporters ; il ne serait donc pas impossible d’observer chez les non-supporters des effets aussi positifs que ceux produits sur les supporters.

Ces différents constats complètent l’interprétation des résultats livrée par Herrmann et ses co-auteurs (2018). Ainsi, s’ils avaient bien souligné des effets positifs sur les supporters, leur analyse ne leur avait pas permis de soupçonner que :

chez les supporters, l’effet de levier pourrait être relativement plus conséquent sur leurs achats que sur leurs visites en magasins ;

si des effets positifs de la même ampleur ne sont pas totalement à exclure chez les non-supporters, a contrario, le risque d’un effet négatif sur ceux-ci n’est pas négligeable.

Il convient donc de s’interroger sur les raisons d’éventuels effets négatifs sur le segment a priori indifférent de ceux qui ne supportent pas le club sponsorisé (mais qui pourraient compter dans leurs rangs de fervents partisans d’autres associations sportives, voire rivales).

Conclusion et recommandations

Après avoir rappelé que p n’était qu’un indice de la compatibilité des données avec l’hypothèse $H_{0},$ nous avons exposé comment la transformer en une mesure ex post $P$ de la probabilité maximale de $H_{1}$ . Cette calibration pousse à traduire l’incertitude planant ex ante sur cette hypothèse $H_{1}$ en cote a priori, dès avant de passer au travail empirique de terrain. Grâce à ce nouvel indicateur $P$ , celles et ceux qui pratiquent les tests statistiques peuvent :

prendre mieux conscience à quel point leurs inférences peuvent être hasardeuses,

en connaissance de cause, nuancer modestement leurs commentaires,

en conséquence, assumer pleinement l’incertitude qui affecte leurs conclusions, en se gardant de recourir à des catégorisations rigides et simplistes qui masquent cette incertitude,

sans crainte rapporter des résultats parfois étiquetés comme « peu probants », issus de données fiables et valides, d’autant plus instructifs qu’ils sont éventuellement à contrecourant.

Mais qu’on ne se méprenne pas, $P$ n’est pas la première lettre du mot panacée, mais plutôt du mot plafond car il n’est qu’une borne supérieure en-deçà de laquelle se situe la probabilité de l’effet. Néanmoins, $P$ nous apprend qu’

accepter un risque d’erreur, de première espèce de 5% revient à considérer comme supportée une hypothèse $H_{1}$ qui a moins de 71% de chances d’être effective²⁴ [cf. ci-avant, tableau 4] ;

un test conduisant à une valeur $p$ excédant 37% ne permet pas de revoir à la hausse la probabilité a priori de $H_{1}$ , car au-delà de $p = 0, 3679$ , $P = P (H_{1})$ [cf. Mise en œuvre, deuxième partie de l’article].

De façon plus générale, la démarche proposée nous incite à la vigilance : dès lors qu’il s’agit d’inférer l’existence (ou non) d’un effet dans une population à partir d’un échantillon, on ne peut se fier à des règles automatiques gommant l’incertitude.

Toutefois, on ne peut se focaliser sur un indicateur statistique synthétique, tel que $P$ , car, aussi correct et pertinent puisse-t-il être, il n’en reste pas moins une approximation optimiste. Il est donc essentiel de porter également son attention sur l’ordre de grandeur de l’estimation du paramètre censé refléter l’effet attendu. Sur ce point, Laurent (2013 : 330) rappelle l’importance d’obtenir des effets forts afin de réduire le risque de faux positifs. Dès lors, cette estimation ne peut se juger qu’en termes relatifs et eu égard aux incidences des diagnostics à poser et des décisions à prendre en référence à cette estimation. En d’autres termes, elle doit être adéquatement contextualisée. La troisième partie de notre article a concrètement montré que, pour bien situer cette estimation, la représentation graphique des intervalles de confiance associés aux rapports des cotes (groupe traité vs. groupe de contrôle) est un mode d’étalonnage comparatif efficace.

Green (2021 : 3), dans sa toute récente critique des théories avancées par les psychologues, qu’il juge trop « vagues », préconise le « développement de théories suffisamment détaillées et rigoureuses pour produire des prévisions des tailles exactes des effets attendus » de sorte que l’analyse statistique puisse vérifier que « les effets observés approximent ces prévisions et pas simplement s’ils s’avèrent non nuls ». Ainsi, concernant les expérimentations visant à tester une nouvelle forme d’action promotionnelle, il convient de s’assurer que sa mise en œuvre soit profitable. Il s’agit donc de prévoir le seuil de rentabilité que l’effet (ici de levier) devra dépasser, disons : $d_{m i n}$ , et de redéfinir les hypothèses ainsi : $H_{0} : δ = d_{m i n}$ versus $H_{1} : δ > d_{m i n}$ . Dans le cas présent, $d_{m i n} = 0$ dès lors qu’il est permis de considérer que mentionner le parrainage sur le publipostage ne coûte rien de plus.

En dehors des cas impliquant une incidence financière, la définition d’un niveau – plancher ou plafond –, autrement dit la formulation d’hypothèses non pas sur l’existence ou non d’un effet mais spécifiant l’ampleur (minimale ou maximale) de l’effet escompté, doit s’appuyer soit sur des considérations théoriques pertinentes et précises, soit sur des résultats empiriques antérieurs se rapportant à une problématique identique ou similaire (Witte et Zenker, 2017).

Contextualiser la probabilité estimée, par l’examen des estimations – respectivement ponctuelle et par intervalle crédible – de l’ampleur de l’effet supposé est donc recommandé. Cette relativisation conduit à proscrire des expressions très couramment rencontrées telles que « statistiquement significatif », « statistiquement non significatif » ou encore « marginalement (borderline) significatif », de même que certains verbes comme « prouve » ou « démontre ». Il convient également de rapporter les valeurs p sous forme de valeurs continues et d’égalités, et non d’inégalités comme trop souvent actuellement (e.g. $p = 0, 0123$ , plutôt que $p \leq 0, 05$ ). Sont en conséquence à bannir les étoiles ou autres symboles associés aux valeurs p dans les tableaux de résultats, ainsi bien sûr que « ns » (l’abréviation couramment utilisée pour « non significatif »). Plutôt que de parler de résultats « significatifs », qualifions-les dorénavant de résultats « suggestifs » ou « dignes d’être approfondis », selon le degré de crédibilité ex post de $H_{1}$ (cf. ci-avant, tableau 7).

D’autres manières rigoureuses de traiter le concept de signification statistique et les problèmes associés – comme par exemple la problématique de la réplication – ont été proposées dans la littérature. Plus sophistiquées, elles dépassent le cadre de cet article. Nous renvoyons dès lors aux articles qui en traitent : Amrhein et al.(2019b) ; Billheimer (2019) ; Blume et al. (2019) ; Colquhoun (2019) ; Gannon et al. (2019) ; Goodman et al. (2019) ; Manski (2019) et Manski et Tetenov (2019) ou encore Matthews (2019). Le lecteur intéressé pourra les trouver dans le numéro spécial de The American Statistician (2019, 73(1)), dont la lecture a motivé la rédaction du présent article. Une autre calibration de p a également été retenue par ses éditeurs (Wasserstein et al., 2019 : 4). Celle-ci, proposée par Greenland (2019 : 107, 109) : $S = \log_{2} (1 / p)$ , reflète la « surprise » que causerait un résultat de test inattendu, supportant davantage $H_{1}$ que celui obtenu²⁵. Elle s’apparente au concept d’information, fondement de la théorie de la communication développée par Shannon (1948 : 10–12). Indéniablement, $P$ est plus pertinente que $S$ car elle est une mesure de probabilité à laquelle nous sommes plus habitués qu’à la quantification du volume d’information véhiculée par p, mesurée en bits, la plus petite unité de capacité de stockage informatique.

Enfin et pour rappel, la valeur d’une recherche et ses chances d’être publiée ne doivent évidemment pas être d’abord fonction des résultats et des valeurs de probabilités (quelles qu’elles soient) issus des tests statistiques effectués. Les points fondamentaux à considérer prioritairement sont la précision des concepts mobilisés, la qualité de l’argumentation théorique, la pertinence des questions de recherche et l’adéquation de la méthodologie adoptée (design de l’étude, validité et fiabilité des outils de mesure, représentativité de l’échantillon). Au-delà, et à l’instar de ce que recommandent désormais de nombreux auteurs en psychologie ou en marketing (voir par exemple Witte et Zenker, 2017 ou Babin et al., 2021), il importe d’inscrire davantage les recherches menées dans un processus de développement cumulatif de connaissances scientifiques robustes.

Footnotes

Annexe I. Révision objective des croyances

Remerciements

Les auteurs remercient le Rédacteur-en-Chef, le Rédacteur-en-Chef Associé et les trois évaluateurs anonymes pour la pertinence de leurs critiques et suggestions ; celles-ci ont significativement contribué à l’amélioration de cet article.

ORCID iD

Jean-Luc Herrmann

Notes

References

Agresti

(2007) An Introduction to Categorical Data Analysis. 2^ème édition. Hoboken, NJ: John Wiley & Sons.

Amrhein

Greenland

McShane

(2019a) Retire statistical significance. Nature 567: 305–307.

Amrhein

Trafimow

Greenland

(2019b) Inferential statistics as descriptive statistics: there is no replication crisis if we don’t expect replication. The American Statistician 73(1): 262–270.

Babin

Ortinau

Herrmann

J-L

Lopez

(2021) Science is about corroborating empirical evidence, even in academic business research journals. Journal of Business Research, 126 (March): 504–511. Disponible en ligne: https://doi.org/10.1016/j.jbusres.2020.06.002

Bayarri

Benjamin

Berger

Sellke

(2016) Rejection odds and rejection ratios: a proposal for statistical practice in testing hypotheses. The Journal of Mathematical Psychology 72 (June): 90–103.

Benjamin

Berger

(2019) Three recommendations for improving the use of p-values. The American Statistician 73(1): 186–191.

Benjamin

Berger

Johannesson

, et al. (2018) Redefine statistical significance. Nature Human Behaviour 2(1): 6–10.

Betensky

(2019) The p-value requires context, not a threshold. The American Statistician 73(1): 115–117.

Billheimer

(2019) Predictive inference and scientific reproducibility. The American Statistician 73(1): 291–295.

10.

Blume

Greevy

Welty

Smith

DuPont

(2019) An introduction to second generation p-value. The American Statistician 73(1): 157–167.

11.

Brinberg

Lynch

Sawyer

(1992) Hypothesized and confounded explanations in theory tests: a bayesian analysis. Journal of Consumer Research 19(September): 139–154.

12.

Bultez

Guerra

(2005) Contraste : plaidoyer pour un bon vieux test de différences entre proportions. Recherche et Applications en Marketing 20(2): 29–54.

13.

Cohen

(1994) The earth is round (p < .05). American Psychologist 49(12): 997–1003.

14.

Colquhoun

(2019) The false positive risk: a proposal concerning what to do about p-value. The American Statistician 73(1): 192–201.

15.

Derbaix

(1993) La mesure de l’émotionnel et de l’affectif dans la réception des messages publicitaires. Paris; Institut de Recherches et d'Etudes Publicitaires.

16.

Edgeworth

(1885) Methods of statistics. Journal of the Statistical Society of London. Jubilee Volume: 181–217.

17.

Evrard

Pras

Roux

(2003) Market - études et recherches en marketing. Paris: Dunod.

18.

Gannon

Pereira

Polpo

(2019) Blending bayesian and classical tools to define optimal sample-size-dependent significance levels. The American Statistician 73(1): 213–222.

19.

Gelman

Stern

(2006) The difference between ‘significant’ and ‘not significant’ is not itself statistically significant. The American Statistician 60(4): 328–331.

20.

Good

(1979) A. M. Turing's statistical work in World War II. Biometrika 66(2): 393–396.

21.

Goodman

(2008) A dirty dozen: twelve p-value misconceptions. Seminars in Hematology 45(3): 135–140.

22.

Goodman

Spruill

Komaroff

(2019) A proposed hybrid effect size plus p-value criterion: empirical evidence supporting its use. The American Statistician 73(1): 168–185.

23.

Green

(2021) The tragedy of psychological theory. Academia Letters (Janvier, article 142).

24.

Greenland

(2019) Valid p-values behave exactly as they should: some misleading criticisms of p-values and their resolution with s-values. The American Statistician 73(1): 106–114.

25.

Greenland

Senn

Rothman

Carlin

Poole

Goodman

tman

(2016) Statistical tests, p-values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology 31: 337–350.

26.

Held

Ott

(2016) How the maximal evidence of p-values against point null hypotheses depends on sample size. The American Statistician 70(4): 335–341.

27.

Held

Ott

(2018) Tiré-à-part édité par l’Université de Zurich de : On p-values and Bayes factors. Annual Review of Statistics and Its Applications 5(1): 393–419. Source: https://www.zora.uzh.ch/id/eprint/148600/

28.

Herrmann

J-L

Derbaix

Kacha

(2018) Effets de levier du parrainage sur l’efficacité d’une action de marketing direct. Revue Française de Gestion 44(275): 77–94.

29.

Ibrahim

Laud

(1991) On bayesian analysis of generalized linear models using Jeffreys's prior. Journal of the American Statistical Association 86 (416): 981–986.

30.

Johnson

Payne

Wang

Asher

Mandal

(2017) On the reproducibility of psychological science. Journal of the American Statistical Association 112(517): 1–10.

31.

Laurent

(2013) Respect the data! International Journal of Research in Marketing 30(4): 323–334.

32.

Levelt Committee, Noort Committee and Drenh Committee (2012), Flawed science: the fraudulent research practices of social psychologist Diederick Stapel. Tilburg University.

33.

Little

JDC

(2004) Comments on “Models and Managers: The Concept of a Decision Calculus”. Management Science 50(12_s) Supplement: 1854–1860.

34.

Manski

(2019) Treatment choice with trial data: statistical decision theory should supplant hypothesis testing. The American Statistician 73(1): 296–304.

35.

Manski

Tetenov

(2019) Trial size for near optimal choice between surveillance and aggressive treatment: reconsidering MSLT-II. The American Statistician 73(1): 305–311.

36.

Matthews

(2019) Moving towards the post p<0.05 era via the analysis of credibility. The American Statistician 73(1): 202–212.

37.

Mulder

Wagenmakers

E-J

(éds) (2016) Bayes factors for testing hypotheses in psychological research: practical relevance and new developments. The Journal of Mathematical Psychology, N° special 72(June): 1–220.

38.

Pratt

Raiffa

Schlaifer

(1995) Introduction to Statistical Decision Theory. Boston MA: MIT Press.

39.

Sellke

Bayarri

Berger

J O

(2001) Calibration of p values for testing precise null hypotheses. The American Statistician 55(1): 62–71.

40.

Shannon

(1948) A mathematical theory of communication. Version rééditée après corrections de l’article initial publié par The Bell System Technical Journal 27 (Juillet Octobre) : 379–423, 623–656 ; pagination de la réimpression : 1–55.

41.

Song

Jung

Zhang

(2021). Consumers’ preference for user-designed versus designer-designed products: the moderating role of power distance belief. Journal of Marketing Research 58(1): 163–181.

42.

Thornton

(2021). Karl Popper. The Stanford Encyclopedia of Philosophy. Disponible en ligne: https://plato.stanford.edu/entries/popper/

43.

Vovk

(1993) A logic of probability, with application to the foundations of statistics. Journal of the Royal Statistical Society Series B (Methodological) 55 (2): 317–341.

44.

Wasserstein

Lazar

(2016) The ASA statement on p-values: context, process, and purpose. The American Statistician 70(2): 129–133.

45.

Wasserstein

Shim

Lazar

(2019) Moving to a world beyond “p < 0.05”. The American Statistician 73(1): 1–19.

46.

Witte

Zenker

(2017) From discovery to justification: outline of an ideal research program in empirical psychology. Frontiers in Psychology 8(1847): 1–12.

47.

Wooldridge

(2015). Une introduction à l’économétrie : une approche moderne. Louvain-la-Neuve: De Boeck Supérieur.

« Statistiquement significatif » ? Respectons l’incertitude de l’effet testé

Abstract

Résumé

Keywords

Introduction

Pratiques courantes d’inférence

Clarification

Méprise originelle compréhensible

Un irrépressible besoin de seuils

Issue : la voie bayésienne

De p à P , en quête d’un indicateur de la plausibilité de H 1

Facteur bayésien

Modélisation

Paramétrage

Autres possibilités de modélisation et paramétrage

Probabilité a posteriori

Formule de calcul

Présupposition essentielle

Mise en œuvre

Epilogue provisoire

Pertinence managériale

Premier diagnostic

Analyse de sensibilité aux a priori

Mode d’étalonnage robuste

Application

Conclusion et recommandations

Footnotes

Annexe I. Révision objective des croyances

Remerciements

ORCID iD

Notes

References

De p à $P$ , en quête d’un indicateur de la plausibilité de $H_{1}$