Glossaire

Glossaire AB testing

Définitions courtes et précises des termes statistiques et opérationnels que vous croiserez chez Statlift et dans la littérature CRO/expérimentation.

A/B test: Comparaison entre une variante de contrôle (A) et une variante challenger (B), sur un échantillon de trafic divisé aléatoirement, afin de mesurer un effet causal sur une métrique d'intérêt.
A/A test: Test où les deux variantes sont identiques (A = A). Sert à valider l'absence de biais d'instrumentation, de SRM, ou d'inflation de l'erreur de type I sur la plateforme.
MDE (Minimum Detectable Effect): Effet minimum que vous voulez être capable de détecter avec une confiance statistique donnée. Plus le MDE est petit, plus l'échantillon requis est grand.
p-value: Probabilité d'observer le résultat (ou un résultat plus extrême) en supposant que l'hypothèse nulle est vraie (= les variantes ne diffèrent pas). Convention : p < 0,05 = significatif.
IC 95 % (intervalle de confiance): Plage de valeurs dans laquelle le vrai uplift se trouve avec 95 % de probabilité. Plus informatif que la p-value seule pour piloter une décision business.
Power (1−β): Probabilité de détecter un effet réel s'il existe. Norme : 80 %. Power faible = risque élevé de faux négatif (kill d'un winner réel).
Peeking: Consultation répétée des résultats d'un test avant atteinte du sample size requis. Inflate l'erreur de type I (faux positifs). À combattre via sequential testing.
Sequential testing (mSPRT): Méthode statistique qui autorise le peeking sans inflation d'erreur : la p-value est ajustée en continu pour rester valide à toute étape du test.
SRM (Sample Ratio Mismatch): Déséquilibre inattendu dans la répartition du trafic entre variantes (ex : 52/48 au lieu de 50/50). Signe d'un bug d'instrumentation ou d'un biais de targeting.
CUPED: Controlled-experiment Using Pre-Existing Data, méthode de réduction de variance qui utilise une covariable pré-expérience (ex : revenu mensuel passé) pour réduire le bruit et donc le sample size requis.
Multi-armed bandit (MAB): Allocation dynamique du trafic : la variante qui semble gagner reçoit progressivement plus de trafic. Optimal pour maximiser le revenu pendant le test, sous-optimal pour l'apprentissage statistique pur.
Holdout: Sous-groupe d'utilisateurs jamais exposé aux variantes gagnantes déployées. Permet de mesurer la valeur cumulée des expérimentations sur le long terme.
Fréquentiste vs Bayésien: Deux écoles statistiques : le fréquentiste mesure la probabilité des données sous l'hypothèse nulle (p-value), le bayésien mesure directement la probabilité qu'une variante soit meilleure (P[B > A]).
Uplift / Lift: Variation relative de la métrique entre les deux variantes (ex : +18,4 %). À distinguer du delta absolu (3,2 % → 3,8 % = +0,6 points).
Novelty effect: Effet temporaire causé par la nouveauté d'une variante (utilisateurs cliquent par curiosité). Disparaît après quelques semaines. À mesurer en post-rollout.

Lancez votre premier test cette semaine.

Plan Découverte gratuit, sans carte bancaire. Calculez votre échantillon, déployez, mesurez la signification — en moins de 2 heures.

Démarrer gratuitement Voir une démo en direct

Sans carte bancaire · Hébergement UE · Conformité RGPD attestée