Fréquentiste vs Bayésien : quel framework choisir pour vos tests A/B ?

L’A/B testing existe en deux dialectes statistiques. Le fréquentiste (issu de Neyman-Pearson, 1933) est la norme industrie depuis 30 ans. Le bayésien (issu du théorème de Bayes, 1763, mais réhabilité par les Bayesian Methods for Hackers d’Anvil Markets et Google Brain dans les années 2010) gagne du terrain.

Lequel pour votre stack ? Pas une religion, ça dépend du cas d’usage. Voici les 6 critères qui devraient guider le choix.

Les bases en 60 secondes

Fréquentiste (Neyman-Pearson)

Vous formulez une hypothèse nulle (H₀ : les variantes ne diffèrent pas) et vous calculez la p-value : probabilité d’observer les données (ou plus extrêmes) sous H₀.

Si p < α (seuil, classiquement 0,05) → vous rejetez H₀, vous concluez “B est significativement différent de A”.
Si p ≥ α → vous ne rejetez pas H₀ (vous ne concluez rien, pas “A = B”).

Outils mentaux : test Z, test t, χ², ANOVA.

Bayésien

Vous formulez une distribution a priori (prior, votre croyance initiale sur l’effet) et vous calculez une distribution a posteriori (posterior, votre croyance mise à jour après les données).

Vous obtenez directement : P(variant B > variant A | données) = 95 %. Pas de p-value, pas d’hypothèse nulle, pas de test de signification, vous lisez la probabilité directement.

Outils mentaux : distribution Beta sur les conversions, MCMC, calculs en ligne.

Le tableau comparatif sur 6 critères

Critère	Fréquentiste	Bayésien
Interprétation pour le business	Difficile (“p = 0,03 signifie quoi déjà ?”)	Directe (“99,7 % de proba que B > A”)
Sample size requis	Fixe, à calculer avant le test	Adaptatif, peut être plus petit avec un bon prior
Compatible peeking ?	Non (inflation type I), sauf sequential testing	Oui, naturellement
Sensibilité au prior	Aucune	Élevée si peu de données, choix du prior crucial
Décision sous incertitude	Binaire (significatif / non)	Continue (P[B > A] = 0,82 → décision pondérée)
Standard industrie	Oui (VWO, AB Tasty, Optimizely fréquentiste par défaut)	Adopté par Google, Microsoft, Booking

Quand utiliser quoi ?

Choisissez le fréquentiste si…

Votre équipe est nouvelle sur l’A/B testing et la culture statistique est encore en construction. La p-value, c’est une lingua franca, tout monde sait à peu près ce que ça veut dire (même si c’est souvent mal interprété).
Vous publiez des résultats à un comité (CFO, direction) qui s’attend à voir une p-value.
Vous avez beaucoup de trafic et un MDE raisonnable, le fréquentiste est efficace dans ce cas.

Choisissez le bayésien si…

Vous voulez piloter par la probabilité directe. “Il y a 87 % de chance que B soit meilleur de plus de 5 %” → vous pouvez décider business avec ça, même sans 95 % de confiance fréquentiste.
Vous avez un prior informatif : vous testez la même hypothèse pour la 5ème fois sur des sites similaires, vous savez à peu près quel uplift attendre. Le bayésien intègre cette connaissance.
Vous voulez peeker sans payer le coût statistique. Le bayésien ne pénalise pas la consultation répétée.
Vous avez un trafic limité et un MDE serré. Avec un bon prior, le bayésien peut conclure sur 2x moins de données.

Choisissez les deux en parallèle

C’est ce que fait Statlift par défaut. À chaque test, deux lectures :

Fréquentiste : Z-test bilatéral, p-value + IC 95 %.
Bayésien : posterior Beta sur les conversions, P(B > A) + P(B > A + MDE).

Quand les deux convergent (p < 0,05 ET P(B > A) > 95 %), vous êtes en territoire safe. Quand elles divergent (rare mais ça arrive), c’est un signal : creuser avant de décider.

Les pièges classiques de chaque école

Piège fréquentiste, Mésinterpréter la p-value

« p = 0,03 veut dire qu’il y a 97 % de chance que B soit meilleur que A. »

FAUX. p = 0,03 veut dire : si A et B étaient identiques, la probabilité d’observer ce résultat (ou plus extrême) serait de 3 %. Ce n’est PAS la probabilité que B > A.

Cette confusion (probabilité conditionnelle inversée) est la principale raison du succès du bayésien, qui, lui, donne directement la probabilité qu’on cherche.

Piège bayésien, Choisir un prior par paresse

Un prior trop large (peu informatif) revient à faire du fréquentiste mal calibré. Un prior trop étroit (sur-confiant) biaise les résultats si vous vous trompez.

Bonne pratique : commencer avec un prior empirique (basé sur 10-20 tests passés sur des hypothèses similaires) ou un prior conjugué non-informatif (Beta(1,1) = uniforme).

Sur Statlift, par défaut

Vue fréquentiste affichée en premier (familière pour les nouveaux utilisateurs).
Vue bayésienne accessible en 1 clic dans le détail du test.
Décision par défaut : winner déclaré si p < 0,05 AND P(B > A) > 95 % (les deux conditions).
Sequential testing (mSPRT) en option pour ceux qui veulent peeker sans pénalité.

En résumé

Le débat fréquentiste vs bayésien est moins idéologique qu’opérationnel. Les deux écoles convergent sur les mêmes décisions business dans 90 % des cas, la différence se joue sur la sensibilité aux échantillons petits, la communication business, et la flexibilité de peeking.

Trois règles de pouce :

Si votre équipe sait calculer un sample size et respecter le stopping rule, fréquentiste suffit largement.
Si vous voulez piloter sur la probabilité directe ou peeker sans cassure : bayésien.
Si vous voulez les deux : Statlift les affiche en parallèle, c’est plus informatif que de choisir.

Pour pousser plus loin : Peeking, sequential testing et SRM et Multi-armed bandit vs split test classique.