Si vous lancez un test A/B sans avoir calculé la taille d’échantillon requise, vous vous exposez à deux risques jumeaux : arrêter le test trop tôt sur un faux winner (erreur de type I), ou kill un winner réel par manque de power (erreur de type II). Aucun de ces résultats n’est business, les deux coûtent du revenu.

Ce guide vous donne la méthode complète, la formule sous-jacente, un exemple chiffré e-commerce, et l’outil Statlift pour ne plus jamais le calculer à la main.

Pourquoi le sample size détermine tout

Le test A/B est une procédure statistique inférentielle : vous observez un échantillon de votre population (les visiteurs exposés au test) et vous voulez conclure sur la population entière. Plus l’échantillon est petit, plus l’inférence est bruitée.

Si vous avez 200 visiteurs/variante et que vous voyez +10 % de conversion sur la variante B, vous ne pouvez pas conclure. Ce +10 % peut être réel (votre variante est meilleure) ou du bruit pur (un fluctuation aléatoire qui s’évaporera sur un échantillon plus large).

Le sample size requis dépend de quatre paramètres. Si vous changez l’un, vous changez le résultat.

Les 4 paramètres à fixer avant tout test

1. Le taux de conversion actuel (baseline, noté p₁)

C’est votre taux de conversion observé sur la page que vous voulez tester, sur une période représentative (30-90 jours selon la saisonnalité). Pas la conversion d’il y a 6 mois, la conversion actuelle.

Exemple e-commerce : baseline = 3,2 % de conversion sur la page produit.

2. L’effet minimum détectable (MDE)

C’est l’effet relatif minimum que vous voulez être capable de détecter avec une confiance statistique donnée. Pas l’effet que vous espérez, l’effet minimum qui justifierait business de déployer la variante.

Si vous voulez détecter au minimum +10 % d’uplift relatif (soit 3,2 % → 3,52 %), votre MDE est 10 %.

Piège fréquent : confondre MDE relatif et MDE absolu. MDE relatif = (p₂ − p₁) / p₁. MDE absolu = p₂ − p₁ (en points). Statlift utilise le MDE relatif par défaut, c’est la convention industrie.

Plus votre MDE est petit, plus le sample size requis est grand (relation quadratique inverse).

3. Le statistical power (1 − β)

C’est la probabilité de détecter un effet réel s’il existe. Norme industrie : 80 %. Power plus élevé = échantillon plus grand.

À 80 %, vous acceptez 20 % de chance de manquer un winner réel (erreur de type II / faux négatif). À 90 %, 10 %.

4. Le seuil de signification (alpha, α)

Probabilité acceptée de déclarer un winner alors qu’il n’y en a pas (erreur de type I / faux positif). Norme : α = 0,05, soit 5 %.

En test bilatéral (vous ne savez pas a priori si B sera meilleur ou pire), z(α/2) = 1,96. En unilatéral, z(α) = 1,645. Restez sur bilatéral, l’unilatéral est tentant pour réduire le sample size mais introduit un biais d’hypothèse qui se paye en faux positifs.

La formule du Z-test à deux proportions

Pour un test A/B classique avec deux variantes de taille égale, l’échantillon par variante est :

n = (z(α/2) + z(β))² × (p₁(1−p₁) + p₂(1−p₂)) / (p₁ − p₂)²

Avec :

p₁ = baseline (3,2 % → 0,032)
p₂ = p₁ × (1 + MDE) = 0,032 × 1,10 = 0,0352
z(α/2) = 1,96 (bilatéral 5 %)
z(β) = 0,84 (power 80 %)

Exemple chiffré e-commerce

Reprenons les paramètres ci-dessus (baseline 3,2 %, MDE 10 %, power 80 %, alpha 5 %) :

n = (1,96 + 0,84)² × (0,032 × 0,968 + 0,0352 × 0,9648) / (0,0032)²
n = 7,84 × (0,030976 + 0,033964) / 0,00001024
n = 7,84 × 0,064940 / 0,00001024
n ≈ 49 717

Vous avez besoin de ~50 000 visiteurs par variante, soit 100 000 visiteurs au total pour le test. Si votre page produit reçoit 1 800 visiteurs uniques par jour, le test va durer environ 14 jours (avec un trafic divisé 50/50).

Si vous voulez détecter un MDE plus petit

Refaisons le calcul avec MDE = 5 % (au lieu de 10 %) :

p₂ = 0,032 × 1,05 = 0,0336
(p₁ − p₂)² = 0,0016² = 0,00000256

n ≈ 7,84 × 0,064 / 0,00000256 ≈ 196 000

Quatre fois plus de trafic pour détecter un effet 2 fois plus petit. La relation est quadratique.

C’est pour ça que les équipes growth qui veulent “tester plus vite” doivent augmenter le MDE (= se concentrer sur les hypothèses à fort potentiel, pas les micro-optimisations).

Les pièges classiques

Piège 1, Arrêter le test au sample size requis “à la louche”

Si vous atteignez 50 000 visiteurs/variante un mardi soir, finissez la semaine avant de regarder les résultats. Une semaine complète absorbe les variations jour-week-end et évite le biais hebdo.

Piège 2, Ignorer les segments

Le sample size ci-dessus est valide pour l’analyse globale. Si vous voulez aussi conclure sur “Mobile vs Desktop” séparément, il vous faut le sample size dans chaque segment.

Piège 3, Tester sans validation A/A préalable

Sur un nouvel outil, lancez d’abord un test A/A (deux variantes identiques) pendant 1-2 semaines. Si l’outil vous montre une “victoire” entre deux variantes pourtant identiques, vous avez un bug d’instrumentation.

L’outil Statlift

Statlift intègre un calculateur MDE + sample size public, sans inscription. Entrez vos 4 paramètres, l’outil calcule en temps réel le sample size par variante, la durée estimée selon votre trafic, et les conversions attendues.

Sur le plan Pro, le calculateur s’ouvre automatiquement à la création de chaque expérience et bloque le démarrage tant que les paramètres ne sont pas réalistes (alerte si MDE < 5 % avec un baseline < 2 % = test irréaliste sous 200 K visiteurs).

En résumé

Paramètre	Convention	Effet si vous le baissez
Baseline (p₁)	mesuré	,
MDE	5-15 % relatif	n quadruple si MDE divisé par 2
Power (1−β)	80 %	n diminue, mais risque faux négatifs
Alpha (α)	5 % bilatéral	n diminue, mais risque faux positifs

Trois règles à retenir :

Calculez votre sample size avant de lancer le test, pas après.
Ne stoppez pas le test avant d’atteindre le sample size, sauf si vous utilisez du sequential testing (voir Peeking, sequential testing et SRM).
Le sample size dépend du baseline réel, recalculez si votre baseline change drastiquement (saisonnalité, refonte amont, etc.).

Pour pousser plus loin, lisez aussi Fréquentiste vs Bayésien pour comprendre quand les méthodes fréquentistes (la formule ci-dessus) sous-performent les méthodes bayésiennes.

Calculer la taille d'échantillon d'un test A/B : la méthode pas-à-pas

Pourquoi le sample size détermine tout

Les 4 paramètres à fixer avant tout test

1. Le taux de conversion actuel (baseline, noté p₁)

2. L’effet minimum détectable (MDE)

3. Le statistical power (1 − β)

4. Le seuil de signification (alpha, α)

La formule du Z-test à deux proportions

Exemple chiffré e-commerce

Si vous voulez détecter un MDE plus petit

Les pièges classiques

Piège 1, Arrêter le test au sample size requis “à la louche”

Piège 2, Ignorer les segments

Piège 3, Tester sans validation A/A préalable

L’outil Statlift

En résumé

À lire aussi

Fréquentiste vs Bayésien : quel framework choisir pour vos tests A/B ?

A/A test : la pratique qui révèle les biais cachés de votre outil d'AB testing

Peeking, sequential testing et SRM : les 3 pièges statistiques qui faussent vos résultats

Lancez votre premier test cette semaine.