Multi-armed bandit vs split test classique : quand choisir lequel ?

Le multi-armed bandit (MAB) est l’alternative au split test classique : au lieu de servir 50/50 jusqu’à la fin du test, l’algorithme alloue progressivement plus de trafic à la variante qui semble gagner.

Promesse : moins de visiteurs perdus sur la variante perdante, donc plus de revenu pendant le test. La réalité est plus nuancée.

Le dilemme exploration-exploitation

L’idée du bandit vient de la théorie de la décision. Imaginez 3 machines à sous (les “bras”). Chacune a un taux de gain inconnu. Vous avez 1000 tirages. Stratégie ?

100 % exploration = tirer 333 fois chaque bras pour estimer leurs taux. Vous apprenez beaucoup mais vous gagnez peu.
100 % exploitation = tirer le 1er bras qui semble bon. Vous gagnez tôt mais vous risquez de manquer un meilleur bras.
Bandit = mélange dynamique des deux. Au début, ratio 50/33/17. Si bras 1 semble dominer, il monte à 70 %. Si bras 3 surperforme inattendu, il monte aussi.

Dans le monde A/B testing :

Split classique = 100 % exploration jusqu’à atteinte du sample size, puis exploitation totale du winner.
MAB = exploration + exploitation en continu.

Comment le bandit fonctionne (sans rentrer dans les math)

Algorithmes principaux :

Thompson Sampling (le plus utilisé en SaaS)

À chaque visiteur, l’algorithme tire au hasard une probabilité de gain pour chaque variante, depuis la distribution bayésienne posterior. Il sert la variante avec la probabilité tirée la plus haute.

Plus une variante a accumulé de données positives, plus sa distribution posterior est concentrée à droite, plus elle “gagne” souvent les tirages, sans jamais saturer à 100 % tant qu’il reste de l’incertitude.

Epsilon-greedy

Plus simple : avec probabilité ε (typiquement 0,1), exploration (random). Avec probabilité 1-ε, exploitation (servir la variante qui a la meilleure moyenne observée). Moins élégant que Thompson, mais lisible.

UCB (Upper Confidence Bound)

Servir la variante dont la borne supérieure de l’IC est la plus haute. Encourage l’exploration des variantes peu testées.

Quand le bandit gagne, 3 cas

Cas 1, Campagne courte avec coût d’opportunité fort

Vous lancez une campagne paid de 2 semaines avec 4 créas. Vous avez le temps d’apprendre et de monétiser. Le bandit est parfait : il identifiera vite la créa gagnante et y bascule le trafic dès que la signification est suffisante, sans attendre la fin.

Gain typique : 15-25 % de conversions supplémentaires vs un split test classique sur la même durée.

Cas 2, Beaucoup de variantes (≥ 5)

Avec 5+ bras, un split test classique exige un sample size énorme par variante (et pénalise via correction tests multiples). Le bandit réalloue automatiquement le trafic des perdants vers les gagnants au fur et à mesure.

Cas 3, Variabilité métier acceptable

Personalisation produit, headlines emails, recommandations. Là où le coût de “se tromper transitoirement” est faible et le gain de conversion immédiat l’emporte.

Quand le bandit perd, 3 cas

Cas 1, Apprentissage par variante critique

Vous voulez comprendre pourquoi B gagne. Vous voulez l’effet sur tous les segments (mobile vs desktop, nouveaux vs récurrents, etc.). Le bandit servant rarement la variante perdante en fin de test, vos données par segment seront sous-puissantes.

Split test classique : 50/50 garanti, données équilibrées partout, analyses segmentées propres.

Cas 2, Effets retardés (non-instantanés)

Si la métrique cible est mesurée 30 jours après l’exposition (ex : abonnement annuel souscrit), le bandit qui réalloue sur du signal court terme peut être trompé par des effets transitoires (novelty effect, biais de premier jour). Il sur-attribue à une variante qui semble gagner sur J+1 mais qui s’effondre sur J+30.

Cas 3, Validation rigoureuse pour comité

Si vous devez présenter le résultat à un comité direction qui demande p-value et IC, le bandit complique la communication. La p-value sur un bandit n’est pas comparable à celle d’un split test (différents calculs).

La méthode hybride, multi-armed bandit en exploration, split en confirmation

C’est la méthode que Statlift recommande sur le plan Pro :

Étape 1, Bandit en mode exploration (1-2 semaines)

Vous lancez 4-5 variantes en bandit Thompson. L’algorithme identifie rapidement les 2-3 prétendantes sérieuses, élimine les variantes clairement faibles. Coût : 1-2 semaines de trafic, taux de conversion proche du meilleur (économie vs split à 5 bras).

Étape 2, Split test classique entre top 2

Une fois les 2-3 finalistes identifiées, bascule en split test classique entre celles-ci, 50/50, jusqu’à sample size requis. Statistiques propres, analyses par segment possibles, lecture par comité directe.

Étape 3, Rollout progressif du winner

Feature flag sur le winner du split, déploiement 10 % → 50 % → 100 %, monitoring continu en post-rollout pour détecter le novelty effect.

Tableau récapitulatif

Critère	Split test classique	Multi-armed bandit
Compréhension méthodologique	Élevée	Faible (boîte noire)
Apprentissage par segment	Excellent	Limité
Revenu pendant le test	Standard	Optimisé (+10-25 %)
Validation comité avec p-value	Direct	Compliqué
Effets retardés	Robuste	Risqué
Variantes 5+	Coûteux	Optimal
Standard industrie	Oui	Émergent

Sur Statlift

Plan Croissance : split test classique (avec sequential testing optionnel).
Plan Pro : MAB Thompson Sampling + split test classique au choix par expérience.
Recommandé : MAB pour exploration, split pour confirmation, rollout pour déploiement.

En résumé

Trois règles de pouce :

Si vous avez 2 variantes claires et que vous voulez comprendre : split classique.
Si vous avez 5+ variantes ou une campagne courte : multi-armed bandit.
Si vous voulez les deux : MAB pour le tri initial, split pour la décision finale.

Le bandit n’est pas une “version supérieure” du split test, c’est un outil différent, avec ses cas d’usage. Connaître les deux et choisir consciemment est la marque d’une équipe data mûre.

Pour pousser plus loin : Fréquentiste vs Bayésien, le bandit Thompson Sampling est bayésien par nature.