Premièrement, le premier mot Le but de l'expérience A / B devait être représenté par la conception des tests scientifiques, la représentation d'échantillons d'échantillons, la division des flux et le test de petit flux. Conclusion et confiance que cette conclusion peut être élargie pour tout le trafic. Il a été largement utilisé dans les recommandations, les conceptions interactives de produits, la publicité, la répétition de fonctionnalités de produit, des stratégies d'exploitation, V.V.
Lundi, les connaissances de base dans l'expérience A / B
doivent comprendre certaines connaissances de base d'un test A / B avant de commencer à tester une exclusion orthogonale et mutuelle, le package d'essai orthogonal et mutuel, Assomption, essais et efficacité statistique , etc.
1, test orthogonal et test d'exclusion mutuelle
Le débit du produit est limité, mais la demande d'expériences A / B est une vrac, il est donc nécessaire de confirmer que le trafic doit être mutuellement exclusif avant le test.Orthogonics
fait référence à chaque test indépendant sous la forme d'une couche et d'un débit entre les classes et les classes orthogonales. Lorsqu'un flux est transmis à travers chaque expérience, il sera rejeté à nouveau et des effets discrets de manière aléatoire. Essais d'exclusion mutuelle fait référence au débit d'interruption dans la même couche et quelle que soit la séparation, le trafic de différents groupes ne se chevauche pas, comme indiqué ci-dessous:
Nom de domaine 1 et Domaine 2 Flow Split, le nom de domaine 1 et le domaine 2 sont mutuellement exclusifs. En général, il existe une expérience d'intervention mutuelle, telle que la même activité de coupon promotionnelle, mais différents groupes d'entreprises sont émis, puis le flux de domaine 1 et de domaine 2 souffrira de suppression, évitez les interférences, les effets mutuels. Le résultat final de l'expérience. Lorsque le débit des classes B1, des couches B2 et des couches B3, débit avec le flux de domaine 2, à ce stade, la vitesse de ligne de la classe B1, la couche B2 et la classe B3 est orthogonale. Classe B1 Typique, B2 Layer, B3 Layer est la classe d'UI, la classe de résultats de recherche, la classe de résultats publicitaires, qui n'ont essentiellement aucune association d'entreprise, même si le même trafic (flux orthogonal) ne conduit pas à des affaires réelles. Il convient de noter que lorsque le trafic passe dans des classes B1 dans ce domaine, les classes B1 sont divisées en B1-1, B1-2, B1-3, à ce temps B1-1, B1-2, entre B1-3 est mutuellement exclusif.
2, le groupe expérimental
En général, au moins un groupe de test A et 1 groupe de contrôle B, mais avec un test A / B, l'application devient de plus en plus large et illimitée Seulement un groupe de test A et 1 groupe de contrôle B, et il peut y avoir un groupe de test A1 l'équipe de test A2 et le groupe de contrôle B et même de nombreux groupes d'essais sont également une influence de Minh de Minh de différentes stratégies. Par exemple, dans des activités réelles, vous devez évaluer l'effet d'un coupon. À ce stade, 3 groupes sont définis:
Groupe d'essais1: Utilisation des règles de documents, tous les groupes d'utilisateurs cibles sont publiés par des types de 200 à 20 types
Groupe d'essais 2: Prenez la stratégie de modèle, l'attribut de la carte de l'utilisateur a rencontré les seuils différents - par exemple, il dispose de 150 à 10, certains Les gens ont publié 300-30
Équipe de contrôle: il n'y a pas de motion de coupon de cette manière, selon le groupe de test 1 et le contrôle du groupe, peut obtenir l'efficacité des coupons conventionnels, des groupes de tests 2 et des groupes de contrôle peuvent être obtenu avec une stratégie de modèle, obtenant ainsi la stratégie de modèle. Ce qui a augmenté plus que les documents conventionnels.
3, Test d'hypothèse
Supposons que le test a été proposé d'abord une valeur d'hypothèse pour les paramètres globaux, puis déterminée à afficher cette hypothèse est définie à l'aide de l'exemple d'informations. Besoin de comprendre deux hypothèses dans l'hypothèse, deux types d'erreurs.
Deux hypothèses
Hypothèse originale H0: hypothèseS'opposer à l'expérience
Hypothèse H1 Préparation: En supposant que l'assistance dans l'expérience
. ]
.
.
. Erreur de première classe: abandonner les erreurs réelles à une fausse hypothèse originale Statistiques de test A / B hypothèses] P peuvent être possibles, reflétant la capacité d'un certain événement. La valeur statistique est obtenue selon une méthode de test significative, généralement des statistiques statistiques dans P & LT; 0.05. 2.4.2 Niveau de signification α Dans le processus virtuel, le paramètre global est estimé à une certaine période de temps, probabilité d'erreur , exprimé par α. La relation entre la norme des valeurs α et p est la suivante: si p ≤ α, puis rejeterSupposons si P & GT; α, l'hypothèse initiale ne peut être refusée Chèque 2.4.3] Méthodes de test T, test z, test χ2 et essayez F. Test A / B, la moyenne de l'échantillon moyen est vérifiée, de sorte que le test TR T et Z est utilisé. Dans le cas du nombre d'essais de test Z, la formule vérifie le modèle Double Z dans le test A / B comme suit: t Test est souvent utilisé pour règles générales , La variance globale est indéfinie ou Test significatif de la moyenne indépendante moyenne d'échantillons , Différence moyenne Test de manière significative. Z TEST: Z Vérification est souvent utilisé pour la distribution globale a été connue ou de gros échantillons indépendants essayez des tests significatifs du sens et différence. 2.4.4 Intervalle de convoyeur Distance fiable est la plage moyenneÉchantillon pour estimer l'intervalle des paramètres globaux de l'échantillon de probabilité. Il montre la plage moyenne contenant la probabilité du paramètre global, appelée niveau de fiabilité. Le niveau de fiabilité représente une fiabilité estimée, utilisant souvent un niveau de confiance de 95% pour effectuer une période de temps estimée. L'intervalle de confiance peut prendre en charge s'il existe une différence significative dans la version: si la valeur de la limite supérieure et inférieure d'intervalle de confiance est correcte ou négative, il est possible de faire une différence significative; S'il y a une valeur et une valeur positives, il est considéré comme incapable de différer de manière significative. Selon le centre limité des statistiques, la distribution d'échantillons moyens de l'échantillon est intégrée et par conséquent, l'intervalle de confiance de 95% de deux valeurs moyennes communes peut être calculée en fonction de la formule suivante: 2.4.5 Statistique effectif Lorsqu'il existe des différences significatives entre deux versions différentes, des expériences peuvent être corrigées la probabilité de jugement différent. Peut comprendre queIl y a une différence entre révélation dedans. Plus cette valeur est grande, plus la probabilité est plus efficace. En général, la valeur statistique minimale est de 80% et le calcul de l'efficacité statistique est le suivant: φ est l'écart type est la zone de probabilité correspondant à une certaine valeur X par distribution généralement standard α est une couche progressive 3, A / B partageant le cas et partageant le boîtier STEP Expérience d'A / B ordinaire contient une confirmation des objectifs de test de La conception des diagrammes de test A / B, la surveillance des tests en ligne et des processus, et les résultats sont répliqués . Ensuite, le silence est récupéré par le groupe d'exploitation utilisé comme cas, et l'ensemble du processus de l'expérience entière / B est connecté. 1, confirmez l'élément Poivre expérimental Enterprise Group exécute actuellement des rappels de l'utilisateur silencieux, désirant vérifier l'efficacité des différentes stratégies de récupération et rappellesEnsuite en promotion. La stratégie d'efficacité la plus élevée. À ce stade, l'objectif expérimental: trouver l'efficacité élevée du rappel. 2, des expériences de conception doivent être claires lorsque Les utilisateurs cibles, les cycles de test, les échantillons minimums, les forfaits utilisateur, les tabacs règlés, la stratégie de package et autres information. Utilisateurs cibles: Il n'y a pas de boss au cours des 30 derniers jours Cycle de test: 1 semaine, ne se disparez pas dans le cycle Le nombre minimum des échantillons est déterminé: Entrez le taux de rappel initial, le taux de révocation après optimisation de la stratégie et possède de nombreux outils similaires sur Internet. Ce qui suit est de https://www.eyeofcloud.com/124.html Calculer en conséquence, le nombre d'échantillons 5300 est requis Emballage de test et stratégie: 3, Expériences en ligne et surveillance des processus Après avoir testé en ligne, il est nécessaire de vérifier si le test a des opérations normales.Selon l'installation attendue ou non, et le problème apparaît souvent dans le test A / B comme suit: Le groupe vide est en fait vide avec des utilisateurs de groupe vides reçoivent le groupe de test 1, le groupe expérimental 2, le groupe expérimental 3 est fourni par le groupe expérimental, si vous constatez qu'il existe un coupon, vous devez étudier le système de navigation (il faut généralement produire des informations de journal pour trouver pourquoi il est défini comme un coupon utilisateur) Si un utilisateur appartient à un certain groupe , il existe un cas avec plusieurs groupes si le shunt est un rapport précédent et pré-séparé 1% d'erreur doit également être trouvé pour des raisons Si l'échantillon de test est le préréglage d'échantillon de test cible , il est déterminé si l'expérience a été filtrée par des utilisateurs, tels que ce test en tant qu'utilisateur silencieux rappelé. Aucun utilisateur actif n'a de 30 jours de transaction, s'il y a des problèmes que l'utilisateur cible est sélectionné, il est nécessaireCheval pour vérifier le haut et en aval pour voir quels liens ont des problèmes 4, ROI noté à réinitialiser peut être comparé par Test de groupe 1, groupe de test 2, respectivement un groupe de test 3 et peut être atteint par l'efficacité de 3 politiques de groupe. La molécule du ROI est le coût total des ressources d'investissement. La production peut être le nombre de négociations de prix d'origine, de la seule quantité, de profit, etc à l'aide du montant de la transaction de prix d'origine est la sortie pour évaluer l'effet de récupération de différentes stratégies, les résultats finaux sont suivis. VISIBLE: 3 Les politiques de rappel ROI sont une lettre et un fouet teste de haut à la fin. Groupe 2 (Full 30-6) & GT; Groupe expérimental 3 (complet 40-10) & GT; Groupe expérimental 1 (20-5 complète) Bien que le plus grand nombre d'expériences 1, dues à un seuil 1 groupe de test de coupon, il ne s'agit que de 20 yuans, ce qui a entraîné la quantité finale de transactions par rapport aux groupes expérimentaux du groupe 2 et 3 Malgré une augmentation du nombreLa transaction du groupe expérimental n'était pas aussi bonne que le groupe de test 3, le coût du groupe expérimental était inférieur au groupe de test 3. Le dernier ROI est donc plus que le groupe de test 3 . , à travers cette expérience, lors de la libération des coupons d'utilisateur silencieux, devait prendre en compte le seuil et la forme d'une part, le seuil bas augmentera les utilisateurs des utilisateurs, mais le faible seuil bas, prix de négociation de prix inférieur; D'autre part, la valeur nominale affecte la transformation des utilisateurs et affecte également les coûts d'investissement. Les paramètres spécifiques ont les meilleurs seuils et de grandes dénominations, et doivent également être identifiés à travers des expériences de plus d'A / B. Quatrième, PostScript Dans le test A / B, faites attention à cela. Notez que A / B a besoin de garantir que le modèle d'équipe de test et le modèle de groupe de contrôle est le même attribut et l'effet final déterminé par comment contrôler une seule variable. Mais dans le processus tLa réalité, il existe des équipes qui vérifient différents marchés des applications, différents canaux, tels que la stratégie de la Stand 2, un test de la main rapide, l'une des tremblements stratégiques, deux canaux utilisateur sans différence naturelle, les données dérivées ne sont pas fiables. La bonne approche consiste à utiliser la même stratégie en main rapide et suspendue, vérifiez l'effet des stratégies unifiées dans différents canaux ou uniquement testant différentes stratégies dans des canaux de main rapides. Faites attention à l'efficacité et à l'échelle Plusieurs fois, les expériences A / B sont filtrées pour les utilisateurs et les fouets originaires à ce moment-là. Mais une fois cette stratégie élargie pour tous les utilisateurs, ROI peut diminuer. Par conséquent, lorsqu'il s'agit d'un retour sur investissement d'une certaine politique, il est nécessaire de faire attention à celui-ci est l'efficacité des utilisateurs de petite taille, au lieu de l'utilisateur global ROI. Notes Novel Effects Quand il y a une nouvelle fonction, quand c'est SNouveau joug, les utilisateurs peuvent être plus intéressés, cette fois-ci est meilleur, mais après un certain temps, le roman de l'utilisateur est disparu.Pour éviter cela, il est nécessaire de répéter, de répétition, d'expériences à long terme, entraînant des résultats stables à long terme.