Projet de voyage d'égouttement: analyser l'effet opérationnel de la ville avec "Test A / B"

1. Analyse d'effet de test A / B 1. Entrez les données

# Entrez les données

Entrez Panda sous forme de PD

Check = pd.read_excel ('/ home / kesci / infut / didi4010 / test.xlsx') test.Head ()

2. Calculer ROI # Calculer ROI

Cochez ['ROI'] = Cochez ['GMV'] / (Cochez ["Coupon [" Coupon Chaque voyage '] * Cochez ["Trip'])

3. Vérifiez la demande

Demande de vérification de la variance

Vérifiez si les exigences parallèles

Exigent_a = chèque [test.group = = 'Control']. Demande
Demande_b = chèque [test.group == 'Expériment']. Conditions requises

Entrez SCIPY.STATS comme ST

st.levene (demande_a, ask_b)
Leveneresult (statistiques = 0,0146849, pvalue = 0,903980667108546)
est supérieur à 0,05, ne refuse pasInitialement, il peut donc être considéré que les deux ensembles d'expériences sont parallèles.
Demande de test moyenne

[Vérifiez les motifs de couplage (deux tests spéciaux de TER avant le test parallèle, pas besoin de)

St.Test_rel (demande_a, ask_b)

]

TTEST_RelRESUT (Statistiques = 1 6436140

P est supérieur à 0,05, ne niez pas l'hypothèse initiale, les conditions de test peuvent donc être considérées que les exigences affectent les exigences.

4. Vérifiez GMV

Vérifiez la variance GMV

Vérifiez si GMV a parallèle

Cochez [test.group == '' Control ']. GMV

GMV_B = TEST [TEST.GROUP ==' Expériment ']. GMV

St.levene (GMV_A, GMV_B)
[Statistiques = 0,02865341299111212, Pvalue = 0,8661917430097603)

P est supérieur à 0,05 et l'hypothèse d'origine peut êtreConsidérer, et donc deux groupes expérimentaux de GMV parallèle ..

# 配样 t 检 (deux tests spéciaux avant d'essayer avant d'essayer avant l'essai de test quo, non requis)

st.est_rel (gmv_a, gmv_b)

[Statistiques = 4,247583846321442, pvalue = 0,00021564303983362577)
0,05 et l'hypothèse initiale peut être considéré comme des conditions expérimentales. Il y a un impact significatif sur GMV.

5. Vérifiez le ROI

Test du roi parallèle

ROI_A = Test. Groupe == 'contrôle']. ROI

ROI_B = test [test.group == '' '].

St.levene (RO_A, ROI_B)

[Statistiques = 0,103335, Pvalue = 0,7487044961896305)
Grande valeur P sur 0,05, ne pas Refuser l'hypothèse initiale, il peut donc être considéré que les deux groupes de retour sur investissement test sont parallèles.

# # 配样样 (deux modèles indépendants doivent être testés avant de tester, pas besoin de la nécessité)

St.Test_rel (ROI_A, ROI_B)

[Statistiques = 10.305504459268173, Pvalue = 4, 93261342734923e-11)

P Les valeurs sont inférieures à 0,05 et l'hypothèse d'origine est refusée, ainsi testée, les conditions d'essai ont donc considéré l'effet significatif pour le retour sur investissement.
1. Entrez les données

Ville = pd.read_excel ('/ home / keci / entrée / Didi4010 / city.xlsx ')

()

City.info ()

[) 2. Découvrez des données

Heure

REQ_HOUR = Ville. Groupby (["Heures '], as_index = true) .agg ({" exigences ": somme}, surplacée = correct)

.

Entrer Matplotlib.pyplot est PLT
req_hour.plot (type = 'bar')
Plt.show ()

On peut voir qu'en trois points de temps 11, 12, 13, 12 points d'utilisateur sont initiés des commandes, suivies de 13 points, 11 points.
La plate-forme de fonctionnement du conducteur devrait envisager de l'augmenter.

Le plus numéro de données

req_date = city.groupby ([date '], as_index = true) .agg ({' demande ': somme}, surplacée = droite)
req_date.sort_values ("jour"). Tête ()

REQ_Date.Plot (type = 'Line')

PLT.SHOW ()

. ] Le nombre de commandes mensuelles est requis avec la date de la date de changement et nous spéculons que 4 pics sont de 4 jours le week-end dernier, les utilisateurs de week-end ont une grande demande. La recherche de conjecture avec des données cohérentes, de sorte que la plate-forme de fonctionnement du conducteur examinera les week-ends, fournissant des voitures de vacances. COM_HOUR = CITY.GROUPY (['HEURES'], AS_IDEX = FALSE) .agg ({'yDemande ': somme, "voyages": somme}, surplace = true) COM_HOUR ["Ratio'] = com_hour [" VOYAGE '] / COM_HOUR [' DEMANDE '] ] Il existe de nombreux besoins pour les commandes, mais le taux d'achèvement de la commande n'est que de 47%, ce qui ne montre aucune opportunité. Les ensembles de passagers doivent se concentrer sur 13 points dans l'ordre de temps correspondant, en enquêtant sur des raisons spécifiques. COM_DATE = CITY.GROUPY ([«DATE»], AS_IDEX = TRUE) .agg ({'Demande': Somme ': Sum}, emplois VRAI) COM_DATE [«TARIF»] = COM_Date ['Trip'] / COM_DATE ['DEMANDE'] COM_DATE.SORT_VALU («Day»). Tête () [ COM_DATE.Rate.Plot (Kinder = 'Line') PLT.SHOW () Le taux de taux d'achèvement des taux d'achèvement n'est pas clair, mais certaines valeurs de la vallée sont fondamentalement vers la fin de la semaine, ce qui indique l'amélioration des besoins de voyages des clientsLa ligne peut entraîner une vitesse de réponse. Durée de l'attente du client Entrer Numphe Eta_hour = city.groupby (["Heures '], as_index = true). AGG ({' PETA ': NP.Mean,' AUTA ': NP.Mean}, surplacez = vrai) . ] Eta_Hour.Plot (type = 'bar') & lt; MATPLOTLIB.AXES._SUBPLOTS.AXESSUBPLOT À 0X7F3AEBBB2C18 & GT; Peut également être vu, quel que soit le temps, l'utilisateur attend depuis longtemps que la longueur est significativement supérieure à celle attendue de l'utilisateur. Lorsque l'utilisateur attend le temps, la différence n'est pas claire, mais les 13 points les plus élevés. L'ensemble passager TECD devrait soulever la précision de l'heure prévue de l'utilisateur et, d'autre part, l'optimisation de la plate-forme a envoyé une logique unique. Le conducteur est occupé City ['occupé'] =City ["Offre des heures"] * City ["utiliz"] Occupé_hour = city.groupby (["Heures '], as_index = false) .agg ({' fournit des heures ": total," occupé ": somme}) = [" utiliz '] = occupé_hour ["occupé"] / occupé_hour ["maintenant fourni] . Les pilotes de 12 points sont occupés par le temps le plus long, le taux d'occupé le plus élevé, la demande de commande de l'utilisateur est également la plus élevée, montrant un total de petits médias. Trip_min = city.groupby (["Heures '], as_index = false) .agg ({' moyenne des voyages": np.min}) Trip_min 12 Points commandes de l'utilisateur de plus, tandis que les commandes les plus longues, montrant que ce moment est un point très important à temps. "Fournir_hour = city.groupby ([" Heures '], as_index = false) .agg ({"fournit des horaires": np.Mean}) fourni_hour 13 points aussi grands et traduitsPilotes plus courts. Pour optimiser l'expérience de voyage de l'utilisateur, la plate-forme de fonctionnement des pilotes peut être combinée avec le caissier défini pour déterminer que les pilotes à long terme sont des tabouret ajoutant aux pilotes à long terme à long terme. (avec une riche expérience). Améliorer les prévisions à long terme des clients (nécessite des données historiques à prédire) La saisie augmente les véhicules (différentes étapes de différents véhicules. Peut Soyez un tableau d'informations relié à un moyen) Optimiser l'expérience de l'utilisateur (configuration requise de données associée TRA) Optimiser la logique unique de l'expéditeur de plate-forme (données relatives à la position requise pour commander) NÉCESSIONS PERSONNALISÉ (Demandez à l'utilisation de la personne d'utilisation et autres données comportementales)

Sujets

variance.

Catégories

Analyse des données