Skip to main content

Nettoyage général des données, le pré-traitement, le tri des données, le dépistage des données, la classification des données et les données de perspective, etc peuvent être déployés comme SQL (à l'exception de la visualisation, il doit être placé dans Excel) . SQL peut non seulement lire les données de la base de données, mais renvoyer également les résultats requis dans différentes instructions de fonction SQL, ce qui permet d'améliorer de manière significative l'efficacité calculée de l'application client..

Cependant, ce processus nécessite beaucoup de SQL fluide!
Cet article utilise l'extraction de données MySQL et en écrivant le mode de traitement des données SQL, les données Taobao sont utilisées pour l'analyse de l'utilisateur.

Premièrement, sources de données et descriptions

Cet article sélectionne 1048575 Acte 1048575 Utilisateurs aléatoires du 18 novembre 2014 au 18 novembre 2014 Chacune des données Set Express Comportement de l'utilisateur, un total de 6 colonnes.

Le champ de colonne contient:

user_id: Identification de l'utilisateur

_ID: ID de produit


AGE_TYPE: Type de comportement de l'utilisateur (comprenant des achats de voiture, ainsi que des achats de voiture, achetez quatre comportements, utilisez 1, 2, 3, 4)
] User_geohash: Emplacement géographique (avec NULL)
Catégorie: ID Catalogue (catalogue de produits)

TIME: TIME DE COMPTE

Deuxièmement, le problème

1, Les conditions générales d'achat de l'utilisateur

PV (quantité visuelle totale), date d'accès, UV (nombre total d'utilisateurs), ont le nombre d'utilisateurs d'achat de comportement, des utilisateurs de shopping, le taux de lecture est combien?

2, Hopper transforme le comportement des utilisateurs
Cliquez sur - Collection - Collection - Taux de conversion de chaque lien? Combien coûte le chariot d'abandon? Comment améliorer?

3, les caractéristiques du taux d'achat et du taux d'achat sont 0

4, sur la base de la taille du temps, l'habitude comportementale des utilisateurs

5, des utilisateurs basés sur le modèle RFM Analyse

Mardi, Nettoyage des données

1, j'ai utiliséUtilisez la bouilloire à outil de l'ETL pour créer le dérivé et améliorer l'efficacité de la dérivée et il est également pratique de faire des rapports de traitement d'automatisation, le nom de la base de données est l'utilisateur.

2, manipulation d'une valeur manquante

La colonne Catégorie Item_C affiche les informations de localisation géographique, car les données ont une grande quantité de valeur NULL et d'informations de localisation cryptées et il est difficile d'apprendre, donc le point_c. Catégorie Suivant colonne est analysée.

3, manipulation des données de cohérence
En raison de l'heure de l'heure du conteneur (jour annuelle) et maintenant, cette école est divisée en deux écoles, une ou plusieurs colonnes (date) et une colonne de temps (heure).

{! - PGC_COLUMN -}

En raison des quatre comportements de la colonne Behavior_Type, il utilise des comportements de 1, 2, 3, 4 et quatre, pour acheter quatre comportements. Pour afficher facilement des données, remplacez les 1, 2, 3, 4 dans "PV", "FAV", "Panier", "Acheter".

En interrogeant la structure de la table, vous pouvez voir que la date de la colonne de colonne n'est pas le type de date:

ModifierT date de date:

Quatrième, Problèmes et analyses de modèle de construction

1, Conditions générales d'achat des utilisateurs

(1) PV (Visual total)


] (2) Visiteurs moyens
(3) UV (nombre d'utilisateurs)
(4) Le nombre d'utilisateurs ayant acheté le comportement Row
(5) CONDITIONS
(6) Taux de réinitialisation: deux fois ou deux fois des utilisateurs ci-dessus, achetez des utilisateurs

2, convertir le comportement des utilisateurs


Collection et rejoindre le chariot dans des liens commerciaux, pas de seconde lien, de sorte que ces deux liens peuvent être placés avec un lien de magasinage. Le taux de conversion de chaque comportement des achats du dernier utilisateur a été utilisé, comme suit:
Il y aura des différences dans différentes industries. Selon Une étude de 2012, la transition moyenne a été réalisée sur l'ensemble de l'Internet. Le taux est de 2,04% de "Analyse de données maigre"). Vitesse de transfert d'actes d'achat hLe montré sur la photo est de 1,04% et a une grande différence avec la moyenne de l'industrie. Le comportement de l'utilisateur mobile de Taobao est toujours important. Croissance spatiale.

3, caractéristiques des taux d'achat élevés et de bas taux d'achat

caractéristiques de l'utilisateur élevé:


peut être vu à partir des finales ci-dessus, l'utilisateur a Un taux d'achat élevé qui n'est pas le plus, le nombre d'utilisateurs de ces utilisateurs et l'ajout de très petites voitures de cargaison, et ils peuvent être achetés directement sans plus de 5 fois. Cela peut être déduit que ces utilisateurs sont des consommateurs raisonnables. Il existe une cible de magasinage clair, appartenant au manque d'achat, rarement attiré par la publicité ou la promotion de magasins.
Le taux d'achat est faible Caractéristiques de l'utilisateur:
peut être vu à partir des résultats ci-dessus que le taux d'achat est divisé en deux types et l'un est le nombre de clics. D'une part, cet utilisateur de classe peut ne pas avoir d'utilisateurs à acheter ou n'aiment pas l'accèsErnet, d'autre part, peut être instruit, d'autre part, du point de vue des marchandises, que le prix des marchandises soit trop élevé ou que la conception soit déraisonnable; Le deuxième type d'utilisateur est le taux de frappe, collecter ou plus d'utilisateurs dans un panier supplémentaire, ces utilisateurs peuvent être préparés pour les promotions du vendeur, une commande moins souhaitable et une puissance de maîtrise forte, compte tenu de plus ou de ne pas payer, difficile à acheter est difficile.

4 Les activités utilisateur sont rapidement abaissées, minimisant à une journée, 6 heures pour que les utilisateurs à 10 points augmentent rapidement, 10 heures pour les utilisateurs de 18 points plus actifs, 17 points pour les utilisateurs 23 points augmentent rapidement, atteignant la valeur la plus élevée. en un jour.

(2) Distribution des utilisateurs pendant une semaine
En raison de données instables du premier périmètre et de la cinquième semaine, les données de ces deux semaines ne tiennent pas compte de cette analyse de données.

Des résultats ci-dessus, on peut voir que l'activité positive est stable et active.Cela diminuera légèrement tous les vendredis, mais le week-end augmentera lentement. Parmi eux, les activités de l'utilisateur ont augmenté, grâce au double programme de promotion du commerce électronique 12.

5. Sur la base du modèle RFM pour trouver des utilisateurs de valeur
Tissus RFM est un outil important et des moyens de mesure du client Valeur et bénéfices des clients, y compris trois éléments, meilleure analyse de données. Indicateurs, nommés:
R-recholution (le temps d'achat le plus récent)
F-fréquence

M-Money (consommation de montant)


Introduction au modèle RFM, écrit précédemment un article "Case: la main vous apprend à construire le modèle d'analyse de la valeur client RFM" Données, les sources de données ne sont pas liées aux données de la valeur client R et F. (1) Calcul de la recensement Depuis placé dans les données définies du 18 novembre 2014 au 18 novembre 2014, il est choisi le 19 décembre 2014 est la journée de créditMathématiques, la date du comportement de l'achat récemment s'est produite dans quelques jours et la période est classée, plus le nombre d'espaces est abaissé, plus la valeur client est grande, plus le classement. (2) Calcul de la fréquence F Notez d'abord la fréquence d'achat de chaque utilisateur, puis classez la fréquence d'achat, plus la fréquence de l'achat, plus la valeur du client est grande, la clé plus grande de (3] ) L'utilisateur 4 330 actes d'achat est un paquet de classement et de quatre groupes divisés en quatre quarts des utilisateurs. Au premier trimestre des quatre quarts (c'est-à-dire la moitié), les utilisateurs ont atteint 3 points, la partie supérieure des deux quarts de deux quarts de deux points atteignait 2 points, les utilisateurs restants donnaient 1 point, selon cette règle, l'utilisateur L'intervalle est enregistré et le classement des fréquences d'achat, et enfin combiné à deux points est le score final de l'utilisateur. Les caractéristiques de chaque client peuvent être comprises par des scores, gagnant ainsi un marketing différent. Exemple: pour les utilisateurs user_vAlue = 44 utilisateurs, vous devez faire attention aux utilisateurs importants; Pour User_Value = 41, ce type de fidélité ne suffit pas et peut augmenter la fréquence de l'achat de l'utilisateur. [12) (4) Rapport d'automatisation de la production de bouilloire Pour surveiller le changement de scores par mois, estimé que le taux d'intérêt des marchandises invité, associé à la base de données utilisant La sortie de l'outil ETL des résultats de l'ETL: Le processus de déploiement de la bouilloire n'est pas une description détaillée. Jeudi, conclu 1, Marketing précis, V.V. 2, les utilisateurs ont des hauts offres et de grandes quantités de hits sont des acheteurs raisonnables, avec une cible de shopping claire, affectée par la publicité et la publicité; Les utilisateurs ayant des prix bas achetés peuvent envisager d'attendre des utilisateurs en attente ou du type de groupe Gram, la commande est moins souhaitable et la force de maîtrise de soi est forte et difficile de nombreux achats. 3, le temps d'activité principal de la plupart des pêcheursUtilisé à 10h00 à 23 points, atteignez le sommet d'une journée de 19 à 23 ans. L'activité de chaque vendredi a diminué, mais le week-end a commencé à se rétablir.Vous pouvez appuyer avec précision les activités de réduction d'entreprise ou la promotion en fonction du temps de fonctionnement de l'utilisateur et augmentez le taux d'achat. 4, le comportement des utilisateurs est enregistré selon les données R et F, et chaque utilisateur est un marketing précis et peut également être utilisé pour suivre les données de R et F, spéculer la force intéressée par la consommation client et la restauration de la perte de client.

Sujets

Catégories