Beaucoup de gens pensent que faire des gestionnaires de produits de données n'a pas à maîtriser les compétences liées à l'analyse des données, et enfin de rester à l'écart de l'analyse des données ennuyeuses. Si vous vous sentez tellement, alors vous avez une grosse erreur. Un bon gestionnaire de produits de données a non seulement un sens du produit, mais aussi une bonne analyse des idées, car la majeure partie de la demande de produits de données est guérie en analysant la demande.. Plusieurs fois, les produits et analyses de données ne sont pas ouverts, un bon gestionnaire de produits de données, de maîtriser le cadre et la méthode d'analyse de données couramment utilisés, peuvent rendre les analystes de données et les hommes d'affaires plus lisses et plus strictes.
Avant d'effectuer une analyse de données, il trouvera généralement le cadre d'analyse et la méthode d'analyse, et les méthodes d'analyse de données ont généralement une analyse de routine, une analyse de modèle statistique et une analyse de modèle auto-construite. Maîtrisant ces trois idées analytiques, vous pouvez résoudre la plupart des besoins d'analyse et solidifier les produits de données basés sur les besoins d'analyse. Ce qui suit se concentre sur ces trois méthodes analytiques.
En réalité, 80% de l'analyse de la société peut être résolue par analyse de routine, de nombreux analystes importent généralement des données liées aux entreprises dans Excel de la ruche ou de la MySQL, puis de simples intuitives. Analyse des données dans Excel via une table simple, un diagramme de ligne et d'autres moyens. L'analyse conventionnelle utilise souvent la même analyse lirabrique et l'analyse ABC pour analyser les tendances et l'analyse de comparaison.
L'analyse du ratio Tonghuan s'applique une semaine d'activité commune, un mois, des actualités quotidiennes, etc. Le ratio de pere change, si la hausse ou la chute est relativement importante, il est nécessaire de découvrir la cause de l'étude.
Vélo: La période de temps d'un cycle est comparée à la même période du cycle précédent. Pour cette année, cette semaine, le lundi de cette semaine, lundi, attend la semaine dernière. Apporter un taux de croissance de l'année = (dans cette période - le nombre de symboles) / au cours de la même période × 100%.
Le ratio de la bague: une période de temps est comparée au temps de l'heure précédente, telle que cette semaine, la bague que la semaine dernière. Ratio ratio taux de croissance = (nombre de périodes en cours - le nombre de la dernière période) / la dernière période × 100%.
En ce qui concerne la méthode d'analyse ABC, il est généralement basé sur un certain indicateur et l'analyse de nombre est effectuée. Il est basé sur la densité de chaque daidationale de l'indicateur et est disposée dans une proportionnelle L'ordre, et selon une certaine gravité spécifique ou les normes de densité spécifiques cumulées sont divisés en trois catégories d'ABC. Pendant longtemps, après une observation à long terme: 80% des États-Unis ont seulement maîtrisé 20% de la propriété, et 20% des personnes ont maîtrisé 80% de la propriété et de nombreuses choses sont conformes à cette loi. Ainsi, cette loi peut être appliquée à l'entreprise, grâce à un temps d'allocation raisonnable et à une force à un petit nombre dans le nombre total, entraînera de meilleurs résultats. Bien sûr, il est également dangereux d'ignorer la classe B et C.Mais cela attire beaucoup plus d'attention à la classe d'une classe.
Un exemple relativement simple, dans les données de la quantité de commande de paiement, le montant de l'ordre de paiement pour chaque ville est davantage analysé, comme le montre la figure 1, trouvé Wuhan, Hangzhou, Shanghai et d'autres endroits le montant de L'ordre de paiement est important, vous pouvez ainsi vous concentrer sur la ville, en vous concentrant sur les activités de cette partie des activités de la ville.
Figure 1 Le montant de l'ordre de paiement dans chaque ville
Deuxième analyse de modèle statistique
Lorsque vous avez beaucoup de données, vous voulez quand plus d'informations est excavé, le modèle mature peut généralement appliquer une analyse plus approfondie, par exemple, souvent confrontée à la scène d'activité suivante:
Prédire le produit dans l'année suivante Quelle tendance sera développée et on estime que le DAU;
est sur une activité marketing. On estime comment l'effet d'activité est, la participation des utilisateurs est le cas;
Sous-feuille de l'utilisateur existant, quel type d'utilisateur est un groupe d'utilisateurs cible ;
Certains utilisateurs ont acheté beaucoup de probabilités en même temps.
Pour le premier cas, l'analyse de la régression peut être utilisée pour comprendre que plusieurs arguments peuvent être utilisés pour déduire des variables en ajoutant ou en soustraction ou en des opérations plus complexes, telles que l'estimation de DAU, car les variables sont DAU, et le soi -Variables liées à lui avoir de nouveaux utilisateurs, d'anciens utilisateurs, des anciens utilisateurs à conserver, de refléter des utilisateurs, etc puis selon les données historiques, par analyse de régression pour synthétiser une fonction, il peut donc être obtenu ultérieurement en fonction des futures variables indépendantes possibles. variable. L'analyse de régression actuelle est maintenant principalement une régression linéaire et non linéaire, des séries chronologiques, etc.
Pour un exemple simple, grâce à la quantité de commande de paiement d'entreprise précédente pour prédire la quantité d'ordre future, en cas d'exclusion d'autres interférences de facteurs, l'historique de l'ordre de paiement peut être basé sur le montant de l'ordre de paiement par Régression linéaire simple. La valeur est également adaptée à l'ordre de paiement de l'ordre de paiement dans les 90 suivants, comme indiqué à la figure 2 ci-dessous.
Fig. 2 Ordre de paiement de la prévision de régression linéaire
Pour le second cas, selon les données actives précédentes, divers facteurs d'influence des activités d'analyse sont satisfaits. Produira les effets que nous Vous souhaitez, et peut être entré dans le système en fonction des données lorsqu'il existe une activité et des données sans activité en ligne, cette fonction sera basée sur les facteurs de jugement des activités et des méthodes d'analyse de classification actuellement utilisées: arbre de décision, bayes, knn, Réseau de neurones, etc.
À propos du troisième cas, vous pouvez utiliser une analyse de grappes, un segment de marché et des utilisateurs subdivisés sont des problèmes de regroupement. Il est donc plus pratique de comprendre les caractéristiques spécifiques des utilisateurs, faisant ainsi du marketing, etc un cluster commun L'analyse a généralement un cluster moyen, diviséRegroupement, etc.
À propos de l'analyse de grappes, le plus couramment utilisé pour classer les utilisateurs, d'abord, de sélectionner une variable de cluster, essayez d'utiliser des variables ayant un impact sur le comportement d'utilisation du produit, mais doit faire attention à ces variables dans Différentes recherches Il y a une différence significative dans les objets et il n'y a pas de corrélation hautement entre ces variables, telles que l'âge, le sexe, le degré, etc. Ensuite, entrez les données correspondant à la variable dans le modèle, sélectionnez un numéro de classification approprié et le nombre de catégories proches du point de référence est généralement sélectionné comme numéro de catégories, comme indiqué à la figure 3. Ensuite, pour observer les performances de chaque variable, découvrez la caractéristique importante de différents utilisateurs de catégorie à d'autres utilisateurs, sélectionnez la fonctionnalité la plus évidente et enfin le traitement du cluster.
Fig. 3 courbe R2
En ce qui concerne le quatrième cas, il est nécessaire d'utiliser l'analyse de l'association et le scénario d'application dans le commerce électronique est relativement important, le La plupart des cas classiques sont la brasserie et la correspondance de la couche, l'analyse de l'association couramment utilisée avec l'analyse du panier d'achat, l'analyse de corrélation d'attribut, etc.
Faire des analyses relationnelles comprend généralement les deux concepts de règles de commissions fréquentes et de règles d'association et des ensembles de rubriques fréquents sont la collecte d'éléments qui apparaissent souvent dans un élément d'éléments et les règles de l'association impliquent qu'il peut y avoir de la force relations entre les deux éléments..
Les deux concepts sont utilisés ci-dessous: Par exemple, la figure 4 montre une liste des magasins de négociation.
Figure 4 Cas de transaction de commande
L'ensemble de poste fréquent fait référence à la collecte de marchandises qui apparaissent souvent ensemble, ensemble {vin, couches, lait de soja} sont fréquents d'un ensemble d'un ensemble. d'articles. À partir de ce jeu de données, vous pouvez également trouver les règles de relation telles que la couche - & gt; vin, c'est-à-dire si quelqu'un a acheté des couches, puis il est susceptible d'acheter du vin.
De plus, deux concepts de crédibilité ou de confiance sont définis afin d'évaluer les effets et la crédibilité de l'analyse associée. RÈGLE {DIAPER} ➞ ➞ ➞ ➞ ➞ ➞ ➞ ➞ {➞ ➞ ➞ ➞ {} est définie comme "Support ({Diaper, Beer}) / Support ({Diaper})", en raison de la prise en charge {Diaper, Beer} Support est de 3/5, la couche de la couche est de 4/5 , donc la crédibilité de la "bière de couche" est 3/4. Cela signifie que pour tous les enregistrements contenant des "couches", nos règles s'appliquent à 75% des enregistrements.
Troisièmement, l'analyse de modèle auto-construite
Lorsque les deux méthodes analytiques ci-dessus ne répondent pas aux besoins de l'entreprise, ils ont besoin de modèles auto-construits pour analyser, tels que le modèle d'entreprise de chaque entreprise. Pas trop , quand analyser la valeur (LTV) générée par l'utilisateur dans le cycle de vie, il est nécessaire d'analyser le modèle auto-construit en fonction de leur propre modèle d'entreprise. Pour les entreprises qui s'appuient sur la publicité, LTV seront actifs et ARPU (le Le nombre moyen de revenus par utilisateur) est associé et la valeur de l'ARPU, chaque société possède son propre modèle de revenus publicitaire, de sorte que la valeur de l'ARPU convient bien.Ce n'est pas la même chose. Le modèle auto-construit est de répondre aux besoins de l'entreprise et tous les indicateurs sont combinés de manière flexible, assurant ainsi l'efficacité et l'analyse ciblée.
Spécifiquement, définissez LTV = jours actifs moyens * Valeur ARPU = jours actifs moyens * (indicateur 1 * paramètre 1 + index 2 * paramètre 2 + index 3 * Paramètre 3 + ...), en réalité, la moyenne Le nombre de jours actifs nécessite de prédire, la valeur de plusieurs indicateurs plus tard est plus claire et la valeur fixe peut être entrée directement.
Fig. 5 Courbe de vitesse de stockage
Figure 6 Courbe Dau
Les jours actifs moyens sont prédit selon le taux de retenue réel et l'arpudau réel présenté ci-dessus.(1) Entrée / Nombre de retenue réel de la valeur réelle, la courbe de sortie / bêta (α, β), ce jour-là pour retourner la valeur correspondante selon à la courbe bêta "" Prédicter les poids non linéaires, le point de départ et les poids de point de fin "
La courbe de bêta est actuellement divisée en trois partitions:
Prédictif optimiste: en raison de la montée continue de l'arpudau , il y a trop de fluctuation et la valeur de sortie est trop grande.
Estimation robuste: Pour vous assurer que la valeur de sortie est stable et lisse, la limite de dérivation du journal est effectuée.
Estimation moyenne actuelle: Cette méthode de prédiction est utilisée lorsque la valeur effective ne peut pas émise de valeur valide et que l'avenir est estimé en fonction du stockage actuel et de la valeur ARPU.
(2) Arpudau est calculé quotidiennement en fonction de la situation réelle et la valeur de l'ARPU tend à se stabiliser après une période de temps.
(3) Formule LTV = σ (retenue bêta1 * arpu1 + retenue beta2 * arpu2 + .... + retirez Betak * arpuk), comprend simplement la bêta de stockage * σarpudau
K Valeur L'appelant de modèle est décidé et l'estimation LTV de 660 jours peut également être modifiée par le modèle calorie.
En fait, les méthodes et idées d'analyse ci-dessus, les fabricants de données n'ont besoin que de maîtriser les 20% de base pour résoudre 80% des problèmes, les 20% restants, peuvent remettre davantage d'analystes de données professionnelles que nous sommes allés résoudre, Bien sûr, en savoir plus sur les méthodes analytiques, est toujours très utile pour les travaux de données futurs. Après tout, les produits de données et l'analyse des données ne sont pas ouverts, tous basés sur la demande des données résolvent certains problèmes, choisissez la méthode pour résoudre des problèmes, ou doivent être plus profonds dans l'entreprise.