Les produits de données généraux comprennent les processus typiques suivants:
1. Acquisition de données
2. Conversion des données
3. Application de données
Les travaux du gestionnaire de produits de données, si dans le flux de données ci-dessus comprennent principalement trois types de travail, différentes données PM fonctionnent de manière différente (la classification suivante n'est pas strictement divisée).
Premièrement, acquisition de données, nettoyage
Pour effectuer des produits de données, vous devez d'abord avoir des données, une source de données, d'environ 2 façons: les autres donnent-ils.
D'autres donnent, bien sûr, mais ils doivent payer de l'argent, ou il y aura des limites. Les données données par d'autres personnes peuvent également être un problème, brouillard et des champs manquants.
Si vous le trouvez, vous serez plus gênant, votre propre système, vous pouvez ajouter du code, du bain, du produit de la carte, vous devrez mettre à jour régulièrement la carte. Les données ne sont pas contrôlées par vous-même, voir si vous pouvez ramper (le rêve de la maison de votre gros données), il existe de nombreux produits d'analyse de données à base de reptiles, analyse des utilisateurs, analyse de l'opinion publique, analyse de prix, investissement quantifié, etc.
Dans la liaison d'acquisition et de nettoyage de données, les données PM ont besoin de:
1. Interprétation des besoins professionnels.
Enfin transformé en différents besoins de données, les données PM détergent d'abord la manière dont ces données sont acquises et déterminent la solution finale.
2. Portez une attention particulière à la qualité des données et à la stabilité des données.
Si la qualité des données en amont est médiocre, chaque lien dans l'aval est de perdre beaucoup de temps. La qualité des données peut s'appuyer sur la vérification, la comparaison et la stabilité des données peut être surveillée. En amont des données, il est nécessaire d'être courageux dans la qualité des données. C'est le plus sujet aux problèmes, ici, divers échantillonnages, énumération, comparaison, hypothèse, diverses SQL, es, interrogations de ruche, bien à la fabrication de divers graphiques analyser. Il est préférable de trouver des problèmes plus tôt que les utilisateurs, des problèmes de dépannage plus rapides.
3. Évaluez le coût et le bénéfice des données.
Les données sont des coûts, plus le montant est élevé, plus la qualité est élevée, plus le coût est élevé. Par conséquent, la stratégie à obtenir des données de conception raisonnables:
Prenez l'interface, le FTP ou le mailing du disque dur;
Combien de temps sont mises à jour une fois, qu'il soit lourd, comment porter;
Comment Pour enregistrer, combien de temps, comment sauvegarder des données à froid
, bien que les données soient plus complètes, plus la qualité des données est élevée, meilleure, mais un sou, le plan d'acquisition de données finale et du plan de nettoyage, doit prendre en compte les coûts, les avantages, Difficulté de développement, développement (il semble que chaque produit soit comme celui-ci, pas seulement le produit de données @@).
a souvent besoin de parler de la coopération des données, de trouver des données à découvrir;
ont souvent besoin de voir la documentation de l'API, le champ de contrôle d'interface;
a souvent besoin de déchirer avec des personnes, d'autres sont toujours sujettes à problèmes.
Deuxièmement, la conversion de données, le service de données
Les données de base ont déjà été, commençant à faire un gros travail, le lien entre la conversion de données, la déclaration haut de gamme, est ETL, I Simple Compréhension: après avoir obtenu des données de base, il effectuera un nettoyage des données selon différents besoins de l'entreprise. Ensuite, importer des données dans des modèles de conversion individuels de données ou de calcul, et fournissez des services de données à des applications plus en aval.
Le modèle ici n'est pas nécessairement un portrait de l'utilisateur. Il est recommandé d'être un calcul de base de criblage, de tri, de correspondance et de logique simple de base.
Pour que la couche d'application reçoive une des données de qualité supérieure, réduisez le calcul de la couche d'application, cette couche contient de nombreux petits modules informatiques et dessert souvent des couches, divisées en une couche de service de base (entreprise faible). couches), Business forte couche de corrélation.
La couche de conversion de données peut fournir une informatique commerciale, des services de stockage, mais également des performances de données directes, telles que la correspondance d'identification ou la vente directe de données.
Dans la liaison de conversion de données, les données de la communication spéciale et des architectes de la communication (ou d'ingénieur), les responsabilités de Data PM incluent:
1. Je dois comprendre de nombreux stockages de données, des connaissances calculées
. MySQL, Hadoop, Hbase, Spark, Redis, Kafka ... Beaucoup, n'ont pas besoin de savoir profondément, mais du moins à comprendre leurs caractéristiques, leurs caractéristiques, leurs différences, etc mieux communiquer avec des ingénieurs, une conception de plan de participation de meilleure qualité.
2. Capacité de conception globale
PM Sait des affaires, les ingénieurs en savent davantage sur la technologie, coopèrent et compléter la conception ou l'optimisation des processus de traitement de données. Cependant, les grandes entreprises peuvent avoir beaucoup de couches, des couches de service de base, peuvent ne pas nécessiter que PM, le PM de demander la demande. Cette partie est plus vide, il n'y a pas d'expérience, il ne peut pas le faire. Je fais beaucoup de temps, pensant profondément, sera lentement lent (en fait, cette couche et la couche d'application sont très liées).
3. Évaluation du résultat des coûts, qualité des données, stabilité du service
La couche de conversion de données consommera davantage de ressources informatiques, ce qui a généralement un grappe énorme, il est donc bien conçu, ce qui permet de gagner beaucoup de ressources. Il est également nécessaire. Pour évaluer les recettes de coûts, nous devons être courageux de refuser d'appliquer les besoins des merveilleux jours.
Cette qualité de données, la stabilité du service est tout aussi importante et il est nécessaire de s'inquiéter du problème de l'approvisionnement des données et de la responsabilité de l'application de données en aval, de la sensation de sandwichs, il est facile de sentir que Yusi Mountain est trop gros!
La couche de conversion de données nécessite des capacités d'analyse logique plus fortes, le problème de réagir là-bas, est susceptible d'être leurs propres problèmes, ou peut être le problème de l'approvisionnement en amont de données, bien sûr, plus susceptibles d'être une conversion de données longue. Les processus ont émis des problèmes. Cette couche, en plus des diverses requêtes SQL, ES, Hive, vous devez avoir une excellente Excel ou SPSS, vous devez habiller le produit du produit (très important), vous devez faire un bon travail de surveillance des alarmes d'indicateurs de niveau économique La chose la plus importante est que le plan d'urgence pour toutes les situations à l'avance est un service difficile ou fournit un service de perte.Ou support manuel.
III, application de données, affichage des données
Couche d'application, la couche d'application de données de chaque société est riche en analyse colorée, analyse de la circulation, analyse de la publicité, analyse des utilisateurs, analyse des ventes , Analyse financière, Analyse de la communication, ERP ... (montant, le chien connaît limité). Cependant, le chien pense que les portraits d'utilisateurs, la coffre, la stratégie de publicité, la recommandation, la PNL et autres modèles ou produits de stratégie sont considérés comme des données PM, comme le produit de la classe BI, la dimension indicatrice de divers services et l'affichage visuel (affaires Rich, le système BI est tellement plus grand) et doit être classé comme un produit commercial (analyse de données), tels que le travail de PM et les liaisons de gravité des entreprises spécifiques, et ont souvent de nombreuses fonctions de personnalisation.
Les données PM de ce lien sont biaisées vers les éléments suivants:
1. Capacités mathématiques à la fois et d'analyse des données