Les données sont les plus souvent entendues, le plus coeur, le dur, est-ce "tes données ne sont pas autorisées?" Le "pot" d'une donnée anormale peut avoir atteint toutes les perceptions de valeur commerciale accumulées dans les données antérieures. Les problèmes de qualité des données sont des problèmes que chaque classe d'application de données est nécessaire pour faire attention et résoudre.
Avez-vous expérimenté?
Je viens de commencer à travailler, le groupe d'utilisateurs a déjà soufflé une casserole, un rapport de données marketing, une vue d'ensemble de l'expérience ... Comment encore aujourd'hui n'a pas été sorti , le matin va le regarder.
Plate-forme CDP Nouvelle scène de marketing invitée, pourquoi y a-t-il eu un véritable vieil invité, mais le système est déterminé à devenir un nouvel invité, le coût, qui est la perte?
hier Dau Diminution de l'année sur l'an 2000, vous confirmez que les données ne sont pas correctes, n'est-ce pas pleine?
Big Data Safety Law Officiellement mis en œuvre le 1er septembre, comment avez-vous des informations d'identité de l'utilisateur dans votre produit de données , vous êtes illégal ?!
Statistiques de la circulation de la découverte des affaires Il y a un sommet exceptionnel. Est-ce une entreprise différente, avez-vous vos produits de données vous-même que vous ne regardez pas de données, avez-vous un bon sens et des données professionnelles Sens? ......
Analyse de données BI, produits de données tels que les données, les données, les produits de données, les problèmes de qualité des données conduiront à des décisions d'entreprise erronées ou apporteront des problèmes d'expérience utilisateur, des pertes économiques directes. Par conséquent, en tant que qualité des données, il est responsable de la qualité des données du produit de données, du diagnostic précoce, de la découverte précoce, de la solution précoce, de prévenir les problèmes, sinon, le collier de fourmis est trop tard.
International Data Management Association (DAMA) définit des dimensions de la qualité des données, combinée à des scènes d'affaires réelles, résumant 7 dimensions de base de la qualité des données: précision, opportunité, intégrité, rationalité, cohérence , unicité et sécurité. 1. Précision
La précision signifie qu'une valeur de données est cohérente entre les valeurs définies sur précises ou entre les différences d'acceptation. Dans la dimension d'évaluation de la qualité des données, les données ne sont pas autorisées, l'effet visuel du produit de données est cool et l'expérience interactive est soyeuse et ce n'est pas bon.
Et la précision est une condition préalable importante pour les entreprises sur la confiance de l'équipe de données. Lorsque les données présentées par le produit de données sont inexactes, une fois les données fluctuantes, la première réaction de service n'est souvent pas autorisée, plutôt que d'abord voir s'il existe un résultat de données généré par des actions commerciales.
1) Stratégie de réponse du produit de données:Définir les critères d'évaluation des données, par exemple, conformément à la tendance de la croissance des affaires ou à la prévision du modèle, définir une plage de fluctuation raisonnable de l'indice et des données de notification en temps voulu lorsqu'il dépasse les fluctuants Le personnel de seuil, trouve la résolution à l'avance.
2.En temps opportun
Dès l'acquisition et le traitement à l'application de sortie, il affectera la sortie finale des données dans la sortie des calculs ETL, la synchronisation des données, le fonctionnement de la tâche, la qualité opérationnelle et la dépendance de la tâche opération. temps.Analyse générale sur les données hors ligne (T + 1, pointant aujourd'hui, les données complètes d'hier) Démarre la tâche à 12h00 le lendemain, lorsque la quantité de données est importante, le calcul prend beaucoup de temps, selon sur la tâche des données possibles à produire sur l'après-midi suivant, ou T + 2. Il est nécessaire de surveiller les données du travail et les données ne sont pas encore exécutées, affectant l'utilisation normale de l'entreprise.
Les données et les données en temps opportunes sont principalement dues à la stabilité, au stockage et aux ressources informatiques du grand service de cluster de données. Lorsque la ressource de cluster est serrée, lorsque la tâche est saisie, elle peut entraîner la tâche terminée. avant l'original 9 heures. Terminer.
1) Stratégie d'adaptation des produits de données:
Définition des données de base sur la surveillance de la tâche la plus récente, mais la majeure partie de cette surveillance est notifiée car le problème du niveau de ressource général est difficile à réparer est dominé par la connaissance. Le produit de données doit développer un programme de brochure correspondant, par exemple, l'état de la tâche de suivi des données, seule la date la dernière date de la date est affichée lorsque l'état de la tâche est le succès, sinon les données de la journée précédente sont affichées et l'interaction correspondante. Rappel est ajouté. "Dans le calcul des données hier, veuillez consulter les autres données de date d'abord."
3. Intégritécomprend principalement quatre aspects de la suppression de l'entité, l'absence d'attributs, la perte de suppressions d'enregistrement et les valeurs de terrain. Par exemple, l'utilisateur de l'application génère un UUID unique basé sur le compte utilisateur de l'appareil +. Après une certaine version iOS, l'analyse statistique du rapport de données a révélé que la Dau d'IOS a semblé fortement, suivez le système d'exploitation et la version d'application trouvée comme Le nouveau service de génération d'identifiant de version anormal, de nombreux uids utilisateur sont vides, le lien de test n'est pas couvert et beaucoup de statistiques de données peuvent trouver ce problème. Ainsi, le domaine essentiel des données de point intégrées a été entièrement intégré et le problème est trouvé plus tôt à partir du sol inférieur, et non le rendement de l'entreprise. 4. Rationalité
comprend principalement le format, le type, le domaine de la valeur et les règles commerciales raisonnablement et efficaces. Étant donné que l'extrémité de service ne règle pas l'opération d'entrée interactive de tous les utilisateurs, les données sont anormales pour certaines opérations d'exception. J'ai rencontré une vaste BD afin de compléter la performance du prix et je coopérerai avec le commerçant sous l'ordre, à emporter pour plus de 100 000 yuans. Cette possibilité est une donnée anormale. À travers les paramètres rationnels, ces problèmes peuvent être effectués à temps, et l'opérateur ou le département du gouvernement propre est examiné.
5. Cohérencefait référence aux différences de données entre les systèmes et la cohérence interactive, les indicateurs d'entreprise sont unifiés et les résultats de traitement de la logique de données. L'équipe de données ne produit pas de données, mais les données sont transportées, l'industrie des donnéesL'entrepôt de données de synchronisation du système peut entraîner des données numériques et les données de fin d'entreprise incompatibles en raison du système, des outils. Pour le produit de données, signifie principalement que le même indicateur ou étiquette, la logique de traitement de données est incompatible et les données ne sont pas activées. Les couches de traitement de données doivent être surveillées sur le nombre de postes de bin et de données de source de données d'entreprise, cohérence du champ de base.
6. Unicité fait principalement référence à la seule répétition clé principale de données, entraînant des statistiques de données.1er septembre 2021 Officiellement mis en œuvre dans le statut de cryptage, le produit de données démontre qu'il apportera des risques juridiques.
Deuxièmement, la cause des problèmes de qualité des données
Une variété de problèmes résultant de la qualité des données, peut généralement être divisée en terminaux d'entreprise, terminaux techniques, infrastructure:1. Fin de l'entreprise
Modifications de l'entreprise, telles que l'absence de nouvelle page active, le changement de système de source d'entreprise (modification de la structure de la table de la base de données de systèmes de source, changement d'environnement de système de source), l'entrée de données d'entreprise est irrégulière.
2. Fin technique
Le processus de développement des données n'est pas normalisé, la surveillance de la qualité des données n'est pas parfaite, telle que le flux, les paramètres, la configuration, etc. de diverses tâches de la tâche de développement des données, et la vérification des données est insuffisante. 3. InfrastructureLes ressources de cluster de stockage de stockage sont insuffisantes, entraînant une défaillance, une retard, une retard, entraînant des résultats de sortie de données anormaux. Troisièmement, les produits de données contrôlent votre propre ligne de vie
Outre les développeurs de données doivent faire attention à leur qualité de données, les produits de données doivent également traiter des sources de données et des tâches impliquées dans les produits de données. Surveillance , découvrir opportun de découvrir des problèmes de qualité des données. Dans le même temps, le produit est fourni pour fournir un rappel anormal pour éviter l'utilisation de la commercialisation des décisions d'erreur ou des données d'erreur à partir de problèmes de données. Tout d'abord, sur la base de la maintenance des liens de données, les données des données pour les produits de données sont utilisées pour rechercher le lien de traitement pour les produits de données. Pour le service de base, la couverture complète des règles de surveillance de la qualité des données est garantie. Lorsqu'une anomalie se produit dans la liaison de traitement de données, la première fois est connue, des données de développement de suivi et de réparation, et faites un bon travail dans la fin du service.
Deuxièmement, lorsque le produit de données est mis en œuvre, l'indicateur de données dépend de l'état de la tâche de traitement est déterminé. Premièrement, la tâche est réussie et l'autre est opportune, lorsque la tâche échoue ou de retard, la page du produit est sur la page du produit. Traitement, tel qu'une copie amicale ou utilisez une messagerie instantanée ou similaire pour informer l'utilisateur.
De plus, les produits de données doivent établir des relations de liaison avec le sang de données. Lorsque l'entreprise est soupçonnée d'être anormale, elles peuvent directement à partir de la page d'accueil.Un clic pour trouver le lien de traitement de l'indicateur de données, résolu rapidement le problème.
Enfin, l'équipe de données doit également établir un mécanisme d'échange d'informations avec l'entreprise, comme la participation aux semaines d'affaires, la compréhension des opérations telles que le produit, le fonctionnement, etc lorsque l'entreprise change, l'impact sur Les données peuvent être évaluées.
4, produits de données, produits de surveillance de la qualité des données
afin de réaliser des produits de données sur des problèmes de qualité des données, une solution précoce, une notification précoce, les produits de données de la classe d'outils les plus couramment utilisés sont la surveillance de la qualité des données. C'est-à-dire que grâce à la configuration de la règle du champ, le champ, tels que les règles de surveillance telles que les données de table, la répétition des données, les fluctuations de champs, les valeurs de champ. Les problèmes de qualité se trouvent dans la couche source de données.
Cinquième, Résumé
Les problèmes de qualité des données sont des problèmes que les développeurs de données et les produits de données doivent payer ensemble. Deux rôles sont "sauterelles sur une corde". Mais en fait, il y aura souvent une tomographie, c'est-à-dire que les développeurs de données paire des données de données: les produits de données ne suffisent pas, pensent que leurs données ETL, ajoutent une certaine surveillance.
Et le produit de données, cela signifie que seules les fonctions et interactions du produit, les données sont émises, qui incombe au développement des données et ne font pas attention à la qualité des données. Les produits de données sont l'une des formes de valeur de données et doivent faire attention au processus d'assurance de la qualité des données du produit et à améliorer conjointement le service de l'équipe de données.
De cette manière, lorsqu'il existe une entreprise demandant des "données quasi-informations", vous pouvez demander plus d'attention: "Votre ajustement de l'entreprise?"