Parler de la spécification de l'entrepôt de données de gestion de la qualité
Aujourd'hui, de plus en plus d'emplois, les développeurs augmentent, garantissant que la protection des données correcte est un travail très important, beaucoup Données d'application dans l'entrepôt de données directement présentées aux utilisateurs ou à la prise en charge des décisions d'analyse des affaires et doit être des erreurs. Avec de plus en plus d'entreprises, le modèle de données est plus élevé, plus vous pouvez contrôler le problème. Bien qu'il existe une spécification pour créer un entrepôt de données, il est également nommé dans les modèles de données, développant la logique de données, chaque personne peut ne pas être identique et ces zones à causer un organe de main-d'œuvre du modèle de données. Nous devons développer de toute urgence un processus de vérification exacte d'un ensemble de données, de sorte que les gens suivent le processus spécifié et protègent la précision des données.
Deuxièmement, gérez d'abord l'indice de données
nous voyons le flux de données de l'entrepôt de données, pour confirmer le motL'indicateur est calculé comme précisé, afin d'assurer la bonne et la logique de la source de données.
Par conséquent, il est nécessaire de confirmer la précision de la compréhension de la demande avant le développement. Selon la forme "demande", la nécessité d'être développée et la définition floue est proposée, la précision de l'indice de baril et des hommes d'affaires peuvent confirmer la précision de la taille de l'indicateur.
Le processus d'indicateur de données de développement est divisé en quatre parties: chèque, tube, contrôle .
1. Voir Premièrement, nous devons voir l'élaboration des résultats des résultats de l'indice, de telles anomalies extraordinaires, telles qu'une valeur, certaines données ne sont pas dans la plage normale, telle comme accélérant plus de 500 km / h, ou le nombre total de statistiques est trop gros, tel que 100 millions de personnes dans une ville.
2. Vérifiez
, divisé en test et vérification de l'audit en ligne. Les méthodes de test expérimental sont les suivantes:
1, la quantité totale de données, la quantité de données de données et aucune condition de filtre, cohérence.
2, Statistiques multidimensionnelles, des indicateurs multidimensionnels complexes sont divisés en statistiques SQL unidimensionnelles et vérifient séparément chaque index individuel.
3, des statistiques multisées, sont divisées en une table intermédiaire pour vérifier chaque indicateur de pas.4, Détails pour les indicateurs, tels que aléatoires, trouver un détail détaillé et l'indicateur statistique final des statistiques finales.
5, la comparaison des statistiques nouvelles et anciennes, telles que certaines normes de doigts, c'est une activité de production manuelle, nouvel indice après développement peut être comparé au seul ancien nombre.Vérifiez le testeur de données requis
Pour tester, vérifier les rapports de sortie et de test.
La méthode d'évaluation téléchargée comme suit: le code SQL sur la ligne requis doit être pris en compte, principalement à partir des aspects suivants:
1.
] Placez ] Dans laquelle les conditions arrière , rejoignent lié aux écoles, des groupesdes champs de paquet
et une autre logique de contrôle de clé et comprennent clairement l'évaluation.
2, Nom du jeu de données, le nom du champ de données, le nom de la tâche sont pris en compte, en fonction du domaine de l'entreprise, de la taille, de l'indicateur atomique, du type modifié, de l'amendement, du temps, de l'indicateur d'origine, etc. Selon l'entrepôt de données techniques de construction standard pour nommer.1, Audit des légendes de code, chaque étape nécessite une nécessité de commenter et que chaque indicateur a également un commentaire, dans lequel les conditions, V.V. Aussi doivent ajouter un commentaire. 2, si des tâches importantes ouvrent des alarmes SMS, des tâches de démarrage du temps et d'autres auditeurs. 3, si la position de la tâche convient à la ligne standard,Tels que les niveaux de données et les niveaux de travail et similaires. L'évaluation en ligne nécessite des auditeurs de mener des auditoires selon les étapes ci-dessus, reportez-vous à des emplacements déraisonnables, aux auditeurs et aux développeurs et à la protection du code. 3. Dans le processus de développement, vous devez suivre certaines règles de processus pour assurer la définition des indicateurs et de la précision du développement.
La demande est en ligne, vous devez compléter les besoins de développement de la logique dans la base de connaissancesdes besoins complexes (comme indice de projet), nécessitant une équipe développée après deux évaluations.
Un collègue envoyé pour des exigences en ligne nécessite des besoins logiques.Les auditeurs en ligne sont «Valeur ronde» et les auditeurs en ligne ont besoin du code de développeur d'évaluation. Il doit s'occuper de la qualité du code avec le développeur
4. Contrôle
Complétez le développement de l'indicateur plus tard, vous devez suivre la volatilité du seul chiffre. Il est trouvég la volatilité est vérifiée. La portée de l'indicateur de volatilité nécessite une entreprise spécifique de construire et le personnel de l'entreprise doit prendre en charge la confirmation. Les méthodes de surveillance de la qualité des données sont les suivantes:
1: Nombre de fichiers par jour
Les données les plus courantes rencontrées par l'analyste C'est la production de son rapport tombant soudainement à 0.
Nous trouvons souvent le dernier coupable pour ajouter de nouveaux enregistrements à la table correspondante le même jour.
Une méthode de test simple est d'assurer des enregistrements de nouveaux et GT; 0 dans une table dans la table tous les jours.2, Vérifiez la valeur NULL et 0
Le deuxième problème que les analystes ont souvent des valeurs NULL ou 0. Nous devons nous assurer que les valeurs NULL ou 0 dans l'augmentation quotidienne des données ne peuvent dépasser 99% des nouvelles données. Pour vérifier cela, placez simplement le script de boucle dans un certain nombre de nouveaux enregistrements dans une table avec NULL ou 0 par jour. Si vous voyez giUne forte augmentation du nombre d'enregistrements peut avoir une exception dans l'existence du système de service de conversion ou du service source.
3, nouveaux enregistrements tous les jours
Un jour, vous avez trouvé une croissance ou une réduction significative des données, et les règles 1 et 2 ont été adoptées. Cette volatilité peut être normale, telle que la promotion importante du secteur du commerce électronique ou des activités de marketing de logiciels sociaux. Cependant, il peut également être inhabituel car les enregistrements répétés sont extraits du système source. Par conséquent, dans ce cas, nous devons également développer des règles de qualité des données pour vérifier lorsque ces fluctuations se produisent et effectuent de manière proactive le diagnostic. Par exemple: un processus SQL simple est automatiquement exécuté, vérifiant si le comptage de nouveaux enregistrements se situe dans une plage d'erreurs moyen de 7 jours. La plage de seuils et d'erreurs peut varier d'une valeur de l'entreprise et du produit et de l'expérience est généralement réduite ou soustrait de 25%. Bien sûr, vous pouvez également comparer les données directement et ngLa veille et une augmentation ne dépassait pas 1 fois par rapport à la veille.
4, Vérifiez que les données enregistrées plusieurs fois
S'il s'agit des données rapportées par le système de commerce électronique ou le système social ou Internet de l'appareil, il y a deux conditions complètes. Le même enregistrement (y compris ID, heure, valeur). L'auteur a rencontré la même scène de deux données émises par un terminal, ce qui me faisait suivre le segment temporel. Par conséquent, il est nécessaire d'avoir le caractère unique de la valeur de données.
5, Vérifier le temps de données
Nos données système d'entreprise sont un horodatage, cet horodatage est définitivement plus petit que l'heure actuelle. Toutefois, en raison de l'exception des dispositifs de données d'acquisition (le système d'entreprise est inhabituel), nous toucherons les données "heure à l'avenir", puis si nous utilisons le temps comme partition, il y aura des résultats d'analyse inhabituelle au cours de la période suivante. Bien sûr, si l'opération d'entreprise de votre entreprise estCentre, vous devez considérer différents facteurs de temps.
MARDI
Avec ces choses, nous avons une compréhension préliminaire de la gestion des méthodes et des processus de gestion de la qualité des données de l'entrepôt de données.Pour différentes entreprises ou entreprises, il est toujours nécessaire de développer des solutions ensemble pour développer des solutions et améliorer en permanence le système de surveillance, mais seulement cela peut garantir que les résultats sont des selles que notre secteur d'activité est correct, de guider la société pour prendre des décisions précises.