Un processus de modélisation de données spécifique peut être divisé en six étapes, comme indiqué ci-dessous:
Premièrement, des objectifs de développement
Quel est l'objectif de la compréhension des entreprises, des problèmes d'affaires réels à être résolu?
Par exemple, dans la plate-forme de Kol Society, il existe un faux fan, comment déterminer la fausse poudre est un vrai problème à résoudre.Deuxièmement, compréhension et préparation de données
sur la base de problèmes réels, de compréhension et de préparation des données, en général, de répondre aux problèmes suivants:
De quoi avez-vous besoin? Indicateurs de données (c'est-à-dire des fonctionnalités d'exploitation)? (Par exemple: quels indicateurs peuvent distinguer de la poudre réelle et une fausse poudre?)
Quel est le sens de l'indicateur de données?
Comment la qualité des données est-elle? (Comme: y a-t-il une valeur manquante?)Les données peuvent-elles répondre aux besoins?
Comment les données ont-elles encore besoin? (Exemple: Indicateurs de données de conversion, convertissant des variables de catégorie en variables 0-1 ou conversion de données LSe terminer par une variable ordonnée) d'explorer les lois et les échantillons dans les données, formant ainsi une hypothèse.
Il convient de noter que les préparations de données peuvent avoir besoin d'essayer plusieurs fois. Parce que dans de grandes données complexes, il est difficile d'explorer le mode dans les données, une hypothèse préliminaire peut être renversée prochainement, alors vous devez être percé soigneusement, essayez constamment des erreurs.
L'impact de l'évaluation du modèle est requis après la modélisation des données, il est donc normalement de diviser les données dans les ministères et les testeurs de la formation.
sur la base de la préparation des données, le modèle de données est défini, peut être un modèle de modélisation ou ne pas nécessiter d'apprendre la machine. Algorithme très élevé. Ces types de modèles sont sélectionnés, il est déterminé en fonction du problème (cible) qui sera résolu.
Bien sûr, peut choisir deux contrastes de modèle ou plus et les paramètres sont correctement ajustés et l'effet de modèle est optimisé.
Évaluez le quatrième modèle
Il existe deux aspects de l'évaluation du modèle: premièrement, le modèle a un problème à résoudre (faites-vous attention et prenez en compte le potentiel problèmes qui doivent être résolus); Une autre est la précision du modèle (taux d'erreur ou résidu approprié pour la distribution normale, V.V.).
Dans la question de la détermination de la poudre d'imitation KOL, il est nécessaire d'évaluer:Le modèle peut-il identifier la fausse poudre?
Quel est le taux d'identification d'erreur? Taux de reconnaissance des pannes = (faux poudre) Nombre de pollen + très méticuleux, le nombre de fausses poudre) / Total Filiament
Présentation
La présentation est principalement Intéressé par les trois aspects suivants:
Quels sont les problèmes qui ont été résolus? Quel est l'effet?
Comment résoudre le thread du problème? Quelles sont les étapes spécifiques?
Avec une grande quantité de données résolvant une ou plusieurs questions pratiques importantes, nécessité de réaliserActuellement, le programme, il faut souvent surmonter la mise en œuvre de l'environnement technique en ligne, de sorte que le modèle soit optimisé en permanence et mieux résolue l'installation. Surmonter le personnel technique pour déployer des environnements techniques, nécessite des groupes de modélisation de données pour écrire des documents de la demande et que les ingénieurs comprennent le contenu du pont de documents afin d'obtenir de meilleurs effets de mise en œuvre du modèle.