Skip to main content

En recrutement d'analyses de données, presque toutes les formes de "modèle". Bien que l'analyse de données réelle utilise des opportunités d'apprentissage de la machine, n'en avez vraiment pas beaucoup, mais je pense que c'est toujours l'une des compétences nécessaires à certains points.

Pour les débutants, les mathématiques peuvent être entendues dans la machine d'apprentissage pour exiger une algébrique linéaire, un calcul, une probabilité, une optimisation convexe, etc mais en fait, mais bien, tant que certaines connaissances mathématiques majeures peuvent utiliser la machine d'apprentissage pour faire quelque chose.
Ainsi que la biologie, j'ai rencontré beaucoup de difficultés à apprendre le processus d'apprentissage, étape par étape et j'ai également causé une porte et j'ai examiné ce contenu dans un proche avenir. Voulez-vous exporter quelque chose, j'espère discuter de la façon de blanchir et de tout le monde, apprendre la machine.
Quelle est la machine d'apprentissage de la machine?

Comme le nom le montre, laissez la machine pouvoir apprendre.

Peut un peu et peut créer une "données de calendrierHistoire "Après avoir appris" une stratégie "pour apprendre" Données historiques "." Certaines stratégies "," données historiques "," prévisions ", et ont de nombreux noms exclusifs, je présenterai progressivement progressivement dans une affaire

Xiao Wang est un analyste de données d'un opérateur. Le patron a récemment déclaré: "Xiao Wang, nous avons récemment perdu des utilisateurs tous les mois, peut aider à y penser. Mesures. "Xiao Wang pensa depuis longtemps, j'ai senti que nous pouvions prédire la liste des utilisateurs perdus le mois prochain, puis nous pourrions envoyer un rabais avant ou les instructions qu'ils ont mis à niveau / modifient d'autres produits de flux pour les conserver?


Parce qu'il y a un moyen, il fonctionnera.
Première étape: Déterminez l'objectif
Objectif: Le modèle peut prédire la liste des utilisateurs du trafic le mois prochain en fonction des données historiques modèle de formation.
Le large mer du roi a sauté hors du terme de base:
Tags: Ceci est notre transactionPour prédire, c'est-à-dire de transformer médical dans une simple régression linéaire, dans ce cas, cette étiquette, l'étiquette est "si l'utilisateur prendra le mois prochain".
SURVEILLANCE L'apprentissage: il s'agit de l'apprentissage de la machine de formation de données "label" à prédire.

L'apprentissage n'est pas surveillé: il s'agit d'une tâche d'apprentissage qui n'est pas une "label" pour prédire la tâche d'apprendre la machine.

La tâche est classée: comme une étude de surveillance, la marque de la tâche d'apprentissage de la machine est des données discrètes, telles que cette affaire, qu'elle soit perdue, la perte est de 1 et la partie restante 0.

Retatus FactStact: Il s'agit d'une étude de suivi, la marque de commerce des tâches d'apprentissage de la machine est la valeur de valeur continue, par exemple: prédire les ventes du mois prochain.

Retour à cette affaire, nous pouvons maintenant déterminer cette tâche comme une tâche de classification dans un apprentissage contrôlé. L'étiquette est "l'utilisateur du mois dernier perdu"?

Étape 2: Préparer les données
La phase de préparation des données est vraiment une étapeLe meilleur dans le processus de modélisation, nécessite généralement des données pour nettoyer, fusionnez des dizaines de centaines de centaines de tables. Cette étape nécessite un concept clair: des ensembles de données
Lorsque nous effectuons des données historiques pour former des modèles, il n'est pas simple de lancer toutes les données dans les modèles et les tissus images peuvent apprendre les prévisions, nous devons souvent diviser le jeu de données:
Kit d'entraînement: ensembles de données utilisés pour lancer des modèles (généralement 60% de données complètes suffisamment)
Set de vérification: Utilisé pour optimiser les ensembles de données de modèle (généralement 10% de données complètes)
  • Kit de test: Ensemble de données pour évaluer l'exactitude du modèle (généralement 30%)
  • Retour à cette affaire, maintenant en juillet 2019, je souhaite prédire la liste des utilisateurs perdue Au cours du mois 8, nous devrions avoir les données historiques autant que possible, pensant que nous prenons près d'une demi-année. À ce stade, nous pouvons affiner l'objectif:
  • Modèle de modèle de formation DL'historique "près de quatre mois" permet au modèle de prédire la liste des utilisateurs perdus le mois prochain. À ce stade, le jeu de données de la présente affaire est divisé en:

    Données d'historique pour 2019.1-2019.4

    Réglage de vérification: 2019.5 Données historiques

      ] Kit d'inspection: 2019.6 Historique Données
    • Étape 3: Formation et évaluation du modèle
    • Xiao Wang a préparé le jeu de données et nous pouvons enfin commencer la formation des chiffres tissulaires, bien que l'apprentissage actuel soit lié aux bibliothèques cultivées, essentiellement lance Données, mais certains termes de base de la formation modèle, je pense encore être compris.
    • 1. Perte: simple, la perte est la différence entre les prévisions et les différences de modèle. En regardant la photo, avec une régression linéaire à titre d'exemple, le bleu est le résultat de l'anticipation du modèle, chaque point est le résultat réel, puis la perte est la somme de la distance de chaque ligne rouge.
    • 2, fonction de coût (également appelée fonction de perte): il s'agit d'une direction optimisée modèle CNotre, racontant le modèle de direction répété continuellement. Prendre une déclaration linéaire à titre d'exemple, supposons que les résultats soient vraiment Y, le modèle de prévision du financement (x), puis sa fonction de coût est la suivante:


      et notre direction optimisée est la suivante: prédire un Résultat du modèle en tant que résultats réels, peut réduire la fonctionnalité des coûts.

      3, Optimisation convexe: la fonction de coût générale est une fonction convexe qui aide à réduire autant que possible la fonction de coûts, ce qui signifie que nous devons trouver la meilleure solution pour les heures d'infini, la méthode populaire: gradientDrop, la méthode de Newton.

      4, montage excessivement: Ce qui précède a toujours souligné que la fonction de coût doit être petite, mais cette petite est également liée, en supposant que 0, généralement pas pour cela. Le coût de l'hypothèse est très petit, puis ce modèle est très bon dans l'évaluation de l'ensemble de données, ce qui convient parfaitement à cette formation, car le modèle est trop adapté aux données de formation, ce qui donne des données de fréquence devinez plus précisément le phénomène. "Combinaison QNiveau asiatique ".
      5, Règles: Nous avons besoin de prédiction de modèle précise, mais il est nécessaire d'empêcher le modèle de correspondance, il s'agit d'une méthode relativement courante, de perte de fonction plus un élément régulier, en utilisant actuellement des articles réguliers réguliers. L1, L2 régulièrement.

      6, Capacité de généralisation: mentionner la précision prévisible des données à l'avenir.

      7, Évaluation du modèle: La classification de l'indicateur de notation, la régression et la mission de sous-groupe est inappropriée, comme l'a mentionné MSE. ci-dessus, c'est le prix de l'indice de la régression;


      8. Authentification croisée: La pensée de base est un groupe de données brutes plusieurs fois, une partie du kit de formation, une partie de la vérification définie pour frapper Prix de modèle. Prenez le test Kight-Confirmer Kight comme exemple:

      L'image ci-dessus est 5 fois pour la fourchette.

      Étape 2: Chaque fois que l'un d'entre eux est sélectionné en faisant une authentification,le reste est utilisé comme kit d'entraînement pour former le modèle.

      Étape 3: Utilisez la vérification pour évaluer mCochez les cases Pour obtenir des données, utilisez le modèle pour prédire le kit de test pour obtenir

      Enfin, 5 mètres, résumé / 5 évalue les résultats du modèle, et 5 marques, les tâches d'arbitre et / 5 sont prédites. Résultats du kit de test. La tâche de classification attribue la liste de la plupart des voix des prévisions du kit de test.

      Résumé

      Diverses machines d'apprentissage, revenant maintenant à intégrer Xiao Wang à faire quelque chose dans le modèle de formation et l'évaluation de la scène:


      Certains modèles de classification sont formés avec des données de 2019.1 - 2019.4 mois.

      Choisissez le rappel et la précision comme indice d'évaluation de cette tâche.

      Utilisez le modèle pour prédire la formation de formation, les ensembles de vérification et les tests, les examens et le prédit trois utilisateurs d'indicateurs d'évaluation.

      Le jugement est de savoir si le modèle est équipé et si le score de la formation est supérieur à celui des paramètres de vérification et des tests importants, il est équipé.

      On pense que le préLa fraction est évitée avec une méthode supplémentaire régulière ou une validation croisée.

      Le résultat final de rappel et est conforme avec précision avec le modèle commercial standard pour prédire l'avenir.

Sujets