Connaissances techniques essentielles du produit de données: apprentissage automatique et algorithme commun

Tout le monde sait que le chef de produit doit comprendre la technologie. Après tout, le chef de produit veut souvent tuer et tuer. Ne soyez pas compétent, mais au moins, ne laissez pas ce bloc à devenir un obstacle à la communication. Je comprends la technologie et je peux aussi développer des camarades de classe "scintillement" dans le travail réel. Quand je dis la vérité, je n'aurai pas peur des mains. Pour le gestionnaire de produits de données, non seulement la technologie, mais également de mieux comprendre plus de technologies. Cet article a partagé les connaissances techniques nécessaires aux fabricants de données.

Les produits doivent être compris: quel est le programme? Comment le programme assemble-t-il la fonction? Quelle est l'interaction de données client serveur? Quelle est la base de données? Quel est le type, la structure de la relation, le champ et le type de champ? Noms techniques communs tels que des interfaces, synchrones asynchrones, reconstruction, etc.

Outre ceux-ci, les produits de données devraient également comprendre les technologies liées aux données, telles que les entrepôts de données, l'exploitation des données d'apprentissage de la machine, le cadre de données importants ou les outils de développement de données communs, Hive, Spark, etc. Par conséquent, d'un point de vue, les produits de données sont plus élevés que les autres seuils de produits.

Cet article a principalement peigné l'apprentissage des machines et des algorithmes communs.

Il existe plusieurs définitions ci-dessous: L'apprentissage automatique est une science de l'intelligence artificielle et les principaux objets de recherche dans ce domaine sont l'intelligence artificielle,surtout comment améliorer la performance d'algorithmes spécifiques dans l'apprentissage de l'expérience. L'apprentissage automatique est un algorithme informatique qui peut être amélioré grâce à l'expérience. L'apprentissage automatique consiste à utiliser des données ou une expérience conventionnelle pour optimiser les normes de performance des programmes informatiques.

Ce qui précède de Wikipedia est un peu gêné.

L'apprentissage de la machine est un moyen d'utiliser des données, de la formation de modèle, puis d'utiliser la prédiction du modèle.

En fait, ce processus peut être résumé dans un idiome:

Ici, l'examen d'entrée au collège est l'exemple, le sujet de l'examen d'entrée au collège n'aura pas à le faire avant la salle d'examen, mais au lycée trois ans, nous avons fait de nombreuses questions, Comprenez le problème, alors la salle d'examen est également un problème étrange. Calculez la réponse.

L'idée de l'apprentissage de la machine est également similaire: nous pouvons utiliser certaines données de formation (ont été effectuées), permettant à la machine d'analyser les données inconnues (sujet de l'examen d'entrée au collège)?

En fait, un objectif majeur de l'apprentissage des machines est de mettre une pensée humaine de l'expérience, de la transformation en ordinateur en calculant le traitement des données.

Deuxièmement, la terminologie de l'apprentissage de la machine

Formation: Les données sont traitées par l'algorithme d'apprentissage de la machine, appelée «formation» dans l'apprentissage de la machine. Modèle: le résultat du traitement peut être utilisé pour prédire de nouvelles données, ce qui est généralement appelé "modèle". Prévision: Le processus de prévision pour les nouvelles données est"Prévision" s'appelle "prévision" dans l'apprentissage de la machine. Caractéristiques: c'est-à-dire les propriétés des données, ces caractéristiques des données peuvent représenter les caractéristiques des données. Tags: Résultats de prévision pour les données.

Les caractéristiques et les étiquettes, combinées mieux avec le contenu suivant.

Troisièmement, l'apprentissage de la machine est un algorithme commun

Premièrement, l'algorithme est en réalité un grand concept, en plus de l'algorithme d'apprentissage de la machine, il y a beaucoup de non-machine Apprentissage d'algorithmes, tels que la résolution de la ligne rapide, l'empilement, le bouillonnement et l'algorithme dans la programmation. C'est juste que la machine est trop chaude et une méthode de modélisation est plus que l'algorithme d'apprentissage de la machine.

Arbre de décision Tree de décision, un modèle prédictif représente une relation de mappage entre les attributs d'objet et les valeurs d'objet.

En règle générale, par des échantillons d'apprentissage, cet arbre de décision peut donner les nouvelles données à la bonne classification.
Un exemple simple est donné:
Puis je dessine un modèle de décision simple selon plusieurs modèles de données d'échantillons multiples, et ce qui suit est: y a-t-il une extension, le nombre de fois dépasse 5 fois, etc. Montant (l'événement n'est pas un spécial Nom, je suis ici pour paresseux, n'allez pas à l'exemple, et remplacez-le).
De plus, afin de vérifier quel modèle est plus précis, vous pouvez utiliser un ensemble de nouvelles données d'échantillon en tant que données de test, joindre le modèle, voir la façon dont la classification et les erreurs de classification réelles sont exécutées. pour mesurer le modèle. Précision.

Ici, il est introduit pour former des échantillons et tester des échantillons. De nombreux processus de formation sont traités de manière à ce que les échantillons de données soient divisés en échantillons de formation et en échantillons de test, des échantillons de formation pour générer des modèles, des échantillons de test pour vérifier la précision.

Dans le même temps, le comportement de l'utilisateur de cet utilisateur est "Fonction", la classification (que ce soit un utilisateur de trafic) est "étiquette".
Revue:
Caractéristiques: c'est-à-dire que les propriétés des données peuvent représenter les caractéristiques des données.

Tag: le résultat de la prédiction des données.

Quant à la manière dont le modèle est une formation et générés, l'algorithme spécifique est omniscient et ne sera pas introduit (en fait, je ne peux pas l'écrire).

L'arbre de décision est essentiellement appliqué à la classification de la foule dans le travail réel. Le meilleur scénario d'application consiste à classer la foule et à trouver différentes caractéristiques de différents types d'autres personnes. Par exemple, vous pouvez faire un modèle de perte. À travers Le comportement de l'utilisateur, que les personnes ont perdu leur risque et seront conservées par des offres spéciales. Vous pouvez également trouver quels nœuds clés ont causé la perte et ajoutez des stratégies opérationnelles à ces nœuds afin de réduire la perte.

Afin de prévenir la carte ci-dessus, vous trouverez quelques exemples d'autres modèles d'arbre de décision.

En outre, afin de vérifier quel modèle est plus précis, vous pouvez utiliser un ensemble de nouvelles données d'échantillonnage en tant que données de test, le modèle, voir combien d'erreurs de classification et de classification réelles en cours d'exécution. puis sur mesure la précision du modèle.

Ici, il est introduit pour former des échantillons et tester des échantillons. De nombreux processus de formation sont traités de manière à ce que les échantillons de données soient divisés en échantillons de formation et en échantillons de test, des échantillons de formation pour générer des modèles, des échantillons de test pour vérifier la précision.

Tag: le résultat de la prédiction des données.

Quant à la manière dont le modèle est une formation et générés, l'algorithme spécifique est omniscient et ne sera pas introduit (en fait, je ne peux pas l'écrire).

Afin d'empêcher l'image de trompeurs, d'autres exemples de modèle d'arbre de décision sont trouvés.

Je souhaite découvrir les règles de l'examen et les règles du temps de révision, comment le trouver?

Voici une ligne droite, cette ligne nécessite de "passer" tous les points et la distance entre les points peut être petite.

Explication, une régression linéaire simple est généralement l'utilisation de «moindres carrés» à résoudre, la méthode des moindres carrés: supposant que la ligne droite que nous voulions représenter la valeur réelle des données, tandis que le représentant des données observé possède La valeur de l'erreur. Afin de minimiser l'influence de l'erreur, il est nécessaire de résoudre une ligne droite pour minimiser toutes les erreurs.
Supposons que la fonction de la ligne droite dessinée est la suivante:
Grade d'apprentissage = A * Time d'examen + B
A, B est un paramètre droit. Après avoir obtenu ces paramètres, je peux calculer les réalisations des étudiants.
Ce résultat peut être et réellement dévié. Puisque cette ligne envisage la majeure partie de la situation, c'est la prévision la plus raisonnable du sens "statistique". Toutefois, si les données sont davantage, plus le modèle peut prendre en compte la situation, mieux l'effet prédit de la nouvelle situation. Par conséquent, la machine est quasi-quasi, dans une large mesure, les données que vous nourrissez ne suffisent pas.
2. Régression logique
La régression logique est un algorithme très similaire qui ressemble beaucoup à la régression linéaire, appartient à l'algorithme de classification.

La régression logique n'est que de calculer le calcul de la régression linéaire et convertit les résultats numériques à la probabilité de 0 à 1, selon cette probabilité, la probabilité peut être prédite, par exemple, la probabilité est plus grande 0,5, alors la tumeur est-elle maligne? Dans une logique intuitive, une ligne de classification est une ligne de classification, voir la figure ci-dessous (il existe également une régression logique de lignes de classification non linéaires). En supposant que nous avons un groupe de patients tumoraux, certains de ces patients sont quelque peu bénins (points bleus sur la figure), certains sont malins (points rouges sur la figure). Ici, la tumeur rouge rouge peut être appelée "étiquette" des données. Chaque donnée comprend deux "fonctionnalités": l'âge du patient et la taille de la tumeur. Nous mappons les deux fonctionnalités sur l'étiquette dans cet espace à deux dimensions, formant les données que j'ai ci-dessus.

Quand j'ai un point vert, la tumeur est maligne ou bénigne? Selon le point rouge-bleu, nous formons un modèle de régression logique, qui est la ligne de classification sur la figure. À ce stade, selon le point vert apparaît sur le côté gauche de la ligne de classification, nous déterminons que son étiquette doit être rouge, ce qui signifie une tumeur maligne.
3. Réseau de neurones

L'algorithme de réseau neuronal est un algorithme très populaire très populaire dans les années 1980, mais s'estompe au milieu des années 90. Maintenant, transportant un «apprentissage en profondeur», le réseau de neurones recharge les rendements et est à nouveau l'un des algorithmes d'apprentissage des machines les plus puissants.

Le mécanisme d'apprentissage du réseau neuronal est la décomposition et l'intégration.

Dans ce réseau, il est divisé en couches d'entrée, couches cachées et couches de sortie. La couche d'entrée est responsable de la réception du signal, la couche cachée est responsable de la décomposition et du traitement des données et le résultat final est intégré à la couche de sortie.

Par rapport au côté, un carré est décomposé dans la couche suivante de quatre lignes de pliage dans le traitement visuel. Quatre neurones manipulent une ligne de pliage (chaque unité de traitement est en fait un modèle de régression logique, le modèle de régression logique reçoit l'entrée de la couche supérieure, transmettant les résultats prévus du modèle au niveau suivant).
Chaque ligne continuera à être décomposée en deux lignes droites, puis traiter, puis décomposer chaque ligne au noir et en blanc.

L'ensemble du processus est une image complexe pour devenir une grande quantité de détails sur les neurones. Après le traitement neuronal, il sera intégré à nouveau, et finalement, il a été observé est une conclusion carrée.

4.svm (support de vecteur de support)

Dans un sens, le renforcement de l'algorithme de régression logique: En donnant des algorithmes de régression logique, des conditions d'optimisation plus strictes, l'algorithme de la machine de vecteur de support peut obtenir une meilleure limite de classification que la logique. Mais s'il n'y a pas de certain type de technologie de fonctionL'algorithme de la machine de vecteur de support est plus qu'une meilleure technologie de classification linéaire.
5. Algorithme de clustering

Le but de l'algorithme de clustering est d'introduire l'étiquette de ces données par formation. Les données de formation ne sont pas étiquetées, considérées comme un algorithme de non-surveillance typique et introduit ultérieurement la distinction entre algorithmes non supervisés.

Prenons toujours des données bidimensionnelles et une donnée contient deux caractéristiques. J'espère que grâce à des algorithmes de regroupement, je vais calculer la classification pour mettre l'étiquette. Que dois-je faire? Simplement, l'algorithme de clustering est de calculer la distance dans la population, de diviser les données en plusieurs groupes ethniques en fonction de la distance.

Le représentant le plus typique de l'algorithme de clustering est le but de la cluster de k-moyen algorithme

K-moyen est de diviser n points (peut être une observation d'échantillon ou un exemple) à K grappes de clusters, Chaque point appartient au cluster correspondant à la moyenne la plus proche (il s'agit du centre de cluster), afin d'être utilisé comme norme de clustering. "La scène commune couramment utilisée par K-Moyens consiste à classer l'utilisateur lorsqu'il existe plusieurs catégories et décider de la prochaine action en fonction des différentes caractéristiques de chaque type d'utilisateur. (Décision) L'arborescence peut également faites-le, mais vous devez définir les caractéristiques, le cluster peut donc être meilleur lors de l'exploration des zones inconnues de la fonctionnalité)

6. Algorithme dégradant

Il est également Un algorithme d'apprentissage non supervisé, qui est la principale caractéristique permettant de réduire les données de la dimension élevée à un niveau de niveau bas.
Par exemple, le prix de la maison contient la longueur, large, zone et le nombre de chambres Dans la chambre. Caractéristiques, la dimension est des données 4 dimensions. On peut voir que les usines de longueur et de largeur ont chevauchements les informations indiquées par la zone, telles que la zone = LIFT × largeur. Nous pouvons supprimer des informations redondantes par le biais de Algorithme, et réduire les caractéristiques Le nombre et le numéro de pièce est caractérisé.

7. Algorithme recommandé

Les algorithmes utilisés couramment dans le système recommandé comprennent des algorithmes de filtrage collaboratif (item_base, user_base), algorithme de préférence utilisateur , algorithme de règle d'association, algorithme de grappes, algorithme de similitude de contenu (content_base) et certains autres algorithmes supplémentaires.

L'algorithme le plus célèbre est coordonné avec un algorithme de filtrage, la pensée centrale est de rassembler, des personnes avec une population spécifiquement, elle peut être divisé en algorithme de filtrage synergique basé sur l'utilisateur et algorithme de filtrage synergique à base d'élément.

Item_base est basé sur la similitude de l'élément en fonction du comportement de l'utilisateur collectif, puis met l'élément ou acheté avec l'utilisateur. Les articles les plus similaires sont recommandés à l'utilisateur. user_base est la similitude entre l'utilisateur en calculant l'utilisateur en fonction du comportement collectif.Par exemple, A est calculé très similaire à B, vous pouvez aimer le contenu de B, mais A ne l'a pas vu, il est recommandé à A.

Algorithme de préférences de l'utilisateur: Calculez le contenu / le produit de l'intérêt de l'utilisateur en fonction des algorithmes de préférence des utilisateurs, puis recommandez aux utilisateurs.

Algorithme de règles associées: calculez le support et la confiance entre les éléments basés sur l'algorithme de règle associé. L'application la plus courante est une combinaison d'achats, de bières et de couches sont des exemples très classiques.

Algorithme de clustering: vous pouvez regrouper les produits utilisateur ou grappe. Le cluster peut être recommandé pour les grandes catégories ou continuer à calculer la relation entre les classes utilisateur et les classes de produits.

content_base est basé sur les propriétés de l'élément lui-même, calculant la similitude entre les éléments et l'application la plus courante est recommandée.

Quatre, la classification d'algorithme d'apprentissage de la machine (supervision et aucune différence de surveillance)

Si les données sont étiquetées, il s'agit d'un algorithme d'apprentissage de supervision et aucune étiquette n'est pas supervisée. Algorithme d'apprentissage. L'algorithme recommandé est plus spécial, ce qui n'est ni une étude de supervision, ni un type distinct de non-surveillance.

L'algorithme ci-dessus, sauf que le groupe, la conception n'est pas un algorithme d'apprentissage supervisé, et il est recommandé d'être une seule classe, et le reste est un algorithme d'apprentissage de supervision.

En fait, il reste encore un algorithme d'apprentissage semi-supervision, c'est-à-dire que la partie de données de formation a une étiquette, et certaines n'ont pas d'étiquette.

Globalement, relativement lié à l'apprentissage de la supervision, aucun apprentissage de supervision tel que l'algorithme de clustering n'est différent. Mais la supervision de l'apprentissage nécessite une étiquette, où est l'étiquette? Dans des applications pratiques, l'acquisition de l'étiquette nécessite souvent une grande charge de travail artificielle, parfois même très difficile. De nos jours, il existe de nombreuses grandes données et l'étiquette sera faite pour effectuer les règles des règles.

Regardez maintenant le concept d'apprentissage de la machine, l'essence est de trouver la relation entre les caractéristiques et les étiquettes. Cela peut obtenir une étiquette de données inconnue avec une relation existante lorsqu'il existe une fonctionnalité sans étiquette.

Sujets

algorithme

Catégories

Produit de données