Skip to main content

Outre les processus d'analyse à grande échelle et de SQL, Spark fournit également une prise en charge de l'apprentissage à grande échelle et de l'analyse d'image. Cela fait partie de "Analyse avancée". Cet article vous propose d'étincelles Vous pouvez utiliser différentes parties d'analyse avancée, y compris les connaissances de base de l'inscription d'une analyse avancée, des cas d'utilisation et des processus analytiques d'amélioration de base. Comprend:

Données prescrites (Nettoyage des données et caractéristiques techniques)
Surveillance de l'étude
Apprentissage sans assistance
Schéma suggéré

Apprentissage profond
Cet article n'est pas un guide d'algorithme d'appeler votre La plate-forme mathématique pour chaque étincelle fournie n'est pas la stratégie de mise en œuvre intensive de chaque algorithme. Utilisez simplement le Guide de l'utilisateur pour vous indiquer ce que vous avez à voir avec la capacité d'analyse avancée de l'étincelle.
En raison de l'article trop long, il sera divisé en deux articles. Cet article a principalement dit la première partieFée de "Introduction simple d'une analyse avancée" et de deux "autres processus d'analyse avancée" et la boîte à outils analytique avancée de Spark Spark seront partagées demain.
1. Brève introduction de l'analyse avancée
Détails précédents, spécifiez-nous l'analyse avancée et fournissez un cours d'apprentissage rapide.

Gartner détermine cette analyse avancée dans leurs termes informatiques: "L'analyse avancée est une donnée automatique ou automatique ou des contenus à l'aide de technologies et d'outils complexes publics, souvent surmonté des entreprises intelligentes traditionnelles (ballons) pour découvrir des informations plus profondes pour fournir prévisions ou donner des conseils. La technologie d'analyse avancée inclut l'édition de données / mines de texte, l'apprentissage, la combinaison d'échantillons, la prévision, l'analyse sémantique, l'analyse émotionnelle, l'analyse de réseau et le cluster, les statistiques multi-variables, l'analyse d'image, la simulation, la manutention d'événements complexes, la grille nerveuse du réseau . "


AnalyseAvancé est une variété de noyaux pour résoudre des idées et prédire et proposer des problèmes basés sur les données.

Le meilleur corps pour apprendre la machine en fonction de la tâche que vous souhaitez faire. La tâche la plus courante:

Surveillance de l'apprentissage, y compris la classification et la régression

Recommandations du moteur, recommandations comportementales ou priorités de différents produits

Aucune supervision d'apprentissage, y compris la classification, l'inspection inhabituelle et le modèle thématique

Analyse, telles que l'exploration et la compréhension de la structure de la relation
Revenons à la fonction de ces problèmes dans ces problèmes. Le défi est que cette information peut être très difficile. Bien sûr, nous allons essayer de donner cette référence comme modérée, mais vous devrez peut-être parfois faire référence à de nombreux exemples ou d'autres explications pour comprendre le document.
1. Surveiller l'apprentissage

La surveillance de l'apprentissage peut être votre machine d'apprentissage la plus familière. Cet objectif est très simple, ce qui signifieLes données historiques sont marquées (souvent appelées variables), enseigne la valeur à prédire les valeurs de l'étiquette. Si l'erreur prédit l'algorithme, nous ajusterons l'algorithme (au lieu de régler les données de formation), puis réessayerez à nouveau sur les données suivantes. Après une formation d'algorithme, utilisez-le pour prédire de nouvelles données futures.

Nous devons faire de nombreuses choses différentes pour résoudre ce problème, tels que la précision du modèle avant que le modèle soit utilisé pour réellement et la version très simple des principes mécaniques. Entraînez-vous dans des données historiques, confirmez que l'algorithme peut être étendu aux données que nous n'avons pas été formées, puis prévisibles par l'algorithme.

Nous pouvons organiser davantage de recherches sur la base de variables que nous voulons prévoir.

(1) Classification
Une tâche commune sur la surveillance de l'apprentissage est classée. La classification est un algorithme de formation comportementale pour prédire une variable de classification (valeur limitée de discrète). Situation de pHLe lecteur le plus variable est la deuxième couche, ne peut choisir que deux groupes. Un exemple standard est le spam. Nous pouvons avoir de nombreux courriels historiques, spam et non-spam ont été divisés en deux groupes. En utilisant ces données historiques, nous pouvons former des algorithmes pour analyser le vocabulaire et tout nombre de fonctionnalités dans leurs messages historiques et prédire leurs classifications. Lorsque nous sommes satisfaits de sa performance, nous utiliserons les futures données de courrier que l'algorithme a vues.

Un autre exemple de classification prévoit non seulement si le message est un spam et d'autres efforts déployés pour classer les messages. Par exemple, nous pouvons avoir quatre types de courriels différents: shopping, privé, travail connexe et autres. Les données historiques correspondantes sont également classées en quatre catégories. Nous formerons un algorithme pour prédire leur courrier (ou sa source) basé sur le catalogue, puis utiliser l'algorithme de formation en nouvelles données. Lorsque nous effectuons ces types correctement,Les mathématiques peuvent aider à organiser une boîte de réception d'une personne à différents groupes. Cette mission est souvent appelée multicouche.


Cela a quelques cas d'utilisation:

Prédire les maladies cardiaques - Les médecins ou les hôpitaux auront un groupe de patients présentant des données historiques sur le comportement. Ils peuvent utiliser des données historiques pour former des algorithmes (et évaluer leur précision et leurs problèmes moraux potentiels) et prédire si les patients ont une maladie cardiaque grave ou non. Cela peut être utilisé comme exemple d'une deuxième couche (santé, malsaine) ou de nombreuses catégories (santé, sainement, malsaine). Catalogue de l'image - Il existe des applications d'Apple, de Google, de Facebook et d'autres sociétés, qui peuvent prédire ces personnes dans une certaine image en exécutant l'algorithme de classification du visage d'une personne formée dans ces photos. Une force universelle peut être une classification d'image ou marquer une transaction dans l'image.

Prédire la perte des invités de soudureG - une analyse d'application plus commerciale que de prédire les pertes de clients. Vous pouvez former deux classements avec des données client perdues, utilisées pour essayer de prédire que l'utilisateur actuel est susceptible de perdre.

Acheter ou non acheter - une entreprise peut vouloir prédire si les utilisateurs achèteront des produits sur leur site Web. Ils peuvent guider les prédictions avec les habitudes d'achat d'utilisateurs.


Il existe de nombreux cas de classification différents, et ce ne sont que quelques petits exemples. La demande principale est que vous disposez de suffisamment de données pour former votre algorithme et vous devez avoir une norme d'évaluation appropriée. Celles-ci discuteront de ce chapitre classées.

(2) Retourne

Dans la classification, nous constatons qu'il n'y a qu'une seule valeur discrète en raison de variables. En régression, nous essaierons de prédire une variable continue (un nombre réel), décrivant la fermeture plus simple, par rapport à l'anticipation d'un catalogue, nous voulons prédire certains sur la parcelle. C'est un travail difficilePlus de deux couches ou multicouches, car nos résultats peuvent être pris à partir de toute somme précieuse, non seulement à partir d'un ensemble discret. Les choses restantes sont le même travail (c'est pourquoi elles font partie de la surveillance de l'apprentissage), nous prédirons les données basées sur des algorithmes de formation de données historiques.


(3) Exemple
Situation des ventes estimée - Un magasin peut souhaiter utiliser des données historiques existantes pour estimer les produits de vente de production pendant une certaine période. Il existe de nombreuses variables d'entrée potentielles sur ce problème, mais comme exemple simple, vous pouvez utiliser les données de la semaine dernière pour prédire les données du lendemain.
Prédire la hauteur - basée sur la hauteur du parent, peut vouloir prédire la hauteur de leurs enfants.
Prédire certains objets d'un programme - une société comme Netflix peut essayer de prédire le nombre de téléspectateurs d'un programme donné en fonction du nombre de téléspectateurs du programme, d'évaluer la valeur de la valeur deprogramme.

Classification, comme nous l'avons mentionné, plus complexe mais plus fort que la classification.

2, le système proposé
La tâche proposée est l'une des œuvres les plus intuitives. En apprenant à apprendre la domination de chacun (par classement) ou passe-temps caché (par comportement d'observation), vous pouvez faire des recommandations sur ce que vous aimez et dessinez de cet utilisateur et d'autres utilisations. Sur la base de ce résultat, nous pouvons le recommander aux autres avec ces informations. Il s'agit d'un cas commun d'étincelles et convient parfaitement aux grandes données.

Utilisation de l'exemple:

L'algorithme proposé a de nombreuses applications du monde réel. Une des raisons est qu'elle est très simple de construire une observation de comportement historique. De plus, il fournit également facilement des algorithmes de formation. La raison pourrons discuter dans les sections suivantes.

Recommandations Netflix - Netflix utilise Spark, à travers des personnes d'apprentissage des goûts et contrairement aux films, en les laissantFilm de cinéma pour eux lorsque les utilisateurs sont connectés. En outre, considérons les similitudes entre les évaluations des utilisateurs et les autres utilisateurs, il est recommandé pour sa recommandation.

Recommandations du produit - Amazon Utilisez les véhicules proposés pour utiliser les recommandations de produits pour augmenter les ventes. Par exemple, basé sur l'élément de panier d'article, Amazon recommande des éléments supplémentaires similaires aux utilisateurs. Une autre tâche est de calculer la similitude des produits par le biais du comportement de navigation des personnes à travers le comportement de navigation de chacun.

3, apprentissage sans surveillance

L'apprentissage sans surveillance recherche un modèle ou explorez la structure de base dans un certain ensemble de données.

Ceci est différent de la surveillance car aucune variables ne peut être utilisée pour former des modèles. Cela en fait une tâche analytique avancée plus haute, car il est difficile de vérifier la précision.
Objectif d'apprentissage à secNG surveillée est différente des autres missions, car il n'y a pas de méthodes de test simples pour prouver que votre analyse est correcte. Normalement, vous n'exécuterez pas un algorithme d'apprentissage sans nom proche de la prédiction, mais est utilisé pour explorer le mode de base dans les données et mieux Comprendre les différentes caractéristiques utilisées pour identifier différents groupes dans les données.

Modélisation du sujet - fournit un ensemble de documents, nous analyserons des moments différents dans ces documents pour voir s'il existe des associations de base entre ces documents. Prenez la structure de ce livre à titre d'exemple. En exécutant l'algorithme de modèle thématique sur les chapitres, nous verrons que la carte d'écoulement diffère du chapitre de la machine car il existe un vocabulaire complètement différent de ces deux parties.

Test inhabituel - Lorsque le temps passe, le type de temps standard est souvent arrivé et nous souhaitons signaler quand le temps n'est pas standard.

Classification des utilisateurs -Fournir un ensemble de comportement de l'utilisateur, nous voulons mieux comprendre quels attributs partagent avec d'autres utilisateurs. Par exemple, la société de jeu de négociation peut classer les utilisateurs en fonction des caractéristiques telles que des jeux de jeu sur un jeu spécifique. Les algorithmes peuvent expliquer le jeu A du jeu A. Cela favorisera cette conclusion pour le système recommandé de fournir des recommandations pour d'autres jeux le soir.


4, Analyse du diagramme

Il n'est pas populaire que l'analyse de la tâche et du graphique précédentes sera vue dans l'analyse avancée. L'analyse graphique peut être fournie pour des tâches sur les méthodes de génération. Quelle que soit la manière dont, cela ne fait pas que la méthode ci-dessus ne devienne ni non échappée ni abolie, devrait être considérée comme une approche différente de un problème de construction de remplacement. Fondamentalement, l'analyse de cartographie est une étude des relations, nous attribuons des sommets aux objets, les bords représentent la relation entre les objets. banniComment observer les caractéristiques des sommets et des bords, nous pouvons apprendre davantage de relations et des points similaires de sommets et de bords.


Analyser des images liées aux relations.

Triche - Capital One utilise des fonctions d'analyse graphique Spark pour mieux comprendre les réseaux de fraude. Cela inclut différents téléphones, adresses ou informations sur la fraude pour connecter différentes personnes et utiliser de nouvelles informations pour trouver de nouvelles informations sur la fraude (ou des informations suspectes), combattre avec la triche de l'espace.

Détection inhabituelle - En observant le réseau personnel connecté, les valeurs inhabituelles et les phénomènes inhabituels peuvent être marqués pour une analyse manuelle. Par exemple, si dans nos données, un point fixe comporte généralement 10 bords et un seul point fixe, vaut la peine d'enquêter, car il s'agit d'un phénomène étrange qui mérite d'être appris.

Classification - Certains événements fixes connus dans certains réseaux, vous pouvez classerChaque bouton est basé sur la connexion avec le bouton racine.Par exemple, si une personne donnée est étiquetée comme une personne touchée dans le réseau public, nous pouvons classer d'autres structures de réseau similaires comme une personne touchée.

Recommandé - Algorithme de recommandation du réseau d'origine de Google, Pagerank, est l'algorithme de graphique, peut analyser les relations de site Web pour fournir des classements importants sur le site.Par exemple, si un site Web pointe votre connexion, il sera classé plus important qu'un site Web qui ne pointe pas la connexion.

Sujets