Skip to main content

Cet article souhaite principalement introduire des algorithmes dans l'exploitation minière de données et le type contient. Puis, à travers la réalité des tentacules, l'affaire vivant pour interpréter sa véritable existence.


Je ne sais pas si vous avez ou avez vu ces problèmes:

Comment distinguer le spam?

Comment déterminer si une transaction appartient à la fraude?
Comment évaluer la qualité et le type de vin?
Comment identifier les documents King Scan?
Comment évaluer si la favori est d'une main célèbre?
Comment puis-je déterminer si une cellule appartient aux cellules tumorales?

Ces problèmes semblent très professionnels, pas de très bonnes réponses. Toutefois, si vous comprenez les connaissances sur un peu d'extraction de données, vous pouvez avoir la sensation de fleurs sombres Liu.

En général, l'algorithme d'exploitation des données comprend quatre catégories, à savoir la classification, la prévision, la clustering et les liens. Deux têtes tL'étude appartient à l'étude et les deux types d'apprentissage suivants ne sont pas surveillés, appartenant à la descriptive et à l'exploration de l'identification du modèle.



Il existe une étude de surveillance, c'est-à-dire une variable cible et la relation entre variables et variables cibles doit être examinée. Apprendre et optimiser les algorithmes sous la supervision des variables cibles. Par exemple, le modèle de pointage de crédit est une étude de surveillance typique et la variable cible est "s'il s'agit d'une violation des contrats". Le but de l'algorithme est d'étudier la relation entre la variable caractéristique (attributs démographiques, propriété, V.V.) et variables cibles.

1. ALGORITHM DE CLASSIFICATION

La plus grande différence entre l'algorithme de classification et l'algorithme prédit la variable cible de la personne ancienne classée (par exemple, pour savoir s'il est en retard, que ce soit en retard, qu'il s'agisse de cellules tumorales ou de spam, etc.), la variable ultérieure des objectifs est un type continu. En général, des algorithmes de classification spécifiques comprennent la régression logique, les arbres de décision, le knn, Discrimination Bayes, SVM, forêt aléatoire, réseau nerveux, V.V.

2. Prédire l'algorithme


Algorithme de classe prédictive, sa variable cible est généralement une variable continue. Les algorithmes généraux comprennent la régression linéaire, l'arborescence de régression, le réseau nerveux, les SVMS, V.V.





Il n'y avait aucun apprentissage de surveillance, ce qui signifie qu'il n'y a pas de variable cible, sur la base des données elles-mêmes, pour identifier le mode et la fin des caractéristiques de trading. Par exemple, Analyse de l'association, lien entre l'élément A et le projet B en explorant les données. Par exemple, l'analyse des grappes, tous les échantillons sont divisés en certains groupes stables en fonction de la distance. Ceci est sous la supervision de la variable cible, de l'analyse des échantillons.

1. Analyse du cluster


L'objectif du groupe est de réaliser un échantillon de secteur, de sorte que les exemples de caractéristiques du même groupe sont similaires et les caractéristiques d'échantillon des groupes différents. Autre grand. Les algorithmes de grappes communs comprennent les KMEAN, le cluster de déformation, le cluster de densité, etc.

2. Analyse de l'association

Le but de l'analyse d'association est de trouver des contacts internes entre les éléments (article). Il est souvent appelé analyse de panier d'achat, ce qui signifie que les consommateurs achètent souvent des produits (tels que des pantalons de natation, un écran solaire), aidant à vendre des packages de commerçants.

III. Cas et applications basées sur l'exploitation minière de données


Quatre algorithmes mentionnés ci-dessus (classification, prédiction, clustering, comparaison traditionnelle et commune. Il existe des dramatiques. Applications et autres algorithmes intéressants, tels que la filtration collaborative, une analyse de valeur inhabituelle , réseaux sociaux, analyse de texte, etc.


Suivant, vous souhaitez créer un type d'algorithme autre, spécifiquement introduit, exploiter des données dans la vie quotidienne. C'est ce que vous pouvez penser, quelques choses plus intéressantes, étroitement liée à la vie.
1. Cas basés sur le modèle de classification

ARRÊT SPAM


Comment distinguer si des courriels appartiennent à un spam? Cela doit être dans la liste du texte de creuser, souvent en utilisant des méthodes simples de baies. Son principe principal est en fonction des mots du corps du message, qu'il apparaisse généralement dans le spam, il est évalué. Par exemple, si une notification est incluse dans le texte du message, la probabilité du message est définie comme un spam relativement important.


En général, déterminez si l'e-mail appartient au spam, il contiendra les étapes suivantes: Première étape: supprimez le texte en une combinaison de mots, supposons que certaines lettres contiennent 100 mots .

Étape 2: Selon les baies de probabilité conditionnelles, calculez un avis d'apparence, une probabilité de spam et une probabilité de courrier normale. Si le résultat indique que la probabilité de spam est supérieure à la probabilité de courrier normal. Après cela, le message sera arrangé de manière spam.
Tumeurs médicaux au pouvoir

Les cellules appartiennent à des cellules tumorales? Les cellules tumorales et les cellules conventionnelles sont différentes. Cependant, il y a un docteur très expérimentéJuger par des tranches pathologiques. Si la machine est apprise, le système identifiera automatiquement les cellules tumorales. Ce résultat du temps sera augmenté rapidement. De plus, les cellules tumorales sont déterminées par subjectif (docteur) + but (modèle) et les résultats croisés et les conclusions peuvent être plus fiables.



Comment fonctionner? Déterminez par modèle de classification. Bientôt, deux étapes sont incluses. Premièrement, les caractéristiques des cellules sont constituées par une série de caractéristiques de cellules indexées, telles que le rayon de cellules, la texture, la circonférence, la surface, la douceur, la symétrie, le gaufrage et le gaufrage et similaires. Deuxièmement, sur la base des caractéristiques de cellules cellulaires, l'identification des cellules tumorales est effectuée en construisant un modèle de classification.

2. Des cas basés sur des modèles prédictifs

veulent principalement introduire deux cas. C'est-à-dire que la qualité du vin est évaluée et prédite par les caractéristiques chimiques. L'autre est à travers le cIl recherchait, prédit et évalué des fluctuations et des tendances des cours des actions.
Diriger la qualité du vin


Comment évaluer le vin rouge? Les gens expérimentés disent que le vin rouge est le goût le plus important. La qualité des saveurs est affectée par de nombreux facteurs, tels que des années, processus de production de climat et de bière, V.V. Cependant, selon les statistiques, il n'y a pas de temps pour goûter une variété de vins rouges, ils estiment qu'ils peuvent évaluer la qualité du vin à travers certaines propriétés chimiques. De plus, de nombreux fabricants de bière le font en réalité, en suivant le contenu de la composition chimique dans le vin rouge, contrôlant ainsi la qualité et le goût du vin rouge.



Ainsi, comment déterminer la qualité du vin rouge?

Étape 1: Collectez beaucoup de motifs de vin rouge, organisez leurs propriétés chimiques telles que l'acidité, la teneur en sucre, la teneur en chlorure, le soufre, la teneur en alcool, le pH,Densité et plus.

Étape 2: La qualité et le niveau de vin rouge sont prédits et évalués par des plantes de régression classées.

Volume du moteur de recherche et fluctuations des prix des actions

Un papillon dans la forêt tropicale tropicale de l'Amérique du Sud, parfois quelques ailes, oui, elle peut nous causer la Teks après deux semaines de tornade SAS Etat. Votre recherche sur Internet affectera la fluctuation du cours de l'entreprise?


Dès que possible, un document prouvant que le volume de recherche des mots-clés Internet (tels que la grippe) prédire l'érection de la grippe dans une certaine zone de 1 à 2 semaines de CDC.

De même, certains érudits découvrent actuellement un tel phénomène que les changements de volume de recherche de la société sur Internet affecteront considérablement la volatilité et les tendances. Du cours des actions de la société, ce qui signifie l'attention des investisseurs. [
La théorie croit que la rechercheLa société dans les moteurs de recherche représente le niveau que les stocks liés aux investisseurs. Par conséquent, lorsqu'un stock a une augmentation de la fréquence de la recherche, les investisseurs expliqueront que l'attention des investisseurs s'est améliorée, rendant les stocks plus faciles à acheter par des investisseurs individuels, continuer à accroître les bourses d'actions, apporter le résultat des stocks. Cela a été vérifié par d'innombrables papiers.

3. Cas basés sur l'analyse de l'association: la couche de bière de Wal-Mart

Les couches de bière sont une vieille histoire très ancienne. L'histoire est comme celle-ci, Wal-Mart a trouvé un phénomène très intéressant, ce qui signifie placer des couches et des bières, les marchandises ne sont pas situées entre deux planche à voile, peuvent augmenter considérablement les ventes des deux. La raison en est que les femmes aux États-Unis prennent souvent soin de leurs enfants à la maison, alors ils achètent souvent des couches pour les enfants rentrant chez eux et leurs maris achèteront leurs boissons à boire. Bière tout en achetant des couches. Wal-Mart a trouvé ce lien à partir de données, donc deux articles étaient terminés, améliorant ainsi le village.g de ventes connexes.


Les brasseurs sont principalement liés à la corrélation entre les produits. Si une grande quantité de données indique que les consommateurs achètent un produit, ils apporteront également des produits B. Ensuite, il existe une corrélation entre A et B. Dans le supermarché, on voit souvent dans l'emballage de deux articles, est susceptible d'être la Résultat de l'analyse d'association.

4. Coques basées sur l'analyse de grappes: segment des clients de détail


Le segment du client est toujours plus populaire. La fonction de segmentation est que le groupe clientèle peut être partagé avec les membres de l'intérieur du groupe avec des similitudes, mais il existe des différences entre les groupes. Son but est d'identifier différents groupes de clients, puis de concevoir des produits et de pousser pour différents groupes de clients, d'économiser des coûts de marketing et d'améliorer l'efficacité du marketing.


Par exemple, les clients de détail des banques commerciales sont décomposés, sur la base des variables typiques des clients de détail(Caractéristiques de la population, caractéristiques de propriété, guichets, fonctionnalités de résolution), calculez la distance entre les clients. Ensuite, selon la distance de la distance, des clients similaires sont rassemblés dans une classe pour segmenter efficacement les clients. Porter tous les clients est, par exemple, des préférences financières, des intérêts sur les fonds, des préférences positives, des préférences de la dette nationales, une théorie réaliste, des options de canal.


5. Couverture arrière Sur la base d'une analyse de valeur inhabituelle: détecter la fraude de négociation en paiement


Lorsque le paiement de paiement ou le paiement par carte de crédit est payé en temps réel. Si le comportement de la carte de brosse est une brosse volée. Évaluez le temps, l'emplacement, le nom du vendeur, la quantité, la fréquence et d'autres éléments de griffes. Le principe de base en cela est de trouver une valeur inhabituelle. Si votre carte de crédit est déterminée comme une exception, cette transaction peut être terminée.


Le jugement sur une valeur inhabituelle doit être basé sur un CMême les règles de fraude. Il peut contenir deux types de règles, nommément règles de classe d'événements et règles de modèle. Premièrement, les règles de l'événement, telles que la période de Swip, sont inhabituelles (balayage tôt le matin), que la position de la carte de crédit a inhabituelle (cartes non verrouillées irrégulières), les cartes de crédit du commerçant ont des anomalies (les noueuses sont une unité commerciale), que ce soit La carte de crédit a des anomalies (qu'elle soit déviée de l'écart type des trois fois normales), que la fréquence de la carte soit réelle normalement (carte SWIFT haute fréquence). Deuxièmement, les règles de catégorie modèle sont un jugement de transactions frauduleuses via des algorithmes. En général, par paiement des données, des données du vendeur, des données résolues, le modèle de construction est déterminé.

6. Cas basés sur des filtres de coopération: le commerce électronique vous devine et suggère des outils


Guue que vous aimez, cela devrait être le plus familier. Dans Malldong Mall ou Amazon Shopping, «devinera-vous», «suivre lUtilisez votre navigation sur le Web "Achat", c'est le résultat de l'activité de moteur proposée.


j'aime beaucoup la recommandation amazonienne. Grâce à "Acheter ** produits en même temps", il trouvera souvent des livres de haute qualité et plus reconnu. En général, le commerce électronique "devine-t-on" (c'est-à-dire le moteur proposé) basé sur un filtre collaboratif, plaçant une base de règles qui répond à ses propres caractéristiques. C'est-à-dire que l'algorithme examinera les sélections et les comportements d'autres clients et créera des produits matriciels similaires et des matrices d'utilisateurs similaires sur cette base. Basé sur cela, trouvez le plus grand client ou le produit le plus pertinent, complétant ainsi la recommandation du produit.
7. Basé sur l'analyse du réseau social: Graines des clients dans les télécommunications

Les graines et les réseaux sociaux, la première apparition dans le domaine des télécommunications. C'est-à-dire à travers les enregistrements d'appels de tous, le réseau de relations peut être libéré.oe. Réseau dans les télécommunications, analyse souvent les effets des clients et des pertes de clients, augmentant ainsi les produits.


Sur la base des enregistrements d'appels, des systèmes indiciels influents du client peuvent être construits. Les indicateurs utilisés peuvent inclure un degré d'humain, de deux degrés humain, de trois degrés, une fréquence moyenne de l'appel, une communication moyenne, V.V. Sur la base de l'impact social, les résultats d'analyse montrent que des clients très influents conduiront à une perte de clientèle connexe. Deuxièmement, dans la propagation des produits, choisissez des clients d'influencer aussi haut que le point de départ de la propagation, il est facile de promouvoir la diffusion et la pénétration du nouveau paquet.

De plus, des réseaux sociaux sont situés dans la banque (réseau garantie), une assurance (fraude de gangs), en plus de nombreuses applications et affaires sur Internet (société interactive).
8. Cas basés sur l'analyse de texte

Cela souhaite principalement introduire deux cas. On est similaire à l'application "Scan King", Scanner des documents papier directement dans des documents électroniques. Je crois que beaucoup de gens l'ont utilisée et les principes sont préparés ici. D'autres sont des rivières et des lacs qui sont toujours spéculés que quatre-vingts moments de première fois et de quarante fois de villas rouges, il semble qu'il N'est-ce pas tous des mains de High Xueqin, qui est prêt à parler du coin de la statistique.















lorsque le téléphone prend Une image, il reconnaîtra automatiquement le visage et certaines applications, telles que la numérisation des rois, peuvent numériser des livres, puis basculer automatiquement la numérisation de contenu en mot. Ils appartiennent à l'identification d'image et au caractère d'identification. Identifier l'image plus complexe et l'identification du caractère est facile à comprendre. Trouvez des nouvelles de Pine, principes d'identification du caractère comme suit: Première étape: image de caractère miniature à la taille de pixels standard, par exemple 12 * 16. Notez que les images incluent des pixels et l'image de caractère de clé se compose de deux pixels noirs et blancs. Étape 2:Extraire le vecteur caractéristique des caractères. Comment extraire les caractéristiques des caractères, appliquez un organigramme à double sens. Il est de projeter le caractère (carte 12 * 16 pixels) aux directions horizontales et verticales. Il y a 12 dimensions dans la direction horizontale et il y a 16 dimensions verticales. De cette manière, le numéro de pixel noir s'accumule dans chaque pixel dans chaque rangée de pixels dans la direction horizontale et le numéro de pixel noir sur chaque colonne de pixel dans chaque colonne de pixels correspondante calculée. Par conséquent, les vecteurs de vecteur typiques de 12 dimensions dans la direction horizontale sont obtenus et les vecteurs de vecteur caractéristiques de 16 directions verticales sont dimensionnelles. Cela forme un vecteur de caractéristiques de caractère de 28 voies. Étape 3: Basé sur le caractère de la fonctionnalité Vectoriel, le caractère et la classification valide sont déterminés en apprenant des réseaux nerveux. Travaux et statistiques littéraires: Mansions Red Dreams C'est un débat très célèbre et déraisonnable. Pour le rêve de la villa rouge, souvent considéré comme 80 roundsLe premier est élevé Xueqin et les quarante dernières tours sont écrits. En fait, le problème principal consiste à déterminer s'il existe une différence significative dans les 80 premiers tours et les 40 derniers tours. Il est plus intéressant de créer un groupe de statistiques. Certains érudits ont été évalués par des noms statistiques, des verbes, des adjectifs, des mots, des systèmes virtuels et associés entre différents mots. Certains chercheurs évaluent avant et après l'évaluation par des mots virtuels (par exemple, soit, y , M. différence. Certains érudits ont donné des critiques statistiques à travers des scènes (fleurs, arbres, régimes, médicaments et poésie). Templain, il est Principalement quantifié par certains indicateurs, puis il existe une différence significative entre les indicateurs de comparaison, faisant ainsi un jugement de style d'écriture.

Sujets

Catégories