Analyse des données Python: analyse de la classification

Dans le terme langage d'apprentissage, la classification est considérée comme un exemple de surveillance de l'apprentissage, c'est-à-dire apprendre à obtenir une trousse de formation appropriée identifiée. La procédure surveillée correspondante est appelée clustering et liée aux paquets de paquets en fonction de mesures similaires ou de distance inhérente.

Habituellement, chaque résultat d'observation a été analysé en tant que groupe de propriétés perturbées, appelées variables d'interprétation ou caractéristiques. Ces propriétés peuvent être classées (par exemple, "A", "B", "AB" ou "O", pour le type sanguin), commander (par exemple, ", " ou "" ou "petit"), l'original Valeur (par exemple, le nombre d'apparitions de mots spécifiques dans l'e-mail) ou des valeurs réelles (telles que la mesure de la pression artérielle).

Les algorithmes de classification, en particulier dans des implémentations spécifiques, sont appelés classification. Le terme " Classification «Parfois également mentionné une fonction mathématique déployée par un algorithme de classification en mappage de données d'entrée dans une catégorie.

Les conditions croisées du domaine sont modifiées. Dans les statistiques, la régression logique ou des programmes similaires sont souvent classés et les attributs observés sont appelés variables de traduction (ou variables indépendantes, retours) et que l'élément sera prévu soit appelé lien et il est considéré comme une variable pouvant être valide. Dans l'apprentissage de la machine, les observations sont souvent appelées par exemple, les variables de traducteurs sont appelées fonctionnalités (sous-catégorie comme vecteurs d'entités) et les catégories peuvent être prévues pour être de classe. D'autres domaines peuvent utiliser des termes différents: par exemple, dans l'écologie de la communauté, les termes «classification» sont souvent appelés analyse de grappes, ce qui signifie, non pas une étude de surveillance des tissus décrit ici.

Algorithme de classification générale:

Algorithmes de classification générale comprenant des baies Simple, une régression logique, des arbres de décision, des forêts aléatoires, une machine de vecteur de support.

Écritures et analyse:

Pour classer:

Les principales scènes d'utilisation et de tri sont "prédites, sur la base de la nouvelle liste d'échantillons basée sur des échantillons existants. Par exemple, les cotes de crédit, les niveaux de risque, les prévisions de la fraude, etc. Comme une partie importante de l'identification de l'échantillon, largement appliquée à la traduction automatique, Reconnaissance du visage, diagnostic médical, identification de caractères manuscrite, identification d'image, reconnaissance vocale, champs de champ de reconnaissance vidéo; algorithmes de classification peut également être utilisé pour exploiter les connaissances et les lois potentielles constatées dans le modèle pour aider les entreprises à obtenir des règles d'exécution.

Raffiner les règles de l'application:

Fourniture de règles de transfert de données et la principale direction d'application de l'analyse de la classification
Scénario d'application générale:

Faire des membres du silence à réactiver, ce qui devrait être choisi de figurer sur

publicitaire

ces annoncesPlus approprié pour les marchands VIP

Les règles raffinées sont utilisées pour créer des règles d'algorithmes de classification.

Des caractéristiques de l'importance d'un grand nombre de variables d'entrée, certains éléments de pesage sont supérieurs à la demande principale de une analyse de classification. C'est un moyen important de contraster de données et de dropwors de données. Obtenez l'ensemble de données d'origine et les données pré-traitées, puis définissez les données placées dans l'algorithme de classification pour former, puis extraire des informations de poids caractéristiques dans le modèle d'ordinateur.

Traitement des valeurs manquantes:

Prédire l'école est manquant sous la forme de variables cible, il peut donc obtenir des valeurs possibles.

Sélection d'algorithmes d'analyse de la classification: La plupart utilisés dans la classification de texte sont de simples baies

Petit kit d'entraînement. Puis choisissez Haute déviation et l'algorithme de classification a de nombreuses différences KÉmé, comme des baies simples, des machines de vecteur de support, ces algorithmes ne sont pas faciles à adapter.

Le kit d'entraînement relativement important et le type de méthode sélectionné n'affecteront pas de manière significative le niveau commun

Choisir un vecteur de support, n'utilisez pas le réseau de neurones

Précision des algorithmes Choisissez des algorithmes de haute précision, tels que des vecteurs de support, des forêts aléatoires.
Je souhaite obtenir la probabilité des résultats des prévisions, à l'aide de la régression logique
pour nettoyer la règle de décision, à l'aide d'arbres de décision
Algorithme de décision Python
Entrez enclume sous la forme de NP
Entrez le panda comme PD
de sklearn.model_selection Saisie de Train_Test_split

de Sklearn.tree importé Maniontreeclasificateur, Export_Graphviz

# MODULE EXPORTATION Avis
De Sklearn.Metrics Entrez Accuracy_Score, AUC, Locuer_Matrix, F1_Score, Precision_Score, Recall_score, Roc_Curve
# Exemple d'importation de bibliothèque
Ivort Prettyable
# Entrez la bibliothèque de plug-in DOT
est PLT

importé la mer comme SNS

# Entrer Data
DF = pd.read_csv ('https://raw.githubusercontent.com / ffz / ffz / ffzs /glass.csv', usecols = ['na', 'ca', "type"] )

V # Pour décider de la carte des arbres, nous devrions réduire la classification et les caractéristiques des minorités
DFS = DF [DF.TYPE & LT; 3]

# 获取代

x = dfs [dfs.columns [: - 1]values

# 获取

y = dfs ["type" ]. Valeur - 1

# Réglez les données 37 sur le kit de test SET
x_train, x_test, y_train, y_test = train_test_split (x, y, test_size = 0.3, aléatoire_state = 2018)
###

# Modèle CCette décision

dt_model = maningtreeclasificateur (Random_state = 2018)

[Modèle de formation
DT_Model.fit (x_train, y_train)

# 预测试

pré_y = dt_model.predict (x_test)

#### Note Modèle ###

# 混淆 Matrix

fiabilité_m = Lampusus_matrix (Y_TEST, PRE_Y)

DF_CONFUSIGE_M = PD.DataFrame (fiabilité_m, colonne = ['0', '1'], index = [0 ',' 1 ']

df_confusion_m.index.name = 'Real'
DF_Confusion_M.Columns.Name = "prédit"

]
# 获获获

Y_SCORE = DT_MODEL.PREDICT_PROBA (X_TEST)

# ROC

FPR, TPR, Seuil = ROC_CURVE (Y_TEST, Y_SCORE [:, [1]) # AUC

AUC_S = AUC (FPR, TPR)

# Précision

# Précision ] Acuracy_s = Accuracy_score (Y_TEST, PRE_Y)

Precision_s = Precision_Score (Y_TEST, PRE_Y)

# 率

Recall_s = Recall_score (Y_TEST, PRE_Y)
# F1 Points

F1_s = F1_Score (Y_TEST, PRE_Y)

# Tableau de données nominal

DF_metrics = pd.dataframe ([[AUC_S, PRÉCISION_S, RECALL_S, F1_S], les colonnes] ['AUC', "Précision", "Précision", "Rappel", "F1"], Index = "Résultats"]

] #### Visualiser roc ##### Plt.figure (figsize = (8, 7)) PLT. Terrain (FPR, TPR, étiquette = 'ROC') # 画 C PLT.PLOT ([0, 1], [0, 1], LINESTYLLE = '-', COLOR = 'K', étiquette = 'Cours') PLT.TITLE ('ROC') # 网 PLT .XLABEL («Taux positif») # Titre X Axe ] PLT.YLAEL («Taux réel positif») # Y - Hauteur axial PLT.LGEND (LOC = 0) ### sauvegarder les décisions cosmé map est pdf #### # décisions de code pour créer des objets pointillées dot_data = express_graphviz (dt_model, max_depth = 5, atift_names = dfs.columns [: - 1], true = TRUE, ROUDED = TRUE) # Suppression de règles d'arbre de décision en graphiques Graph = pydotplus.graph_from_dot_data (dot_data) # Sauvegarder les règles d'arbre de décision sous forme de fichier PDF Graph.write_pdf ('Tree.PDF') Graph.write_jpg ('xx .jpg') DÉCISION DES INFORMATIONS DE L'ARBRE: GINI est un indice de Kini selon les règles actuelles, NSamples est identique à la touche actuelle Nvalue est un volume d'échantillon Matrix à tort La classification est correcte: "Vrai positif, TP): Original est un cas précis, classé dans un champP exactement. True négative, TN): Initialement, c'est un exemple négatif. Indique une erreur de classification: Sai Duong, FP): initialement un exemple négatif, classé dans un cas précis. Faux négatifs, FN): L'original est un cas précis, classé dans un exemple négatif. Expliquez l'indice d'évaluation: AUC_S: AUC (zone sous courbe), zone sous la courbe ROC. Les courbes ROC sont généralement situées sur y = x. AUC varie donc de 0,5 et 1. AUC plus grand, ainsi que possible. Précision_s: Précision) / (TP + Fn + FP + TN), plus la plage de valeurs est grande [0, 1], plus la valeur est grande, plus la classification est précise les plus précises. Précision_s: précis, les résultats prévus du modèle de classification prédisent souvent le taux positif, la formule est la suivante: P = TP / (TP + FP), la plage de valeurs [0, 1], plus la valeur est grande, le tri les résultats sont plus précis. Rappel_s: Rappel de rappel, Résultats prédictifs du modèle de tabouretLe type est prévu d'être exactement le rapport total du total total, la formule est la suivante: R = TP / (TP + FN), a une plage de valeurs [0, 1], plus la valeur la plus grande, plus la classification entraîne la plus précise. cadavres. F1_S: Point F1 (point F), le niveau de mesure moyen de la précision et de la fréquence de récupération, la formule est la suivante: F1 = 2 * (P * R) / (P + R), valeurs PHAM VI [0, 1], plus la valeur est grande, les résultats de tri plus précis sont corrects.

Sujets

algorithme

Catégories

Outils de données