Comment évaluer l'algorithme

Premièrement, Open

Évaluation des bons ou mauvais algorithmes, je pense que la clé est de voir si je peux résoudre le problème ou non. Si l'algorithme peut résoudre le vrai problème réel, je pense que c'est un bon algorithme. Par exemple, l'algorithme devrait visualiser la précision de la prévision, c'est-à-dire la proximité entre la valeur prédictive et la valeur réelle, pas l'algorithme le plus élevé.

Dans l'article "Comment utiliser des prévisions d'intelligence artificielles", à l'aide d'algorithmes de régression linéaire, je prédis que les transactions numéro 11 sont de 247,1 milliards de yuans en 2019 et ali en fait le volume commercial d'annoncé officiellement annoncé est 26,84 milliards de yuans. La valeur prédit moins de 7,9% par rapport à la valeur réelle. Pour ce résultat, je pense que la précision n'est pas assez élevée. Réfléchir le processus de prévision, je pense que cela peut être amélioré des aspects suivants.
pour simplifier le modèle d'algorithme, j'ai supprimé des donnéesU relativement petit l'année précédente, seulement 5 ans de données.

En cas de moins de données, je suivez toujours des principes simples, cette invisible augmente le risque d'algorithmes instables, a un problème complet.

Bien que le score de l'algorithme soit élevé, le score ne signifie pas que l'algorithme est bon. Par conséquent, le choix de l'échantillon est très important et le score de l'algorithme ne peut pas être poursuivi et la qualité de l'échantillon est ignorée.
Mardi, algorithme
Si tous les échantillons sont conservés, la loi sur la présence de données n'est pas linéaire et la régression d'algorithme de nombreux éléments doit être un meilleur choix.

Si la prévision de trois algorithmes de régression de nombreux éléments, le code d'algorithme est le suivant:

# Entrez l'entrée de la bibliothèque souhaitée due à la NPPY importée au Japon importé au Japon Matplotlot PLT de Sklearn. Lineear_model Entrer dans la route Lonearrion depuis Sklearn.Preffecinging Enter PolynomialFeatures de Sklearn.PIPEline entrée standard dans le tuyau d'entrée # de Sklearn.pre Type de poignée% Matplotlotlin Inline # Paramètres Normal Affichage onglet Chine plt.rcparams ['font.sans-Serif'] = ['SIMHEI'] # Lire les données, répondez "1111" df = pd.read_excel dans le compte public de Lin Wei (". /Data/1111.xlsx") # x année x = np.array (df.iloc [:, 0]). Relèvement (-1, 1) # Y = np.array (DF.ILOC [:, 1]) # Z Année prédire Z = [2019] # 的的的的的的的的的的的的的的的的的的的的的的的的的的的, ('Lin_reg', linéarregrression ())]))))))))))))))) transactions est ', STR (prédire [0], 0)),' milliards. ') Imprimer (' Evaluation de l'algorithme de régression linéaire: ', poly_reg .score (x, y))

Prédire le volume de trading Double 11 en 2019 était de 268,9 milliards de yuans.

Compression des points de revenuLinéaire: 0,99939752363314
Ce qui suit est le dessin du code avec matplotlib:
# # 将将, réglez la taille de l'image FIG = PLT.FIGURE (FigSize = (10, 8)) Ax = fig.Add_subplot (111) # Dessinez un point dispersé d'AX.Satter éparpillé (x, y, couleur = '# 0085c3', S = 100) ax .Catiser (z, prédiction, couleur = '# DC5034 ', marqueur =' * ', S = 260) # Set étiquettes et autres plt.xlabel (' Five ', Fontsize = 20) Plt.ylel (' double 11 transactions ', Fontize = 20) Plt.tick_Params # Draw Predictive Line x2 = np.concaténate ([x, z]) y2 = poly_reg.preddict (x2) plt.plot (x2, y2, ',', c = '# 7ab800') plt.title ("L'utilisation de la régression polynomiale est deux fois la Nombre de transactions 11, FontSize = 26) PLT.SHOW ()
Données presque confrontées de 2009, donc cela ne peut pas être le doute, les données d'Ali sont trop parfaites?
4, optimisé
selon le processus d'algorithmeNG, les données doivent être divisées en deux parties, appelées ensembles de données et ensembles de données de test, respectivement. De 2009 à 2018, le volume de trading était deux fois les 10 données talentueuses 10, j'ai regardé les 5 premières données lors de la prévision et finalement seulement 5 données, je pense qu'il est inutile. Cependant, la performance des algorithmes de machines est bonne, ayant un élément principal, qui est suffisamment de données.

De plus, la méthode de recherche de maillage, les paramètres de l'algorithme doivent être utilisés de manière appropriée. Si nécessaire, il est nécessaire de combiner des méthodes de certification croisées pour effectuer l'évaluation de l'algorithme, améliorant ainsi le prestige de l'algorithme et de la précision. Outre la précision de l'algorithme, d'autres méthodes peuvent également être utilisées pour évaluer le modèle, tel que le taux de récupération, la F1, le ROC, l'AUC, MSE, RMSE, MAE et les mêmes.

Le monde réel est compliqué, il est difficile de résoudre des problèmes d'algorithmes, il est souvent nécessaire de suivre de nombreux efforts pour trouver un modèle de mise en conformité de base. Besoin de noter queL'indice de régression polynomiale ne doit pas être trop élevé, sinon les règles sont compliquées, il a la capacité d'apparaître "largement", de sorte que la capacité de généraliser est relativement médiocre, elle est de creuser des ensembles de données créatrices peut toutefois, conformément à , il est relativement important pour l'erreur de prédiction du jeu de données de test.La relation approximative entre la complexité du modèle et l'erreur de prédiction est indiquée ci-dessous:

Sujets

algorithme

Catégories

Apprentissage automatique