Cargaison pure: Processus de données de données Terminez le processus d'analyse de données (cas complet) (ON)

Depuis que l'analyse micro-émotionnelle Sina de l'auteur est une société d'analyse sémantique dans le domaine des données sociales principales, il n'est pas possible de transférer les scénarios d'application réels de nombreuses analyses sémantiques de données importantes à partir de postes d'analyse de données vers des produits de données. Ainsi, l'auteur présentera un certain nombre d'expériences dans le travail, impliquant un ensemble d'analyses de processus à partir d'une acquisition de données, d'un nettoyage des données, d'une analyse des données à la visualisation des données et de montrer clairement la puissante puissance de l'analyse de données externe.. Ce qui suit est un cadre d'écriture dans cet article:

Principe d'analyse: Pourquoi choisir le tigre reniflant dans le L'ère Internet des données d'aujourd'hui, la qualité de l'information est mitigée et nous ne sommes pas en vigueur pour être dans le "Torrent d'information" des médias sociaux sur Internet. Il n'existe donc aucune information inévitable inondée par celle-ci. "Envelopper, c'est-à-dire Les informations sur les médias sociaux ont un impact majeur sur tout le monde dans le monde réel. Les médias sociaux sont une fenêtre que nous comprenons indirectement le monde réel et le monde subjectif, nous sommes tous soumis à chaque instant. Son influence. Pour "Médias sociaux", veuillez vous reporter à "Marchandises à sec | Comment utiliser l'écoute sociale du" raffinage "" Raffinage "dans les médias sociaux?", Le contenu suivant est également tiré de cet article:
Deux types de situations complètes peuvent tirer de telles conclusions, à travers les médias sociaux, nous pouvons observer le monde réel:

Par conséquent, le social Les médias sont un miroir du monde du monde réel, et cela affectera davantage le comportement des gens. Si nous analysons les informations publiées par des médias de qualité dans ce domaine, en plus de comprendre le processus de développement et le statut de ce champ, cependant, il est également possible. effectuer un certain pré-jugement de personnes dans ce domaine. Compte tenu de cette situation, l'auteur du praticien-Internet veut analyser une partie du statu quo de l'industrie Internet, la première étape consiste à trouver des médias d'influence importants sur Internet.

Le réseau de ronflement du tigre a été fondé en mai 2012, il s'agit d'une nouvelle plate-forme média d'agrégation de l'innovation de qualité et de la foule. La plate-forme se concentre sur la contribution à des informations commerciales originales, profondes, de qualité et de qualité et à des échanges autour de l'entrepreneuriat innovant. Le noyau du Tiger Net est de faire attention à l'intégration de l'Internet et de l'industrie traditionnelle, une série d'étoiles, y compris des entreprises publiques et des entreprises entrepreneuriales, la force motrice et la tendance des marées industrielles.

Par conséquent, le contenu de la publication sur la plate-forme est analysé et il existe une certaine valeur réelle pour étudier le processus de développement et le statu quo d'Internet.

1.2 Le but de ce document

L'analyse principale de l'analyse de ce projet:

(1) Plusieurs analyses du fonctionnement du contenu de Tiger Sniffness, principalement pour des problèmes, des collections, des commentaires, etc. Analyse descriptive; ] (2) Analyse amusante de certaines personnes, entreprises et zones subdivisées de l'industrie Internet;
(3) Explaction d'excavation de texte dans les données La valeur pratique sur le terrain;
(4) visualisent les données structurées non commandées et les données non structurelles pour montrer la beauté des données.
Selon cet article, l'outil d'analyse de données utilisée par l'auteur est le suivant: Python3.5.2 (Langage de programmation)
Scikit-Apprendre (clustering et classification)

KERAS (cadre d'apprentissage de profondeur)
TENSORFLOW
JIEBA (mot et extraction de mots-clés)
Excel (visualisation)
Seaborn (visuel)
Sina Wei (analyse de la semanition émotionnelle)
Prétraitement de l'acquisition et du texte de données

L'auteur a utilisé le robot pour collecter du tigre l'article de la page d'accueil (Tous les articles, mais les informations figurant sur la page d'accueil sont la sélection éditoriale, très représentative), l'intervalle de temps d'acquisition de données est 2012.05 ~ 2017.11, un total de 41 121. Champs collectés, temps de publication, collection, commentaires, contenu corporel, auteurs, auteurs, auteurs, émis un document, puis extraire artificiellement 4 caractéristiques, principalement caractéristiques de temps

2.2 Prétraitement de données

Mode complet: Numérisez tous les mots de la phrase, très rapide, mais ne peut pas résoudre l'ambiguïté;

"Mode moteur de recherche": Swong, ministère

Afin d'éviter toute ambiguïté et de couper des mots répondant aux effets attendus, l'auteur prend un mode précis (mot).

Symbole cible: ,. ! /, * + -

Symbole spécial: ❥❥ ♋☮✌☏☢☠ ♋☮✌☏☢☠ ▲ ▲ ▲ ♪ et al

Word sans signification: "Le", "A" "Ann" ," vous "," i "," ils "," veux "," Ouvrir "," Ouvrir "," Can ", etc.

Dans cette section, l'auteur décrit principalement l'analyse statistique des données numériques, qui appartient à une analyse de données relativement classique, qui peut révéler Sur certains problèmes , le faire, 4 types d'analyse de données, s'il vous plaît se référer à « Mercerie | qUALIFIÉE » hacker de croissance «il faut faire attention à l'analyse des données externes! »

Comme on peut le voir sur la figure, au cours de la 2012,05 ~ 2017,11, dans l'unité trimestrielle, page d' accueil Le nombre d'essais ne fluctuaient pas, fluctuant et baisse en valeur moyenne 1800, et après 2016, le nombre de questions est considérablement amélioré.

La figure suivante est le changement de la collecte et de la quantité de commentaires dans la période de temps. Les changements dans le commentaire ne sont pas chauds, l'ondulation n'est pas forte, mais la collection a grimpé, en particulier dans Le deuxième trimestre de 2017 atteint le sommet. La collection reflète le degré et la valeur des articles dans une certaine mesure, les lecteurs pensent que des articles précieux réserveront et collecteront, en savoir plus, y compris Yinguhua, cela montre que la qualité des articles de tigre s'améliore constamment ou les lecteurs le nombre augmente.

la figure ci - dessus est une carte thermique la couleur de la couleur de bloc de couleur est plus grande que la plus grande. De toute évidence, il y a une région de couleur significative au milieu, à savoir le "lundi ~ vendredi" et "lundi ~ vendredi", c'est-à-dire que le temps d'émission est principalement concentré dans la journée.. En outre, au cours du lundi au vendredi, cette fois la période de temps est le pic du texte, ce qui indique que le contenu du tigre aura tendance à publier un article en début de matinée de la journée de travail, ce qui est également conforme à sa population positionnement -Le champ TMT est employé, entrepreneurs, investisseurs, nombre d'entre eux ont l'habitude de lire le matin, j'aime lire des messages de renifler Tiger dans le processus de conduite du métro. À 21 h 00, ce pic est de répondre à la lecture de la pause déjeuner du lecteur et de 17h00 à 18 ans et lisez le lecteur pour descendre du travail.

(des bulles circulaires ont été remplacées par des étoiles hexagonales, mais essentiellement de bulles).

Dans la figure ci-dessus, l'axe horizontal est le nombre d'articles, l'axe vertical est le mot de titre, le nombre de commentaires est reflété par la taille et la couleur de l'étoile hexagonale, la couleur est Plus chaud, la plus grande valeur, les cinq coins les plus grandes de l'étoile, plus la valeur est grande. Comme on peut le voir à partir de ce chiffre, il existe un grand article avec un grand nombre d'examens, dont la plupart sont distribués dans une région composée de 6 000 mots et mots de titre dans le mot title. Le ronflement de Tiger Snoring Online Information commerciale L'article a des caractéristiques originales, profondes, au milieu de l'article, signifie qu'il peut effacer le dragon au dragon derrière des objets, et le titre doit être attrayant, provoquant un grand nombre de lecteurs, des en-têtes de longueur appropriés et des textuelles Peut le faire.

Plan

Notez que la valeur de la figure ci-dessus est identique à la figure précédente et la couleur de la couleur au froid indique la valeur de la valeur du grand à petit, en tournant chaque dimension , on peut le voir. Au nombre de collections et de critères, le nombre de collections et de commentaires formés par le nombre de collections et le nombre de critères dans le nombre de mots dans le nombre de mots, les collections et les commentaires ici sont les plus importants .

Le résultat est plus que le résultatC'est plus en ligne avec le bon sens, et le nombre de désignations des villes de premier niveau du Nord est le plus important, ils constituent la forte ville du développement de l'industrie Internet. Il convient de noter que la grande zone de bloc du Delta de la rivière Yangtze (le groupe de la ville de la rivière Yangtze, qui comprend Shanghai, la province de Jiangsu, Wuxi, Changzhou, Suzhou, Nantong, Yancheng, Yangzhou, Zhenjiang, Taizhou, Zhejiang, Chine , Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Zhejiang, Zhejiang Province Jiaxing, Huzhou, Shaoxing, Jinhua, Zhoushan, Taizhou, Anhui Province, Hefei, Wuhu, Maanshan, Tongsling, Anqing, Zhangzhou, Chizhou, Xuancheng, a montré une valeur thermique plus élevée et illustre directement ces villes à renifler toutes sortes de nombreuses mentions dans l'article d'information, combinées à des politiques nationales et à des facteurs régionaux, peuvent comprendre ce fait que la carte reflète sur la carte:

Changda City Group est "une ceinture tout le chemin" et la ceinture économique de la rivière Yangtze L'intersection importante a un statut stratégique fort dans la modernisation nationale de la Chine et le schéma ouvert tout autour. La plate-forme importante de la Chine pour participer à la concurrence internationale, un moteur important pour le développement économique et social est la principale zone de développement du groupe économique de la rivière Yangtze, l'une des meilleures régions de l'urbanisation de la Chine.

Ensuite, l'auteur extrait

Dessinez les résultats ci-dessus dans les résultats suivants Carte du débit dynamique:

En raison de la plupart des articles du tigre, il existe principalement des articles sur l'entrepreneuriat, les politiques et le contenu commercial, et donc la coexistence entre cette ville. La relation reflète la relation entre l'intercité entre ressources, le personnel ou des industries. Dans cette carte dynamique, il est principalement reflété dans la relation de flux mutuel entre le nord de Guangshen Hang (noeud de réseau) et ces villes de premier niveau scénario de flux aller-retour dans la ville du Midwest. La quantité de flux est grande et la zone intense est sans aucun doute le groupe urbain le plus développé de la Chine et plusieurs autres groupes urbains émergents:

Beijing-Tianjin-Hebei City

Analyse des données de la tournée médiane de la rivière Yangtsé C'est une analyse descriptive basée sur des données numériques. Ensuite, l'auteur fera une excavation de texte plus profonde.

Sujets

Les données

Catégories

Produit de données