Skip to main content

Depuis que l'analyse micro-émotionnelle Sina de l'auteur est une société d'analyse sémantique dans le domaine des données sociales principales, il n'est pas possible de transférer les scénarios d'application réels de nombreuses analyses sémantiques de données importantes à partir de postes d'analyse de données vers des produits de données. Ainsi, l'auteur présentera un certain nombre d'expériences dans le travail, impliquant un ensemble d'analyses de processus à partir d'une acquisition de données, d'un nettoyage des données, d'une analyse des données à la visualisation des données et de montrer clairement la puissante puissance de l'analyse de données externe.. Ce qui suit est un cadre d'écriture dans cet article:


Principe d'analyse: Pourquoi choisir le tigre reniflant dans le L'ère Internet des données d'aujourd'hui, la qualité de l'information est mitigée et nous ne sommes pas en vigueur pour être dans le "Torrent d'information" des médias sociaux sur Internet. Il n'existe donc aucune information inévitable inondée par celle-ci. "Envelopper, c'est-à-dire Les informations sur les médias sociaux ont un impact majeur sur tout le monde dans le monde réel. Les médias sociaux sont une fenêtre que nous comprenons indirectement le monde réel et le monde subjectif, nous sommes tous soumis à chaque instant. Son influence. Pour "Médias sociaux", veuillez vous reporter à "Marchandises à sec | Comment utiliser l'écoute sociale du" raffinage "" Raffinage "dans les médias sociaux?", Le contenu suivant est également tiré de cet article:
Deux types de situations complètes peuvent tirer de telles conclusions, à travers les médias sociaux, nous pouvons observer le monde réel:

Par conséquent, le social Les médias sont un miroir du monde du monde réel, et cela affectera davantage le comportement des gens. Si nous analysons les informations publiées par des médias de qualité dans ce domaine, en plus de comprendre le processus de développement et le statut de ce champ, cependant, il est également possible. effectuer un certain pré-jugement de personnes dans ce domaine. Compte tenu de cette situation, l'auteur du praticien-Internet veut analyser une partie du statu quo de l'industrie Internet, la première étape consiste à trouver des médias d'influence importants sur Internet.

Le réseau de ronflement du tigre a été fondé en mai 2012, il s'agit d'une nouvelle plate-forme média d'agrégation de l'innovation de qualité et de la foule. La plate-forme se concentre sur la contribution à des informations commerciales originales, profondes, de qualité et de qualité et à des échanges autour de l'entrepreneuriat innovant. Le noyau du Tiger Net est de faire attention à l'intégration de l'Internet et de l'industrie traditionnelle, une série d'étoiles, y compris des entreprises publiques et des entreprises entrepreneuriales, la force motrice et la tendance des marées industrielles.

Par conséquent, le contenu de la publication sur la plate-forme est analysé et il existe une certaine valeur réelle pour étudier le processus de développement et le statu quo d'Internet.

1.2 Le but de ce document

L'analyse principale de l'analyse de ce projet:

(1) Plusieurs analyses du fonctionnement du contenu de Tiger Sniffness, principalement pour des problèmes, des collections, des commentaires, etc. Analyse descriptive; ] (2) Analyse amusante de certaines personnes, entreprises et zones subdivisées de l'industrie Internet;
(3) Explaction d'excavation de texte dans les données La valeur pratique sur le terrain;
(4) visualisent les données structurées non commandées et les données non structurelles pour montrer la beauté des données.
Selon cet article, l'outil d'analyse de données utilisée par l'auteur est le suivant: Python3.5.2 (Langage de programmation)
Scikit-Apprendre (clustering et classification)
  • KERAS (cadre d'apprentissage de profondeur)
  • TENSORFLOW
  • JIEBA (mot et extraction de mots-clés)
  • Excel (visualisation)
  • Seaborn (visuel)
  • Sina Wei (analyse de la semanition émotionnelle)
  • Gephi (visualisation du réseau)
  • tracé
  • Utilisation de l'outil d'analyse de données ci-dessus, l'auteur Technology: La première catégorie est plus conventionnelle, une analyse statistique de la description des données numériques, telles que la lecture, la collecte, etc. dans les dimensions de temps; L'autre est au centre de cet article - Exploitation de texte profonde, y compris l'extraction de mots-clés, l'analyse de modèle de thème LDA, l'analyse de mot vectoriel / l'analyse de texte associée, le modèle ATM, la carte de diffusion de vocabulaire et l'analyse de cluster de mots.
  • Prétraitement de l'acquisition et du texte de données
  • 2.1 Acquisition de données

    L'auteur a utilisé le robot pour collecter du tigre l'article de la page d'accueil (Tous les articles, mais les informations figurant sur la page d'accueil sont la sélection éditoriale, très représentative), l'intervalle de temps d'acquisition de données est 2012.05 ~ 2017.11, un total de 41 121. Champs collectés, temps de publication, collection, commentaires, contenu corporel, auteurs, auteurs, auteurs, émis un document, puis extraire artificiellement 4 caractéristiques, principalement caractéristiques de temps

    (point de temps et semaine de quelques-unes) et Caractéristiques de la longueur du contenu (Le numéro de mot de titre et le nombre d'articles), les données résultantes sont indiquées ci-dessous:

    2.2 Prétraitement de données

    Données Analyse / Mining Champ A Jinke Yuqi: "ordures dans, déchets", faisant un prétraitement de données, est essentiel à la réalisation des résultats d'analyse idéaux. La réglementation des données de ce document est principalement nettoyée avec des données texte. L'entrée de traitement est la suivante:
    Pour effectuer une minière texte, le mot est l'étape la plus critique, Cela affecte directement les résultats d'analyse ultérieurs. L'auteur utilise Jieba pour distinguer le texte, il dispose de 3 types de mode de distorsion, de mode complet, de mode précis, du mode moteur de recherche:
    Mode exact: essayez de couper la phrase la plus précis, une analyse de texte appropriée ;

    Mode complet: Numérisez tous les mots de la phrase, très rapide, mais ne peut pas résoudre l'ambiguïté;

    Mode de recherche de la recherche: Fondation en mode précis sur la tige, les mots longs sont à nouveau séparé, et le taux de rappel est amélioré et convient au mot de la recherche de moteur de recherche.
    Prendre la "application d'application microscopique Sina" à titre d'exemple, les résultats des trois types de modes de mots sont les suivants:
    • "Mode complet": sworm /舆 舆 / 新 新 / / / Focus / / Socialisation / Big Data / Social Big Data / / Socialisation / Application
    • "Modes précis": Sina Weimen / Focus / ABU / ABU / ABU / Données de socialisation / Application
    • "Mode moteur de recherche": Swong, ministère
    • Afin d'éviter toute ambiguïté et de couper des mots répondant aux effets attendus, l'auteur prend un mode précis (mot).

        (2) Désactivez le mot
      • Ici, les mots de désactivation comprennent les trois catégories suivantes:
      • Symbole cible: ,. ! /, * + -
      • Symbole spécial: ❥❥ ♋☮✌☏☢☠ ♋☮✌☏☢☠ ▲ ▲ ▲ ♪ et al

        Word sans signification: "Le", "A" "Ann" ," vous "," i "," ils "," veux "," Ouvrir "," Ouvrir "," Can ", etc.

        (3) Retirez la fréquence élevée, Mots rares et calculer les bigrams
          Retirez la fréquence élevée, le mot rare est destiné aux modèles thématiques suivants (LDA, ATM)Pour l'utilisation, il est surtout d'éliminer le vocabulaire du problème du sujet, et enfin obtenir l'effet similaire au mot de désactivation.
        • bigrams est de détecter automatiquement les nouveaux mots dans le texte, basé sur le vocabulaire - relation basée - Si les deux mots sont souvent adjacents, les deux mots peuvent être combinés en un nouveau mot, comme « données », « Product manager « apparaît souvent dans les différents paragraphes, puis » données _ chef de produit » est un nouveau mot synthétisé à la fois, et il est non seulement la ligne suivante entre les deux.
        • Troisièmement, l' analyse descriptive
        • Dans cette section, l'auteur décrit principalement l'analyse statistique des données numériques, qui appartient à une analyse de données relativement classique, qui peut révéler Sur certains problèmes , le faire, 4 types d'analyse de données, s'il vous plaît se référer à « Mercerie | qUALIFIÉE » hacker de croissance «il faut faire attention à l'analyse des données externes! »

          3.1 L' évolution du nombre de commentaires et collection

          Comme on peut le voir sur la figure, au cours de la 2012,05 ~ 2017,11, dans l'unité trimestrielle, page d' accueil Le nombre d'essais ne fluctuaient pas, fluctuant et baisse en valeur moyenne 1800, et après 2016, le nombre de questions est considérablement amélioré.

          En outre, une (deuxième saison en 2012) (le quatrième trimestre de 2017) était complètement complète. Le nombre de problèmes était plus petit.

          La figure suivante est le changement de la collecte et de la quantité de commentaires dans la période de temps. Les changements dans le commentaire ne sont pas chauds, l'ondulation n'est pas forte, mais la collection a grimpé, en particulier dans Le deuxième trimestre de 2017 atteint le sommet. La collection reflète le degré et la valeur des articles dans une certaine mesure, les lecteurs pensent que des articles précieux réserveront et collecteront, en savoir plus, y compris Yinguhua, cela montre que la qualité des articles de tigre s'améliore constamment ou les lecteurs le nombre augmente.


          3.2 Analyse loi plénière Les extraits de l' auteur "Semaine" et l' information "temps" des dimensions de temps, qui est, l'extraction des "caractéristiques artificielles", maintenant nombre d'articles distribués dans « semaine » et « Time » sur « semaine » et analyse croisée « Time », obtenez l'image suivante:

          la figure ci - dessus est une carte thermique la couleur de la couleur de bloc de couleur est plus grande que la plus grande. De toute évidence, il y a une région de couleur significative au milieu, à savoir le "lundi ~ vendredi" et "lundi ~ vendredi", c'est-à-dire que le temps d'émission est principalement concentré dans la journée.. En outre, au cours du lundi au vendredi, cette fois la période de temps est le pic du texte, ce qui indique que le contenu du tigre aura tendance à publier un article en début de matinée de la journée de travail, ce qui est également conforme à sa population positionnement -Le champ TMT est employé, entrepreneurs, investisseurs, nombre d'entre eux ont l'habitude de lire le matin, j'aime lire des messages de renifler Tiger dans le processus de conduite du métro. À 21 h 00, ce pic est de répondre à la lecture de la pause déjeuner du lecteur et de 17h00 à 18 ans et lisez le lecteur pour descendre du travail.

          3.3 Analyse de corrélation
          L'auteur a été très curieux, le nombre de commentaires, de collections et de mots titres, s'il existe une relation statistiquement pertinente entre le nombre d'articles. Basé sur cela, l'auteur dessine deux images qui peuvent refléter la relation variable ci-dessus.
          Premièrement, l'auteur a formulé le mot de titre, le nombre d'articles et le nombre de bulles

          (des bulles circulaires ont été remplacées par des étoiles hexagonales, mais essentiellement de bulles).

          Dans la figure ci-dessus, l'axe horizontal est le nombre d'articles, l'axe vertical est le mot de titre, le nombre de commentaires est reflété par la taille et la couleur de l'étoile hexagonale, la couleur est Plus chaud, la plus grande valeur, les cinq coins les plus grandes de l'étoile, plus la valeur est grande. Comme on peut le voir à partir de ce chiffre, il existe un grand article avec un grand nombre d'examens, dont la plupart sont distribués dans une région composée de 6 000 mots et mots de titre dans le mot title. Le ronflement de Tiger Snoring Online Information commerciale L'article a des caractéristiques originales, profondes, au milieu de l'article, signifie qu'il peut effacer le dragon au dragon derrière des objets, et le titre doit être attrayant, provoquant un grand nombre de lecteurs, des en-têtes de longueur appropriés et des textuelles Peut le faire. Ensuite, l'auteur place le nombre de collections, le nombre de commentaires et le titre de l'article, le nombre d'articles, l'axe des x et l'axe de Y sont le nombre d'inflammations et le nombre de l'enflamme, respectivement, l'axe Z est constitué par la quantité et la quantité de commentaires.

          Plan


          Notez que la valeur de la figure ci-dessus est identique à la figure précédente et la couleur de la couleur au froid indique la valeur de la valeur du grand à petit, en tournant chaque dimension , on peut le voir. Au nombre de collections et de critères, le nombre de collections et de commentaires formés par le nombre de collections et le nombre de critères dans le nombre de mots dans le nombre de mots, les collections et les commentaires ici sont les plus importants .

          3.4 Analyse mentionnée par la Ville
          Ici, l'auteur extrait le texte prétraité en construisant un mètre de mots contenant 1 à 5 villes du pays. Le nom de la ville, selon la fréquence de La fréquence, dessinez une carte géographique de la ville reflétant la fréquence de la ville, puis comprend indirectement le développement d'Internet dans diverses villes (la General City fait référence au crochet d'informations sur l'industrie Internet, les produits et les informations de position qu'elle peut refléter la tendance au développement. de l'industrie Internet de la ville dans une certaine mesure).

          Le résultat est plus que le résultatC'est plus en ligne avec le bon sens, et le nombre de désignations des villes de premier niveau du Nord est le plus important, ils constituent la forte ville du développement de l'industrie Internet. Il convient de noter que la grande zone de bloc du Delta de la rivière Yangtze (le groupe de la ville de la rivière Yangtze, qui comprend Shanghai, la province de Jiangsu, Wuxi, Changzhou, Suzhou, Nantong, Yancheng, Yangzhou, Zhenjiang, Taizhou, Zhejiang, Chine , Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Ningbo, Zhejiang, Zhejiang Province Jiaxing, Huzhou, Shaoxing, Jinhua, Zhoushan, Taizhou, Anhui Province, Hefei, Wuhu, Maanshan, Tongsling, Anqing, Zhangzhou, Chizhou, Xuancheng, a montré une valeur thermique plus élevée et illustre directement ces villes à renifler toutes sortes de nombreuses mentions dans l'article d'information, combinées à des politiques nationales et à des facteurs régionaux, peuvent comprendre ce fait que la carte reflète sur la carte:

          Changda City Group est "une ceinture tout le chemin" et la ceinture économique de la rivière Yangtze L'intersection importante a un statut stratégique fort dans la modernisation nationale de la Chine et le schéma ouvert tout autour. La plate-forme importante de la Chine pour participer à la concurrence internationale, un moteur important pour le développement économique et social est la principale zone de développement du groupe économique de la rivière Yangtze, l'une des meilleures régions de l'urbanisation de la Chine.

          Ensuite, l'auteur extrait

          entre les urbains dans le texte qui est la fréquence entre les deux deux deux deux jours, reflète la ville dans une certaine mesure la relation entre l'économie , culture et politiques, plus la fréquence est élevée, plus l'étanchéité des deux, plus le tirage au sort supérieur, comme indiqué dans le tableau suivant:

          Dessinez les résultats ci-dessus dans les résultats suivants Carte du débit dynamique:

          En raison de la plupart des articles du tigre, il existe principalement des articles sur l'entrepreneuriat, les politiques et le contenu commercial, et donc la coexistence entre cette ville. La relation reflète la relation entre l'intercité entre ressources, le personnel ou des industries. Dans cette carte dynamique, il est principalement reflété dans la relation de flux mutuel entre le nord de Guangshen Hang (noeud de réseau) et ces villes de premier niveau scénario de flux aller-retour dans la ville du Midwest. La quantité de flux est grande et la zone intense est sans aucun doute le groupe urbain le plus développé de la Chine et plusieurs autres groupes urbains émergents:

          Beijing-Tianjin-Hebei City Ville de la rivière Yangtze Groupe
          Perle River Delta Group
          Zhongyuan City Group
          Chengdu City Group

          Analyse des données de la tournée médiane de la rivière Yangtsé C'est une analyse descriptive basée sur des données numériques. Ensuite, l'auteur fera une excavation de texte plus profonde.

Sujets

Catégories