Skip to main content

Premièrement, l'origine des données


En 2011, l'enseignant d'ARIMA a déclaré lors de la 8ème conférence d'activité réseau, Alibaba est une plate-forme de partage de données au XXIe siècle. Partager des données dans toute la société. En 2015, ALI a proposé la stratégie de la scène moyenne visant à établir une «petite réception de taille moyenne et de taille moyenne», y compris le milieu de travail de données.


Suivant, Ali a adopté l'approche de la publicité et d'autres canaux promotionnels et la stratégie de marketing réussie, et le mot "Data Middle" est presque devenu les brevets d'invention. Qu'est-ce qui rend l'industrie à remporter le trésor magique de la transformation numérique de la société et est presque transformée en.


Dazzling nouvelles technologies, de nouveaux concepts sont infinis. Par conséquent, seulement des principes de base, l'essence des choses est le roi.


Deuxièmement, les produits de données


Cependant, Ali est finalement "partagé" des données à la société en tant que protocole. Nous ne pouvons pas deviner comment partager des données conformément à la professeur de MA, comment partager des données à la société et partager quel type de données.

En fonction d'une vue, l'unité commerciale du collège de données capture les données originales générées par le système commercial des secteurs d'activité d'Ali par des moyens techniques. Après traitement, après le traitement des données, ALI Mère, Taobao et autres divisions d'entreprises de la réception fournissent des services à valeur ajoutée des données, telles que la recommandation de marchandises. En termes de substance, la station médiane de données est une fournissant externe un produit d'un formulaire de données. Même "transfert d'exportation", modifier les caractéristiques du produit. Tout comme, Huawei Haisi produit des copeaux de téléphone mobile, des copeaux de réseau, n'est pas épuisé, mais il a déjà l'essence des produits.


Qu'est-ce que le produit de données? Les prévisions météo pour les personnes familières de toutes les parties du peuple local sont de collecter des données météorologiques de partout au sol et la station de détection de haute altitude collecte des données météorologiques. Le résultat est traité et les résultats prévus, les prévisions météo futures. Données, et enfin par le site Web, application à la population du peuple.


En fait, le produit de données n'a pas longtemps été de nouvelles choses. Le groupe DUN BAI de MIGI, Chine Note 303, 2018, a été créé en 1841, est une agence mondiale de services commerciaux de renseignements commerciaux. Pour le mettre franchement, c'est faire des données, acheter des données de l'extérieur, puis la vendre à d'autres sociétés après traitement. Si vous êtes intéressé, vous pouvez aller aux détails sur les détails.


Les données ont été utilisées comme produit relativement indépendant avec sa valeur utilisateur unique.


Troisièmement, la nature des données

N'oubliez pas que le PDG IBM Les premières "données sont le concept de pétrole du nouveau siècle". Une compréhension, indiquant que les données sont très utiles; une autre compréhension:

Aucune donnée RAW traitée n'est presque "une eau de plage".

"Data Lone Island", "Système de cheminée", etc c'est presque le siècle dernier (non exagéré du tout) et les informations d'information. Il semble que l'intégration des données ne soit pas simplement un problème mondial, mais c'est toujours un problème de siècle. Bien sûr, certains discours sont en fait, ne résolvent pas, mais les racines n'ont pas vraiment à forcer cela.

Dans l'âge de l'information, la plupart des systèmes informatiques sont centralisés fonctionnellement. Qu'est-ce que ça veut dire? Par exemple, un système de recrutement, un système de ticket, un système d'expédition, etc des systèmes informatiques sont des entreprises auxiliaires pour compléter une opération d'entreprise. En un sens, les données sont la fixation de la fonction et la conception de la fonction est "déchirée" pour obtenir quatre fois cinq fissurés. Comment la fragmentation de la manière de soutenir l'entreprise? S'appuyant toujours sur le code de programme du système informatique, cette partie est restaurée en plus du programmateur informatique. Une fois le système mis à niveau, les données de fragmentation sont presque difficiles à récupérer.

Cheveux de poulet à une terre, utilisez ce mot pour décrire trop implicite.

En même temps, voyons quel type de fragments de données auxquels nous sommes confrontés et continuerons à produire des fragments de données pendant une longue période pendant un certain temps, après tout, ERP, CRM et d'autres systèmes ne seront pas mourir très vite). Selon des statistiques incomplètes, une base de données d'arrière-plan informatique de grande entreprise compte 170 + 10 000 feuilles de données, 50 millions + champs. Quel concept? Dites à une métaphore, nous avons 170 + 10 000 fichiers Excel, avec une moyenne de 30 colonnes par fichier et cent millions de données plus grandes. Dans ces données "massives", des informations vraiment précieuses, selon ma propre expérience de travail, pas plus de 50 000 champs (attributs), représentant 1/1000 de données totales.


Par conséquent, l'intérieur de la société est celui d'une part, le centre de données du centre de données d'entreprise continue de "exploser", d'autre part, les utilisateurs d'entreprises se plaignent, l'analyse commerciale et la décision -Making au milieu, il n'y a pas de données "pot".


ESSEZHE proposée dans "Prospective technologique de 2014":


"Chaîne d'approvisionnement de données, laissez-la flux d'informations

" L'écosystème de données est complexe et les données sont l'île est répartit partout. Puisque les données requises sont élevées, la capacité de la société est limitée, il est difficile deLe potentiel de valeur est entièrement excavé dans ses propres données. Si vous souhaitez vraiment libérer sa valeur, les entreprises doivent considérer les données comme chaîne d'approvisionnement, ce qui facilite la diffusion de la part de l'organisation """""


"Premièrement, les entreprises ont la possibilité d'obtenir de nouvelles sources de données. Deuxièmement, utilisez la nouvelle méthode d'exploration de données pour contrôler les données pour obtenir une valeur de valeur. Le développement futur de cette étape consistera à éliminer la complexité des données et à utiliser l'informatique cognitive pour atteindre une valeur commerciale. Enfin, la société peut explorer la valeur des données externes via une nouvelle méthode.


"Avec la plate-forme de service de données pour renforcer la chaîne d'approvisionnement des données: la chaîne d'approvisionnement de données doit promouvoir le flux de données. Pour les données, il est possible de circuler réellement, l'utilisateur doit pouvoir obtenir et accéder aux données à tout moment. À cette fin, vous devez d'abord créer une plate-forme de service de données ou une couche d'accès aux données unifiée pour fournir aux utilisateurs une méthode d'accès standardisée afin d'obtenir de nombreuses données fiables de la société. À l'heure actuelle, un tiers seulement de l'entreprise réalise vraiment l'intégration des données, mais il y a très peu d'entreprises qui peuvent vraiment en bénéficier.


Semblable à la chaîne d'approvisionnement traditionnelle "objet", la chaîne d'approvisionnement de données contient les sections suivantes:



. - & gt; acquisition de données (achat) - & gt; stockage de données (entrepôt) - & gt; Application de données - & GT; Application de données (consommation).











Dans cette chaîne d'approvisionnement de données, les trois liens précédents sont respectivement gérés par la source de données, le lac de données et le lien de demande de données final sont très importants, tels que divers types de surveillance et s'intégrer aux travaux d'entreprise. Analyse des données, etc. Les données sont principalement responsables du cœur du traitement à la valeur ajoutée de données. Les données sont également nommées. Si les données sont plus de nature, le lac Data est responsable de la collecte de l'eau de chaque rivière Jiangchuan, entourant le lac Data Data, le La station médiane de données est notre construction d'usines de transformation de l'eau, des usines d'eau potable directes, fournissant des services de données de qualité différents, en fonction des différences.


Du point de vue de la chaîne d'approvisionnement de données Look, le La nature des données est la suivante: la chaîne de production de produits de données.


Avec l'avancement continu de la "technologie de production", il sera plus automatisé, intelligent.

Processus de production de produits de données

Comme les ressources naturelles traditionnelles telles que l'huile, le processus de traitement de produits de données peut être divisé en "traitement jonctionnel", "Traitement profond".

1 Premièrement, l'intégration des données est terminée et elle est restaurée à l'original du monde et le processus de traitement des données aux informations est terminé. Dans le même temps, n'ignorez pas la valeur de l'intégration des données elle-même.


N'oubliez pas de 2013, "Taobao 10e anniversaire Time Machine", vous pouvez vérifier 10 ans de situation de consommation d'Alipay, lorsque beaucoup de gens ne peuvent pas aider mais soupir: "J'étais à l'origine de l'argent Malheureusement, j'ai choisi de faire un "". ".


Vous pouvez voir le temps perdu, les fleurs à l'argent;

Ali Voir votre consommation, vos habitudes de consommation.


Bien entendu, il est basé sur l'intégration longitudinale temporelle, ainsi que l'intégration latérale dans des scènes différentes. Prendre des employés à titre d'exemple, dans un sens, toutes les activités commerciales de l'entreprise ont besoin d'employés (automatisation des usines, etc.). Nous allons prendre toutes les informations en fonction du numéro d'employé, y compris le client qui lui visite. Il signera le contrat, il a passé la facture, il a assisté à l'information tous les jours et même le record des toilettes (bien sûr une blague. ), Arrangez-le à son tour, mettez-le dans une table? Pas trop. Ce n'est pas parce qu'il est nécessaire de faire attention à l'efficacité. Par exemple, ses enregistrements de visite de clients, il doit contenir qui est le client, est-ce une nouvelle fois lorsqu'il est intégré aux informations du client. Par conséquent, nous avons fini clairement les différents éléments de données conformément aux principes de 5W2H, y compris les visites des employés, qui visitent le client. Lorsque vous l'utilisez, vous allez prendre le besoin.

Bien sûr, la situation réelle n'est pas si simple, mais est essentiellement conforme à la logique ci-dessus. Au cours de ce processus, l'effet de base est le monde réel «restaurer» relativement objectif par la connexion de données. Dans la table de données Ali, en raison de la différence de scène, il utilise également des moyens techniques de mappage d'identifiant pour mettre en œuvre ce processus.


De plus, il existe un champ relativement émergent, qui est un traitement de données non structuré, tel que le texte, la vidéo, etc essentiellement par des moyens techniques pour saisir nos propres informations de fonctionnalité requises. Le processus est très compliqué, mais le Narcissy de base veut comprendre, n'a pas besoin d'être


Quel exemple, l'auteur de «une simple histoire d'avenir» a déclaré que le plus grand avantage des êtres humains est de traiter les autres comme leur propre connaissance, car seulement de cette façon, les gens peuvent être forts, heureux et heureux (sinon ils seront ignorés par leur propre ignorance.).


Intégration des données, seule la première étape des données dans des données, mais également la manière de rendre les données de jouer une valeur de plus.


2, Traitement profond de données: excavation de la vérité cachée et des règles


Si la station Centre de données est uniquement terminée "Premier traitement", les "articles qui Peut fournir des produits de données en dehors de l'extérieur », il n'ya presque aucune différence entre les informations personnelles de notre consommateur aujourd'hui.


Il existe de nombreux moyens de transformation en profondeur, selon le scénario de construction du côté de la consommation, la différence est très grande. Ici, certains exemples courants sont donnés pour votre référence:
(1) Résumé des statistiques de données



selon diverses conditions Les statistiques de données sont les besoins les plus courants de Entreprises. Dans le cas de circonstances régulières, le supermarché n'a pas besoin de prendre soin de toutes les personnes achetées et n'a besoin que de connaître le chiffre d'affaires total de vente, puis d'affiner, en fonction des périodes de temps, de la classe de produits de base, etc. Peut-être que ça va dire, trop petits enfants.


À l'âge de l'algorithme, veuillez ne pas supprimer l'addition et la soustraction et le réglage.


(2) Portrait de l'utilisateur


Avec le développement de l'intersection de l'Internet, les utilisateurs (consommateurs) Le portrait est déjà devenu un autre sujet brûlant. Utilisez un exemple de tous ceux qui s'intéresse, en fonction de la production effective du travail de votre année écoulée, donnez un résultat de performance AB + BC, HRER, en fonction de la performance de la performance de vos dernières années, postez-la tranquillement dans Les étiquettes du système HR, telles que: train, contributeurs solides, etc. Ce processus est auparavant votre superviseur ou à.


Comme les données du lac de données augmentent, le processus futur peut être automatiquement rempli par l'algorithme d'analyse. Ce problème arrive, utilise l'algorithme pour vous donner une performance, vous donner une étiquette et déterminer votre revenu, votre appréciation, sera-ce plus juste? On dit que c'est un problème que les prochaines personnes sont confuses.


Pour les utilisateurs, les employés, les consommateurs jouent de plus en plus à différents angles, en utilisant une image, "portrait" de caractéristiques numérisées.


Outre la transformation en profondeur plus commune ci-dessus, il existe des moyens techniques tels que l'apprentissage automatique, l'apprentissage profond et l'exploitation minière des données. Il y a encore beaucoup, mais je ne peux rien dire d'autre.


"La numérisation est la fragmentation, intelligente peut être systématique." Sans confirmation, le discours sur une certaine réunion de marché du patron. Voulez-vous utiliser ici, l'image reflète la valeur des données dans les données. L'intelligence artificielle, la signification non technique mentionnée par le patron, mais est commercialement significative, c'est-à-dire que toutes les applications artificielles sont une intelligence artificielle.

Cinq, les capacités de base de la station médiane de données


étant donné que l'article n'est pas destiné à écrire cet article dans un guide de conception de centre de données, le Voici un peu redondant. Puis faites une déclaration simple de vos propres opinions.


1, Développement de produits de données

d'une manière technique, la station médiane des données n'est pas une innovation révolutionnaire. Afin de prendre en charge divers types de rapports de données, une analyse statistique, la nécessité d'intégrer de grandes quantités de données provenant d'ERP, de CRM et d'autres systèmes d'entreprise, de manière générale, les grandes entreprises ont commencé à créer un entrepôt de données d'entreprise (EDW) il y a de nombreuses années. Cependant, l'entrepôt de données est un arrière-plan informatique. C'est un service informatique. En plus de connaître beaucoup d'investissements, le département des affaires ne se soucie pas d'elle est sèche.


Un grand nombre de recherches et de développement et d'innovation sont nécessaires avant que le produit de données "mis en production". Au cours du développement de produits de données, en plus de nos ingénieurs de données familiers, des ingénieurs informatiques, des scientifiques de données, je dois mettre l'accent sur la participation d'experts du secteur des entreprises, dont deux aspects:





] (1) proposer des règles commerciales. Par exemple, dans l'affaire Portrait du personnel, les experts d'affaires souhaitent définir ce qui est "Train Train", etc.
(2) Fournir une connaissance des affaires. La modélisation actuelle des analyses de données est combinée à la connaissance du domaine commercial et de la logique des données et itératif est effectuée. L'optimisation des modèles nécessite un jugement correspondant dans le secteur des entreprises, plutôt que de simplement proposer les processus de série mis en œuvre par des scientifiques de données ou des ingénieurs informatiques.


Par conséquent, pour les données de la station de données, la capacité la plus essentielle consiste à établir une équipe de développement de produits de données qui établit des entreprises, des données et une entreprise. Ceci est également sans aucun doute que les données de la station de données sont différentes de l'entrepôt de données traditionnel, l'idée la plus importante de la grande plate-forme technologique de données.


Malheureusement, la majeure partie de la société actuellement avec vent n'est pas au courant de cela.


2, Plate-forme technique et outil


Je n'ai jamais été une technique fanatique. Mais je tiens à dire, la technologie n'est pas bonne, les gens vont venir ensemble », je ne le ferai pas bientôt.passe.


examinons les défis auxquels des données sont confrontées à des données:

(1) avec l'extension de plus en plus de types de données, de plus en plus de gestion compliquée;
(2) Données "Processus de production" (règles, algorithme, etc.) est un processus de mises à niveau itératives continues, aucun outil de développement de conception, incapable développement continu;


(3) données Les talents sont rares et les talents flux fréquentent.


Incarré indiquent que quelle est la meilleure technologie et les meilleurs outils des données. Seulement maintenant, transformer les idées, changer constamment et améliorer la technologie de production.

Après des années, en tant que "mineurs de données", "Data Miners", regarder les arts martiaux de données deviennent presque un cochon sur la pointe des grandes données, d'une part, il semble y avoir L'espoir de reconstruire tous les jours, d'une part, c'est plus espère que même si le vent est fini, le cochon a été branché dans des ailes.

À cette fin, nous devons voir la nature des données dans les données, non pas avec le vent, mais pour construire une ligne de production de produits de données de sa propre entreprise. Pas la renommée et la fortune, seulement à cause des sentiments.

Sujets

Catégories