Skip to main content

Dans l'historique des données, 2015 est un port important: la quantité de données créée en 2015 est égale au nombre total de données de production humaines dans l'historique, qui est la direction de la croissance par la tête d'augmentation selon le niveau hiérarchique de la Histoire de tous les humains de l'histoire. Un grand traitement de données est devenu un défi de toute l'humanité;


Dans le même temps, Alibaba a publié la méthode de l'ère DT, remplaçant la technologie de l'information (IT, "dans la technologie de l'information de la technologie technologique (Technologie de la technologie de la technologie), mettant en valeur la technologie des données deviendra la force motrice de l'entreprise à l'avenir.


Un événement historique Alibaba soutient quelques dizaines de milliers de GMV avec quelques centaines d'équipes chirurgicales, dont 60% -70% provenant de données étayées par des décisions de machines, des machines intelligentes Peut servir, servir les clients moins coûts, une efficacité supérieure et fournir une expérience personnalisée d'environ des milliers de personnes.
Les futurs étudiants croient que le brutLe smart de la machine finira éventuellement à surmonter la sagesse de tout le monde et le point important de ces deux personnes s'appelle "impair". À partir de ce point, nous pouvons penser qu'Alibaba a subi un petit score et est vraiment une société de données.

Organisez ce processus du point de vue des données.


Le traitement des données d'Alibaba a subi quatre étapes, à savoir:
Étape de base de données, principalement les besoins d'OLTP (traitement de la transaction en ligne);
Étape d'entrepôt de données, OLAP (traitement de l'analyse en ligne) est devenu les principaux besoins;

Étape de la plate-forme de données, résolvant principalement des problèmes techniques dans les demandes de la BI et de la déclaration;

Le stade moyen des données, via le système pour les besoins d'interface OLTP (Transactions) et OLAP (analyse des rapports), mettant l'accent sur la capacité de flux de données.






Taobao est juste un site simple, toute la structure de Taobao est quelques pages de devant , plus auxiliaireDB (base de données, base de données), est uniquement un système OLTP simple, qui traite principalement des transactions.


Cette étape, les pages jaunes Internet viennent d'apparaître, la plupart des sources de données ont toujours des données structurées, la quantité de données n'est pas grande, c'est GB. DB peut simplement répondre aux besoins.


Voici, c'est-à-dire que le scénario de trading OLTP et les points pittoresques de l'analyseur OLAP sont avant de mettre l'accent sur des extraits simples et de l'affichage de données simple, hautement simultané (augmenter et supprimer des matériaux ignifuges), les exigences de la Les personnes suivantes ne sont pas élevées, mais vous devez ouvrir différentes bases de données, telles que ERP, CRM, Données comportementales, etc. Et traitement des données par lots, c'est-à-dire en même temps, analyse massive (lot), analyse (requête + calcul, faire des rapports).


Avec plus d'un million d'utilisateurs de Taobao, le taux de besoins analytiques sera plus grand et plus grand. Taobao a besoin de savoir quelles zones de là proviennent de là, à partir de laquelle tout le monde vient, qui achète les articles de Taobao,v.v entrez donc la deuxième étape du traitement des données.
Deuxièmement, l'étage de l'entrepôt de données

Comme mentionné ci-dessus, OLTP et OLAP sont très différents pour les exigences de stockage et de traitement des données, le traitement des données de transaction structurées, tandis que les données correspondantes OLAP pour les données Internet et la quantité de données à Internet sont le journal Web. Les données supérieures à 90% des données sont des données non structurées et la quantité de données a atteint le niveau de tuberculose.


Afin de répondre aux exigences analytiques, DW, Datawarehouse), j'ai rejoint Ali en 2004, a construit le premier DW d'Alibaba avec Oracle RAC, résolue les besoins de stockage et de calcul des données sont à convertir. données non structurées dans des données structurées et stockez-la.
Cette étape, le soutien DW est principalement des rapports sur la BI et la demande.

Estimant que la base de données (DB) est également transférée de la DB traditionnelle à la disperse. La principale raison est que le trading précédent est un contrôle stable et conventionnel, DB tracéLe système peut répondre aux besoins, mais ensuite, avec l'augmentation des transactions, il est de plus en plus incontrôlé et la demande de distribution de DB apparaîtra.

Parce que la quantité de données augmente, de la tuberculose entrant dans le niveau PB, l'architecture technique initiale prend de plus en plus en charge le traitement de données volumineux et à ce stade, elle entrera dans la troisième étape.


Mardi, étape de la plate-forme de données
Cette étape résout ou les exigences de rapport, mais principalement en résolvant la question technique de la classe de base, voici la question de la conception architecturale de la base de données.

Ceci est résumé dans la technologie de la base de données "partagée tout, ne partage rien, ou partager le disque", qui est dit pour contester l'idée de l'art de l'architecture de base de données elle-même.

Tout partageant tout en général pour un serveur unique, CPU / Memory / Io complètement transparent / Io, la capacité de traitement parallèle est le pire, typique dai dServeur SQL. Partager le représentant du disque est Oracle RAC. Les utilisateurs accèdent à la RAC comme l'accès à la base de données, mais ceci est un cluster, RAC pour assurer la cohérence de ce cluster.


Le problème est Oracle RAC basé sur l'architecture IOE et toutes les données stockées avec le même CEM. Lors du traitement de données importants, l'architecture IOE a des restrictions naturelles et inappropriées pour le développement futur. La première base de données d'Alibaba est construite sur Oracle RAC. Parce que les données sont trop rapides, ce sera jusqu'à 20 boutons. À cette époque, c'était le plus grand groupe Oracle Rac en Asie, mais Alibaba avait une facture dans les premières années. Si vous utilisez toujours l'architecture IOE, quelques années plus tard, les revenus attendus d'Ali ne peuvent pas rattraper les frais de dépenses du serveur, ce qui signifie que si vous n'allez pas à IOE, Ali ira faillite.
Les représentants de ne rien partager sont Hadoop. Différentes unités de traitement de Hadoop ont des cellules de mémoire séparées et une seuleManipulation,

entre différentes unités de traitement, traitement parallèle et meilleure évolutivité. Il existe un système de calendrier distribué au milieu et la table sera divisée de la mémoire physique et l'attribue à plusieurs serveurs.

Les avantages d'Hadoop sont des capacités de capacité et de traitement de données accrues, n'augmentant qu'augmenter le serveur, aucun coût, a un grand avantage en matière de traitement de données importantes et d'échelle en cours de traitement parallèle.


En résumé, un mot clé est un résumé de la troisième étape que "en déplacement de l'IOE", établissant un petit nombre de plates-formes de traitement de données numérotées pour résoudre les frais de stockage de données de problèmes est trop rapide. À Alibaba, la première phase est Hadoop et les ODP ont quitté le développement de soi.





Cette étape est caractérisée par l'indice du montant des données, de PB au niveau EB, je ne serai pas claire.

Principalement, après 2015, IOT (Internet des objets) a été développé, promouvant le développement de données de vues (vidéos, images, sons) et 90%Les données peuvent provenir de la perspective. Il n'existe aucune structure de données d'audio, nécessite une technologie informatique intuitive, une vidéo d'analyse de moteur + analyse d'image Moteurs + une résolution audio pour convertir en données structurées Truc. Le développement de la technologie 5G peut renforcer davantage l'importance de la visualisation de données audio.

Pour améliorer les affaires, grâce à des données pour améliorer les entreprises, vous pouvez effectuer un comportement pouvant être surveillé et que les données peuvent être collectées. C'est une prémisse. Le montant hors ligne le plus important est les données de visualisation audio et ces données sont créées manuellement. Il est certainement peu fiable, basé sur la progression de la technologie et des algorithmes IOT, obtenez enfin des données du côté intelligent.

Pour utiliser ces données, l'algorithme d'image optique et le côté intelligent ne seront pas dans un cloud pour stocker et gérer ces données et pour l'ouvrir dans d'autres écoles.

D'autre part, deEntreprise, les données sont bonnes, enfin l'analyse des données également, c'est-à-dire des entreprises. Cela signifie que vous devez faire OLAP et OLTP à la quai au niveau du système. Cette association ne peut pas être faite par tout le monde et doit compter sur des algorithmes intellectuels.

La plate-forme de données actuelle, la plate-forme de données la plus souterraine est également une technologie de biais, l'une des composantes de la solution technique de l'étape du milieu, principalement la résolution de la mémoire et calculez les données; S'agissant d'une couche de données de classe de service, la couche de service de données peut connecter la plate-forme de données et la classe d'entreprise de la plate-forme de données et la réception via Service API; Il n'y a personne dans les données, le système directement à faire du quai, à travers l'algorithme intelligent, peut placer une analyse de réception et des besoins en transaction au quai, éventuellement autonome.

Combinant les deux aspects ci-dessus, je pense qu'il est nécessaire de faire un bon travail à l'avenir. Je fais juste des nuages ou seulementLa fin n'est pas fiable, vous devez le mettre ensemble.Le côté intelligent est responsable de la collecte de données, le cloud est responsable de la conservation, du calcul et de l'autonomisation des données.La fin peut enrichir des nuages, le nuage peut être allumé.

La plate-forme entre les données futures, doit être "plate-forme entre les données contrôlées", y compris "plate-forme de calcul + algorithme + matériel intelligent", non seulement pour avoir des données visuelles à la fin des capacités de collecte et d'analyse, Mais aussi pour aider les entreprises à suivre les données commerciales, définissez enfin des services de consommation en ligne et de consommation.

Sujets

Catégories