Skip to main content

Les grandes données ont été définies comme 3W (grande quantité, rapide, diversité), mais ces caractéristiques sont utilisées pour décrire les diverses marchandises transportées sur les autoroutes. Par conséquent, l'ingon parent du numérique est proposé d'identifier les caractéristiques d'identification des grandes données:


1, la quantité de données est importante
non-mutée, cela doit être.

2, les données stockées dans la mémoire peu coûteuse

établissent un stockage de données massif dans un support de stockage coûteux, il fera le traitement des données importants sans signification. Par conséquent, le support de stockage de grandes données doit être bon marché.

3 Taxe, vous devez donc faire une démographie. La vue initiale rendait chaque citoyen de l'empire romain à travers le comte de la porte de la ville romaine. Mais l'ancienne région romaine est vaste (à cette époque, y compris l'Afrique du Nord, l'Espagne, l'Allemagne, l'Iran, Israël, etc.), les résidents sont largement distribués, et cette manière est irréaliste et il est nécessaire d'utiliser une méthode de traitement centralisée. Enfin, j'ai décidé de former un groupe démographique et divers démographies étaient unifiés dans la collection de la porte de la ville, puis ils ont été contestés à la journée convenue et résumaient les données de la ville romaine.


Le traitement massive des données est également de cette manière, transmettant le traitement des données à des données pour différentes régions (partition) et implémente le traitement de données distribuée. Cela peut traiter le traitement des données de données presque illimitées.


4, données
stockées et gérées sous forme non structuré
, les grandes données sont sous un format non structuré. Une grande quantité de données stockées Dans le milieu peu coûteux, il faut des calculs de données dans le traitement distribué.

La construction de grandes plateformes de données peut être davantage, et il y a plus inconnu et de possibilités à l'avenir. Les étapes de la plate-forme de données introduites précédemment, chaque conception de l'architecture, etc. sont une petite partie du bas.



Afin de prendre en charge le fonctionnement normal du service d'analyse de données, l'outil BI avec des données d'agilité est également l'heure. Même si vous ne pensez pas aux considérations à long terme, le problème d'affichage rapide actuel doit être résolu dès que possible. À partir d'une variété d'aspects, Finebi est livré avec le moteur d'araignée qui l'accompagne, sert le problème de la résolution de la grande analyse de l'affichage de données.

FINEBI est unLes outils d'analyse indépendante sont fonctionnellement séparés des travaux de préparation des données avec l'analyse des données de l'entreprise. Prévenez des services informatiques de préparer des données, de fournir une analyse en libre service ou un développement agile à d'autres départements de données ou des unités commerciales, de sorte que tous les ministères jouent leurs propres forces et font de leur mieux. Tout en libérant la pression du service informatique, il peut également obtenir rapidement les résultats de l'analyse principale.


De nombreux utilisateurs ont eux-mêmes des moteurs de requête de données à haute performance, ou les exigences en temps réel de l'entreprise sont particulièrement élevées. Vous pouvez donc utiliser le moteur d'araignée pour interfacer directement à la base de données, régulière Les grandes plateformes de données peuvent être prises en charge et vous pouvez voir l'article ci-dessus en détail.


Cependant, plusieurs fois, l'outil BI nécessite un moteur de données agile fourni pour une analyse en libre-service flexible. C'est-à-dire qu'il est nécessaire d'extraire des données dans la couche intermédiaire pour la stocker afin de calculer l'influence de la base de données et d'obtenir rapidement les résultats d'analyse. Lorsque les données sont extraites, l'application par défaut et le moteur de données de FINEBI peuvent être un serveur et la quantité de données est excellente dans le cas de 100 millions de yuans. Comme il n'y a pas de restriction de la transmission du réseau, l'effet de calcul local sera meilleur que l'extension distribuée après une extension distribuée. Une fois que la quantité de données est augmentée, l'araignée distribuée du moteur après la mise en œuvre de l'expansion sur la mise en œuvre fonctionnelle, qui est toujours distribuée au marché des données agiles afin de stocker un stockage distribué, dockant ainsi la requête d'analyse frontale et réalise une analyse d'analyse rapide.


L'extraction de données ou en temps réel peut être flexible à partir de la base de données, c'est-à-dire que les données peuvent provenir de la base de données ou du moteur de stockage intermédiaire. Et ces deux manières peuvent être Basculé, et l'analyse frontale n'est pas affectée, plus flexible dans divers scénarios d'application dans BI.



La régression suivante consiste à voir l'interprétation du moteur d'araignée de FINEBI pour une analyse de données importante. Le moteur d'araignée de Finebi résout les problèmes de performance lorsque le problème d'analyse de volume et l'affichage de l'affichage des données importantes sont résolus sur la base de composants de données importants tels que Alluxio, Spark, HDFS. Les colonnes Store, les calculs de mémoire parallèles, la localisation informatique plus des algorithmes de haute performance pour assurer une analyse rapide de l'analyse de données à FINEBI. Le nœud d'extension horizontal répond à la demande de croissance des données, ce qui garantit également que le système commercial peut être utilisé tout au long de l'année.
Sur le stockage de données important, faites d'abord une grande quantité de stockage de données, retour à la définition précédente, il existe un mode de stockage à faible coût et les données non structurées peuvent être stocké. Peut faire des calculs distribués. Cela pensait d'abord hSystème de fichiers distribué à Adop - HDFS. La stabilité HDFS et la tolérance aux pannes sont relativement parfaites. Après Hadoop 2.x, il est soutenu à HA, qui peut être utilisé pour des données de stockage. Naturel, son écologie dans de grandes données est également meilleure ~
mais le stockage HDFS est toujours basé sur le disque et ses performances d'E / S sont difficiles dans le délai requis pour les calculs de diffusion en continu, une fréquente échange de données de réseau fait en outre glisser le processus de calcul . Par conséquent, nous introduisons Alluxio en tant que système de stockage de base pour les systèmes de stockage distribués. Alluxio est centré sur des caractéristiques de stockage centrées sur la mémoire qui rend la vitesse d'accès aux données de l'application supérieure que le schéma habituel existant. Utilisation des fonctionnalités de stockage hiérarchiques Alluxio, plusieurs ressources de stockage de la mémoire, du SSD et du disque sont intégrées. Le LRU, LFU, etc. fournis via Alluxio, peut s'assurer que les données à chaudes restent en mémoire, les données à froid sont conservées sur le périphérique de stockage du niveau 2 ou même du niveau 3, et HDFS est utilisé comme système de stockage persistant à long terme.


Sur le magasin, Hadoop's HDFS implémente le stockage distribué et ses propres performances de calcul de MapReduce sont insuffisantes et ne peuvent pas être amarrées par la mise en forme standard. Application externe, SQL sur Hadoop est venu être. Il est bien connu, Impala, Spark SQL, Hive, etc. sont bien connus. Mais, choisissez de quelle manière n'est pas important, le point de départ de tout le monde doit permettre des calculs de distribution parallèles dans de grandes données.



La partie de calcul de base du moteur d'araignée du FINEBI,

est également la mise en œuvre de SQL sur la technologie Hadoop. SQL sur la technologie Hadoop, tels que le stockage de colonne, le dictionnaire de données, la partition et l'index de niveau de bloc, la localisation des données, etc. sont applicables. La conception de la classe SQL est optimisée sur la base du scénario de calcul de la BI et combine des calculs distribués à la mémoire, rendant la vitesse d'affichage sous les données importantes atteignant le deuxième niveau.


Calcul de la mémoire: Parmi les principales plates-formes de données, les services de calcul de la mémoire sont également un module. Afin de réaliser des données d'analyse communes et des scènes informatiques peuvent être rapidement affichées, en fonction des principes du stockage de données ci-dessus, les calculs à utiliser sont en mémoire, garantissant ainsi une vitesse de calcul optimale. Dans le même temps, il n'est pas couramment utilisé pour durer la sauvegarde HDFS et l'occupation des ressources de mémoire est également réduite.


En résumé, le moteur araignée peut être à la fois des utilisateurs de couplage.La couche intermédiaire de la plate-forme et de l'écran ne fait pas de stockage de données et de calcul, seul le résultat est enfin affiché.Dans le même temps, il peut également être considéré comme une application de calcul de la mémoire dans la grande plate-forme de données, montrant les résultats de calcul à l'extrémité avant du FINEBI.

Sujets

Catégories