Skip to main content

Pour les grandes données, vous avez toujours été très intéressée. Récemment, voir le livre et les informations relatives aux données, tout simplement combattu ces choses. Cet article utilisera 4 diagrammes logiques comme le courant dominant, introduisez simplement un processus à partir de "petites données" à "de grandes données" et des outils peuvent être utilisés.

Supposons que nous devions construire un petit site Web, sans utiliser les produits matures Saas, notre Les produits doivent avoir les deux sections suivantes:

Client: il peut s'agir d'une application, d'un petit programme ou même d'un site Web, visiter les gens à utiliser notre entrée.

Serveurs: les serveurs comprennent des serveurs et des bases de données d'applications, des serveurs d'applications utilisées pour déployer des programmes d'application, des demandes de terminal de la gestion et un service de rétroaction de traduction; La base de données est utilisée pour stocker des données, le serveur transmet le programme interactif avec la base de données de base de données réelle.n Lire et écrire des activités (telles que: SQL).

1. Comment pouvons-nous interagir avec les systèmes techniques ?

Supposons une scène: Zhang San a ouvert un petit site Web, après avoir ouvert l'interface de connexion, Zhang San est entré dans son numéro de compte et son mot de passe, cliquez sur Connexion Connexion, puis les clients enverront des demandes au serveur. Informations sur le compte de requête dans la base de données.

Si les données sont disponibles, Zhang San peut se connecter pour réussir, vous pouvez utiliser un petit site Web; Si la base de données n'a aucune information de compte troisième compte, il peut guider Zhang San pour vous inscrire et que la table utilisateur de la base de données est enregistrée avec succès. Je vais ajouter une information à trois personnes et Zhang San peut utiliser un petit site Web.

Nous interagissons avec ce système via la saisie du client, nous avons créé des commentaires du serveur au serveur via l'interface cliente.

2. Quelle est la différence entre le serveur et la base de données?

En général, nous avons appelé le nom complet "serveur", la base de données est appelée "serveur de base de données", qui est tous des serveurs, mais en raison de différentes applications, les performances nécessitent des distinctions différentes.

 

Les exigences de performance du processeur de Le serveur de base de données est relativement élevé, car il est nécessaire d'effectuer des opérations régulières, des fortes exigences de mémoire, une accélération de l'accès aux données et du serveur d'applications requises.

 

3. Quelle est la base de données générale?

La base de données générale comprenant principalement la "base de données relationnelle" et "base de données sans relation":

1) Database relationnelle

 

Plier la vraie relation du réalisme vraiment, l'aspect relationnel réel Fait montrant le modèle de relation (la relation entre la table et la table et la table), souvent utilisé MySQL (Open Source Base de base de données), SQL Server (Microsoft) Oracle (Oracle, la fonction de gestion de données parfaite peut déployer des opérations d'entrepôt de données). 2)Peu importe

 

relativement lâche et non stockée dans une spécification structurelle stricte, appelée NOSQL (MongoDB, Couchdb couramment utilisé, utilisant des clés dans des paires de MongoDb) Exprimant et stockage des données, la valeur principale est similaire à la valeur correspondant à Le nom de champ dans la table de base de données relationnelle, dans la MNGODB, la représentation des données et le stockage à l'aide de données dans le format JSON).

 

Lors de la mise à niveau de la structure technologique de la croissance de l'utilisateur

Les utilisateurs de petits sites Web devenaient progressivement de plus en plus de plus en plus, la page Petite Web est devenue une grande Site Web, le chargement d'un seul serveur sera bientôt limité, vous devez ajouter plusieurs serveurs, former un groupe de serveurs et introduire des serveurs d'équilibrage de charge et des échanges mobiles automatiques mobiles.

Comme les données sont l'actif essentiel du produit Internet, afin de garantir la sécurité des données système, il est également nécessaire d'augmenter les serveurs de sauvegarde de données et plusieurs serveurs mécaniquesLa base de données fonctionne en même temps. Même si la base de données a un problème, cela n'affectera pas l'activité. Fonctionnement normal.

Avec l'augmentation des utilisateurs de produits, la concurrence du marché est également plus forte, nécessite une urgence de décision stratégique plus précisément, les données des bases de données sont utiles. Pour les opérations de produits, mais en raison de la structure complexe, des données sales, déroutantes, un manque d'historique, des requêtes à grande échelle, etc., le rôle des objectifs de prise de décision et de petites entreprises.

D'une meilleure façon de jouer à des valeurs de données, la facture d'entrepôt de données de 1990 (Bill Inmon) a proposé le concept de "entrepôt de données" et a construit un système de données pour l'analyse de stockage et de données historiques. Les entreprises soutiennent l'analyse et les décisions stratégiques.

1. Quel est le principe de la mise en œuvre de la base de données?

La source de données de stockage de données est généralement des données commerciales historiques (données de commande, données de marchandises, donnéesJ'utilise, les journaux de fonctionnement, les données comportementales ...), l'accord d'archivage dans l'entrepôt de données de la société, par le biais de données intégrées en stock visant à soutenir les décisions commerciales.

2. Quelle est la différence entre la base de données et l'entrepôt de données?

La base de données est un système de traitement de données de stockage et de traitement en temps réel et un entrepôt de données est pour analyse.

3. Quelle est la différence entre l'entrepôt de données et le grand entrepôt de données?

Différence de l'entrepôt de données et une grande différence d'entrepôt de données: de grandes données = de grandes données + technologie de traitement + plate-forme + applications, l'entrepôt de données est un processus de développement de données, principalement reflété dans: valeur commerciale, objets de traitement , trois aspects des outils de production.

Est-ce que tous les besoins métier des entreprises, grâce à une analyse de données importante pour les entreprises, "Numérique traditionnelle" avant, Scene Protenante (rapport, BI); Et grande technologie de donnéesScripts d'application matures et inférieurs (portraits d'utilisateurs, recommandations, contrôle du vent, recherche ...)

2) Objectifs de traitement

Acheter, traitement, gestion, gestion, gestion, traitement, gestion, traitement, Mais les types de données de traitement de données importants sont plus divers et numériques traditionnels se spécialise uniquement dans le traitement des données structurelles et structurées.

3) Outils de production

 

"Digital traditionnel" achète souvent un plan mature de fabricants étrangers célèbres, des prix élevés et des "grandes données" oui une technologie open source complète.

 

Méthodes de construction: grande technologie de données le long de la "théorie de la construction numérique traditionnelle, mais en raison de nouvelles données structurées dans la technologie de traitement, calculer des outils de production de livraison en ligne (plus de calculs en temps réel), il est lent, mais c'est plus de calculs hors ligne et en temps réel).

 

1. Quelles sont les grandes données?

 

CharbonG Point plus élevé obtenu, stocké, géré et a dépassé les ensembles de données dans la capacité de l'outil logiciel de base de données traditionnel, avec une échelle de données importante (commençant généralement par la tuberculose unique), un flux de données rapide, une diversification de type de données et une densité de faible valeur de quatre caractéristiques faibles - McKinsey Global Recherche

 

  • "Beaucoup de types de données", "Stream de données rapide", "Divers Type de données", "Densité de valeur faible" à voir, la plupart de ces fonctionnalités sont la plate-forme. Sociétés de type, gros utilisateurs avec contenu.
  •  
  • Vice-président de Facebook Jay Parikh Infrastructure, il a été révélé que la quantité de données est gérée par Facebook jusqu'à 500 To (1TB = 1000 Go).
  •  
  • 2. Qu'est-ce que la distribution?
  • Après l'avoir lu, pouvez-vous penser à quel type de technologie est traité comme des données quotidiennes de Facebook?

     

    Il s'agit d'introduire "calcul de la dispersion", car le calcul d'une seule base de données est limité, puis nous cHIA Une grande quantité de données en petites pièces, complétées par plusieurs ordinateurs, puis résumez le résultat, l'ordinateur appelé Cluster.

    3. Quelles sont les principales architectures de données et modules?

    • Si nous ne comprenons pas, nous fournirons une châtaigne: les vacances doivent mettre fin à Zhang San et avoir 10 devoirs, il a trouvé 5 étudiants, 2 copies de chaque classe d'amis et ont finalement convoqué Zhang San.
    • Modèle classique de calcul de stockage de données fort, Système HadHoop dans la plate-forme Apache, le noyau est dispersé architecture informatique, Yahoo, IBM, Facebook, Amazon, Alibaba, Huawei, Baidu, Tencent et d'autres sociétés utilisant une architecture technologique (la partie de cadre jaune dans le numéro de la logique inférieure est membre de l'écologie Hadoop).

La grande architecture de données peut être divisée en: collecte de données, stockage de données, requêtes de calcul, services de données, 5 applications de données de liaison.

1) RecueillirLes données

Les données structurées sont collectées, distribuées, vérifiées, nettoyage avec des outils d'acquisition; Les données ne sont pas structurées par grimpant, mot, extraction d'informations, classification de texte, stockage de données.

2) stocker des données

Normalement, 3 étages, la classe ODS la plus élémentaire, le stockage direct des données du système de données, la mise en place de données dans des systèmes d'entreprise différentes conjointes; Le Middle est la classe DW (Warehouse Data), stockant divers modèles de données définis par sujet; La couche supérieure est la classe DM (marché des données), basée sur le résumé de l'intégration de données de base sur la classe DW afin d'analyser certaines données de rapport de domaine topique. 3) requête de calcul

Choisissez une solution correspondante selon des exigences spécifiques: hors ligne, sans temps réel, les données statiques peuvent être utilisées conformément aux diagrammes de lots; Pas de données dynamiques hors ligne, en temps réel, de données dynamiques, de faibles scènes tardifs de diagrammes de manutentionG est disponible.

4) Service de données

 

Avec API ouvre une grande quantité de données dans la nuotine, une valeur de données très élevée et une valeur plus pratique et la valeur de données est définie.

5) Applications de données

Sur la base d'entrepôts et de structures de données très efficaces pour élaborer des décisions commerciales pour soutenir les systèmes BI; Selon de grandes données, le système de portrait de l'utilisateur est le noyau, est personnalisé. Proposition, recherche et autres modules d'entreprise fournissent un soutien.

4. Module de collecte de données importante

Effectuer l'utilisation de différentes sources de données ( Applications, serveurs, journaux, tables d'affaires, interface API différente, données de fichier ...) est capable d'acquérir séparément.

Actuellement, il y a actuellement des lambrissements ...

 

 

1) Flame

est un outil de condensateur de journal en temps réel développé par Cloudra et le récepteur principal, acquérant Grandes diaporamaes à grande vitesse et dispersées, transporteur de donnéesDoctere personnalisé dans le système de journal, soutenant des données de traitement simples et écrit dans différentes données accepte, les caractéristiques principales:

Transmission de données de poids latéral avec un traitement interne mécanique afin de garantir que les données ne sont pas perdues, utilisées pour des scènes de journalisation importantes;a été développé par Java, sans plugin riche, principalement le développement secondaire;

  • 1) Configuration encombrante, en dehors des données du port d'écran de contact. Le positionnement original consiste à combiner des données sur HDFS, l'accent sur le transfert de données et la sécurité nécessite une configuration de développement secondaire.
  • 2) LOGSTH est un outil de collecte de données open source, qui peut être des sources de données flexibles à la destination, avec l'analyse EXTRATISEARCH, KIBANA, les affichages de page, caractéristiques principales: Il y a pas une file d'attente persistante à l'intérieur et des situations anormales peuvent perdre des données partielles; Écrit par Ruby, Ruby Environment Demander, beaucoup de plugins; U Figure est simple, soulignant avant que les données soient facilement concentrées sur les données du journal pour créer une tranche ultérieure et des piles technologiques Elk très simples.
  • 3) KAFKA a été développé à l'origine par LinkedIn, open source ouverte incubée d'Apache Incubato. Pour gérer les données en temps réel, il fournit une plate-forme de débit élevée et uniforme, une faible latence, adaptée à la transformation des données de transmission en ligne sous la forme d'infrastructures de classe d'entreprise (essentiellement: selon le règlement de la file d'attente, un enregistrement / enregistrement à grande échelle de transactions de dispersion logique).
  • 4) SQOOOOP Contrairement à l'outil d'acquisition de journal ci-dessus, la fonction principale de SQOOP fournit à Hadoop fournit une fonction de saisie de données RDBMS (base de données relationnelle), des données de base de données traditionnelles pour HBase, il est très pratique de bouger.
  • 5) Grand stockage de données et ampli; Module de gestion des ressources En général, une base de données de la machine (par exemple, MySQL) est souvent utilisé lorsque la faible capacité de données. Lorsque la quantité de données est grande dans une certaine mesure, un système de distribution doit être utilisé. Le système HadHoop dans la plate-forme Apache est le modèle classique de stockage de stocker de superbes données.

 

  • 1)n système de fichiers distribué dans Hadoop, fournissant HBASE et Honeycomb pour fournir un support de stockage de base extrêmement fiable.
  • 2) HBASE est la base de données Hadoop, sous forme de base de données sans importance, fonctionne sur HDFS, avec une lecture aléatoire HDFS, comparant une analyse en temps réel.
  • 3) Fibre est un nouvel Explorateur Hadoop, un système de gestion de ressources universel qui fournit une gestion des ressources consolidée et de planification des ressources susmentionnées. Son introduction est un cluster. Il a apporté de grands avantages en termes d'utilisation, de gestion des ressources unifiées et de partage de données.

Le module de requête calcule les données volumineuses Premièrement, vous avez d'abord introduit la différence entre le traitementTraitement en vrac et en flux: Calcul de la masse: scènes hors ligne, données statiques, sans temps en temps réel, grande latence (script: analyse des données, rapports hors ligne ...) Luong Computing: scène en temps réel, données dynamiques, temps réel, faible latence (script: temps réel recommandé, entreprise de supervision .....) Les outils de requête importants sont couramment utilisés principalement: HIVE, Spark , PRESTO, PRESTO, KYLIN, DRUID.

1) ruche est un outil d'entrepôt de données basé sur Hadoop, qui peut mapper des fichiers de données structurés dans la table de base de données et fournir une fonction complète de requête SQL.NH pour convertir des déclarations SQL aux tâches MapReduce à exécuter, et l'avantage est des coûts d'apprentissage faibles.

2) Spark Spark est un calcul répété pour la source de l'experiment de la salle AMP à l'Université de Californie Le laboratoire AMP coopère avec Hadoop: Cadre parallèle universel pour Hadoop Mapreduce Class en mode Mass, diffère de MapReduce, mise en œuvre toutes les données de traitement de travail en mémoire, améliorant les performances de l'ordinateur; En mode de traitement du débit, une étincelle principale Un concept de lots microélaniques obtenus dans des étincelles, peut être utilisé comme une très petite "série", peut être traitée par une sémantique natif du moteur de masse; L'étincelle convient à de nombreuses tâches pour gérer la charge de travail, appropriée pour le lot de flux plutôt que la latence, la compatibilité SPAR KSQL peut utiliser la ruche comme une étincelle de la source de données en tant que machine dynamique.

3) PRESTO Open Source avec Facebook, est un cadre de requête distribuée de données,Incur intégré aux bases de données de la ruche, HBASE et relations. Mais derrière le même mode que l'étincelle, toutes les poignées sont terminées en mémoire et la plupart des scripts ont une ampleur par rapport à la nid d'abeille.

4) Kylin La technologie de pré-comptage Cube est le noyau, les idées de base augmenteront la vitesse des données, uniquement des index de numérisation et n'accumulent pas les données d'origine pour accélérer. L'inconvénient est que chaque taille augmente ou diminue pour surveiller la surveillance historique des données pour les blocs, très consommés.

5) DRUID Open Source de MetaMarket, est un système de stockage de données analytique de quadrant stocké, distribué et des couches de latence pouvant aller jusqu'à 5 minutes. Il peut assurer des performances d'analyse de la requête importantes dans des environnements hautement simultanés, tout en fournissant des requêtes, une analyse et une visualisation de grandes données en temps réel.

1) Cadre de visualisation Cadre de visualisation open source: bâtimentLes célèbres ultrasons et métabaset sont plus populaires que les planifications de la superset entièrement complètes, prend en charge la synthèse de différentes sources de données pour former un indicateur correspondant et par type de graphique riche, une excellente analyse de la série chronologique, intégrée à la profondeur druide, elle peut analyser rapidement des ensembles de données à grande échelle; Mais ne prenez pas de soutien à la gestion des paquets et aux machines de forage et aux fonctions de liaison, et la gestion des juridictions ne se font pas des amis. La métabase porte une attention particulière à l'expérience non technique, la plus belle interface et la gestion des droits autorisés et les graphiques et le contenu des données peuvent être partagés en dehors du compte; Mais dans l'analyse de la ligne de temps ne prend pas en charge la comparaison de dates différente, il existe un déploiement SQL automatique, chaque requête ne peut être ciblée que cibler et fonctionnera plus volumineuse.

2) Logiciels logiciels commerciaux fins orthodoxes: PowerBI, Tableau, Finebi Tableau: opération simple, visualisation, fonctionnalités de base peut être tirée, mais le prix est coûteux et fonctionne.Capacité de nettoyage de données générale, dispose d'un bon soutien d'entrepôt de données;

FINEBI: opération simple, similaire à tableau, mais la capacité de nettoyer les données mieux que Tableau, la manière dont une partie, achète en permanence en fonction du module de fonction; PowerBI: Vous pouvez faire une déclaration complexe, un filtre, une logique de calcul claire, peut être personnalisé, mais de nombreuses fonctionnalités doivent utiliser la compilation de DAX, la torale peut être limitée, pas facile à commencer. "Livre de référence" "Gestionnaire de produits doit comprendre les techniques": principalement sur les connaissances techniques du gestionnaire de produits doit comprendre, que ce soit pour réduire la déchirure *, il est toujours amélioré ce livre vaut la peine de lire dans ce livre. "La route de grande architecture de données": principalement basée sur l'introduction de la technologie de données importante et les avantages et inconvénients de la technologie de données couramment utilisés, il peut être utilisé à partir de. Quel est l'article de référence "" Données profondes intensives: qu'est-ce que Hadoop? " "Chaque malLes gens comprennent-ils les grandes données "

Sujets