Idées de construction de données de données en temps réel

1. La production de numérique en temps réel

L'entrepôt de données traditionnel traite principalement T + 1 (Certains également appelés données D + 1) (c.-à-d.: Produit aujourd'hui analyse des données Les résultats seront vus demain), le concept de T + 1 provient du commerce d'actions, est un système de négociation en actions, c'est-à-dire des actions achetées au même jour, d'aller au prochain jour de négociation à vendre.

Avec l'importance de la chirurgie de données en matière d'entreprise, il augmente, par exemple, recommandation en temps réel, marketing de précision, effet publicitaire, logistique en temps réel, etc. La capacité de traitement en temps réel des données est devenue un facteur majeur de la promotion des entreprises. Le stade initial de la société utilise principalement la nécessité d'écrire une tâche d'informatique en temps réel pour gérer les données en temps réel. Avec l'augmentation de la demande, La tâche informatique augmente en conséquence et les développeurs de la tâche sont différents, ce qui entraîne la différenciation du style et le traitement de données en temps réel de cette phase dépourvue de planification unifiée, le style de code est grave et il y a un obstacle majeur à Coûts de maintenance et efficacité de développement.

Afin d'éviter les problèmes susmentionnés, les personnes se réfèrent au concept et au modèle de l'entrepôt de données afin de planifier et de concevoir un traitement de données en temps réel, sur cette base, à ce sujet, L'entrepôt de données en temps réel (numérique en temps réel).

Deuxièmement, la comparaison numérique hors ligne VS

Dit ici:

Hors ligne Grande architecture:
STOCKAGE HDFS, HIVE, MR, Calcul de l'étincelle hors ligne;

Lambda Architecture: Ajouter de nouveaux liens vers le traitement de données en temps réel Sur la base de la grande architecture de données hors ligne, nécessite une maintenance hors ligne et un traitement en temps réel deux ensembles de code;

Architecture de Kappa: Le traitement circonsenté, le traitement hors ligne et le traitement en temps réel sont intégrés dans un ensemble de code et le coût de l'opération et de la maintenance est petit, ce qui est la raison pour laquelle le chiffre est chaud aujourd'hui. L'architecture de Kappa est devenue une nouvelle tendance pour l'architecture de l'entrepôt de données.

Troisièmement, l'idée de construction numérique en temps réel

Sélection de l'image:
Tempête / FLINK et autres temps réel Les cadres informatiques, recommandent vivement les flux, ses caractéristiques de «lot une» et des communautés open source actives, ont progressivement remplacé les tendances des étincelles.

DonnéesÉconomies:
Le premier considérez l'efficacité de la requête, suivie de problèmes tels que l'insertion, la mise à jour et sélectionnez Apache Druid, mais il existe un défaut de la mise à jour des données. Lorsque la sélection, faites attention à la recommandation de données à jour fréquente ne doit pas adopter le schéma. Bien sûr, il s'agit d'un problème spécifique de stocker cette pièce, et le HBASE, Redis, etc. dans différents scénarios est facultatif.

Diories en temps réel Résumé: Pour de meilleures données de gestion unifiées, le modèle numérique en temps réel peut être traité hiérarchiquement par le modèle numérique hors ligne. Pour la déclaration en temps réel, Il est pratique d'utiliser le stockage de l'efficacité DRUID et d'autres enquêtes, et le résumé léger est utilisé pour résumer les données.

Schéma de rirircuit de données:

La source de données du port en temps réel peut être une file d'attente de messages KAFKA, qui peut être écrite sur le lac Data dans la file d'attente. Analyse du lot, vous pouvez En outre, le processus en temps réel en aval peut écrire sur le marché des données pour les entreprises.

Nous rencontrons souvent le même nom de l'indicateur lorsque nous traitons les besoins de données quotidien-aux résultats statistiques incompatibles. Une fois que ce phénomène, les raisons et les coûts d'interprétation sont relativement élevés. Les anciens indicateurs devraient répondre à de nouvelles règles et à défaut de définir des changements fréquents dans le fait que le problème rencontré au cours du processus de construction du système indicateur.

La gouvernance de classification peut résoudre ce problème dans la pratique d'exploitation. Nous divisons les indicateurs de données en deux types d'indicateurs actifs et de indicateurs stables, de définitions spécifiques et de méthodes de traitement sont les suivantes:

V. Résumé

En résumé, le numérique en temps réel est principalement résolu que le problème de la rapidité des données, tels que le grand écran en temps réel, la surveillance en temps réel, le contrôle du vent en temps réel, etc. Le cadre d'apprentissage de la machine combiné peut également être traité de la recommandation en temps réel et obtenir des scénarios d'entreprise intelligents tels que des effets de livraison publicitaires en temps réel.

La construction du numérique en temps réel doit être mise à l'ordre du jour dans les meilleurs délais, et les exigences des futures entreprises pour la rapidité des données seront plus élevées et plus élevées, et le temps réel Le numérique sera très bon pour résoudre ce problème.. Dans le même temps, pour notre pile technique, de nouvelles exigences ont également été avancées et des solides / FLINK SQL doivent être qualifiés et peuvent aller plus loin.

Sujets

temps réel

Catégories

Produit de données