FLINK est un moteur unifié pour les entrepôts de données modernes: la production d'intégration de la ruche est prête!

Quels besoins avez-vous besoin pour vous rencontrer en 2020? Nous résumons quelques autres:

En premier lieu, l'entreprise actuelle se déplace rapidement vers un mode plus en temps réel, ce qui oblige la société à avoir un traitement de faible retard sur les données de flux de ligne pour répondre à la réalité. Exigences de l'analyse des données temporelles en temps réel) ou en temps réel. Il devient plus bas et plus bas pour retarder les données aux données disponibles. Les retards pendant quelques heures ou même jours ne sont plus acceptés. L'utilisateur est impatient de quelques minutes ou même quelques secondes d'expérience finale de données.

Deuxièmement, l'infrastructure de données doit avoir la capacité de traiter des lignes et des données hors ligne simultanément, et deux modes sont indispensables dans des applications pratiques. En plus du traitement de flux mentionné ci-dessus, les utilisateurs ont également besoin de lot pour effectuer une requête instantanée (requête ad-hoc) et une extraction de données. L'infrastructure de données ne doit pas nécessiter que deux options utilisent deux options et deux options doivent être fournies et sont de haute qualité.

Troisièmement, les ingénieurs de données, les scientifiques de données, les analystes et les opérateurs sont désireux d'un ensemble de piles de technologies de données unifiées pour faciliter l'utilisation. La pile technique dans le domaine des grandes données a été prélevée depuis de nombreuses années. La société peut avoir un ensemble de systèmes de traitement de flux, un système de lots, un ensemble de systèmes d'analyse de données en ligne. Ceci est essentiellement en raison du problème d'être obligé d'utiliser l'architecture Lambda en raison du manque de maturation de l'année. C'est différent maintenant, la manipulation des flux est devenue grand public et les utilisateurs finaux n'ont pas besoin d'apprendre une variété de compétences et de conserver une variété d'outils complexes et de tuyaux de traitement de données. L'utilisateur est désireux est un ensemble de programmes unifiés simples et faciles à gérer.

Si vous avez les mêmes sentiments sur les questions ci-dessus, cet article vous convient très bien. Jetons un coup d'œil à la façon de résoudre ce problème.

Ensuite, je vais découvrir l'intégration du niveau de production de plis et de la ruche.
Le niveau de production de flandt et de ruche =

La flexion suivit le concept idéologique de "un cas particulier de priorité de flux, le lot est un flux". Sous la direction de cette idée, FLINK utilise la technologie de traitement des flux la plus avancée à lot, de sorte que la capacité du lot de FLINK est impressionnante le matin. Surtout dans FLINK 1.10, nous avons essentiellement terminé l'intégration du planificateur de clignotant à partir de 1,9 et les capacités de lots de FLINK SQL étaient davantage au premier étage.

La ruche est devenue un composant d'entrepôt de données standard dans la grande écologie des données. Ce n'est pas simplement un moteur SQL, mais aussi un tube de donnéesSystème. Mais en raison de ses propres limitations, la ruche est confrontée à un grand défi au moment et ne peut pas répondre aux besoins des utilisateurs.
Basé sur cela, nous avons lancé une version bêta d'intégration de FLINK et de Hive de FLINK 1.9. Au cours des derniers mois, nous sommes basés sur les commentaires des utilisateurs et les produits sont renforcés dans tous les aspects. Je suis très heureux d'annoncer que l'intégration de Flink and Hive peut réaliser une production dans la version 1.10!

Introduisons quelques détails pour vous.

Deuxièmement, la gestion des métadonnées unifiées

Hive Metastore est progressivement devenue le moyeu d'écologie Hadoop. De nombreuses entreprises utilisent la ruche métastore pour gérer leur ruche ou même la NPME.

FLINK 1.9 Nous avons lancé le FLINK'S HIVECATALOG, et le chiffre a amarré les riches métadonnées dans la ruche métastrore. Hivecatalog a deux couches.

On est que cela permet aux utilisateurs de FLINK de stocker les métadonnées de la plainte elle-même, y compris les tables, les fonctions et le type de métastour de la ruche.

Deuxièmement, il permet à FLINK d'utiliser les métadonnées de la ruche existant dans la ruche métastore de sorte que le flux puisse lire et écrire la table de la ruche.

La nouvelle fonctionnalité de FLINK 1.10 est que les utilisateurs peuvent interfacer presque toutes les versions de Metastore HIVE. Voici un exemple de la façon de stocker la métadonnée de la table de la table de Kafka de la ruche de la ruche.

Exemple de code:

https://ci.apache.org/projects/flink/flink-docs-release-10/dev/table/ Hive / Hive_Catalog .html # Exemple

En raison du défaut de la ruche elle-même, l'utilisateur ne peut pas obtenir de capacité d'importation de données en temps réel. Mais en intégrant avec le pliale, les utilisateurs peuvent déverrouiller d'autres scènes utiles, telles que: Données en temps réel pour le flexionEt la ruche des données hors ligne à rejoindre

en redeviennent les données de la ruche

Quatrième, la version de la ruche est compatible

dans FLINK 1.10, nous sommes compatibles presque toutes la ruche 1.x, 2.x, 3.x versions.
V. Fonctions de ruches multiplex

L'utilisateur peut être multiplexé dans FLINK 1.9. C'est génial pour les utilisateurs de la ruche, car les utilisateurs n'ont pas besoin de ré-développer des fonctions, d'économiser du temps et des efforts.

FLINK 1.10 introduit le concept de module et prend en charge toutes les fonctions autonomes de la ruche via Hivemodule. La communauté de la ruche a accumulé une fonction de soirée de soi importante au cours des dernières années, ce qui facilitera la tâche des utilisateurs de mieux compléter leur travail en matière plante.

Sixième, renforcer la lecture et l'écriture de données de la ruche

1.10 améliore la prise en charge des données de la ruche. En lecture, FLINK peut lire la table de partition de la ruche et vue (vue); en même temps, nous avons ajouté beaucoup d'optimisation de lecture, telle que la taille de la partition et la poussée de projection pour réduire à partir d'ingestion de données de fichiers. du système; pour le fichier Orc, nous avons rejoint la lecture quantitative.

par écrit, le flux introduit la syntaxe "Insérer dans" et "Insertion d'une insérence"; En outre, FLINK peut toujours écrire sur le tableau de partition de la ruche statique et dynamique.

Sept, plus de type de données

1.10 Nous soutenons des types de ruches plus courantes.

Huit, plan de planification ultérieure

Planification de la Communauté visant à optimiser davantage l'intégration entre deux systèmes sur la base des commentaires de l'utilisateur. Certaines cibles de 1.11 comprennent:

Dossier de streaming à temps réel de Hive

Dossier de parquet natif

Informations complémentaires - Autoriser les utilisateurs à créer une ruche à partir de FLINKTables et fonctions, etc.
Meilleur hors de l'ordre

Support de la syntaxe de la HIVE

Le voyageur se développe dans une direction plus en temps réel et la combinaison étroite de FLINK fera cette tendance est plus loin.La combinaison de la ruche dans les métadonnées et le champ de données de FLINK 1.10 peut mieux résoudre des problèmes pratiques dans le domaine des métadonnées et des données, apportant davantage de valeur à l'entreprise.

Sujets

Les données

Catégories

Produit de données