Si les données sont une métaphore dans "champ pétrolier", nous devons excaver complètement sa valeur, il faut d'abord "minier / stocker", le stockage de la collecte de données, suivi de "raffinage", à savoir l'extraction et l'analyse des données, enfin Atteindre des données crée plus de valeur. Prendre le commerce électronique actuel aujourd'hui: les sociétés de commerce électronique utilisent des techniques d'analyse de données pour analyser les préférences de l'utilisateur en collectant des techniques d'analyse de données et recommandent des produits de base connexes, améliorant ainsi l'efficacité des achats de l'utilisateur; les entreprises commerciales peuvent également établir un modèle prédictif qui Prédit une population particulière, ajustant la méthode de vente à différentes étapes et améliore la satisfaction du produit de l'utilisateur, augmentant ainsi les ventes.
À l'origine, les entreprises s'appuient généralement sur des solutions d'entrepôt de données locales coûteuses et privées pour stocker et analyser des données, en raison des exigences de paradigme modèles, les données sous-jacentes ne peuvent pas être effectuées, provoquant une entreprise d'entreprise. changer. En même temps, avec l'épidémie de l'Internet / Internet mobile, la quantité de données de la Tb à PB à EB, le type de données est couvert par des données structurées, des données non structurées, des données semi-structurelles et des utilisateurs Géographiquement, des relations sexuelles opportunes. Les exigences exigeantes rendent le système traditionnel des entrepôts de données doivent être mis à jour.
Aujourd'hui, il y a un nuage, une élasticité élevée et un calcul et un stockage évolutif, de sorte que le stockage et l'analyse des données sont plus faciles à résoudre, peuvent être dites des solutions de données en nuage qu'il a devenir une tendance générale.
Premièrement, l'innovation technologique de l'AWS Data Lake
Le concept de Data Lake est plus tôt en 2006 et son concept principal est de définir le lac de données en tant que conteneur stocké des données centrales. Les données peuvent facilement entrer dans le lac Data, qui peuvent stocker des données structurées, non structurées et semi-structurées et de prendre en charge une mise à l'échelle rapide du volume de données, de s'adapter de manière flexible aux modifications des applications de données supérieures et de réaliser finalement une analyse de stockage et de la requête des données massives.
Et le concept de concept de Data Lake est AWS (Amazon Web Services).
AWS a depuis longtemps commencé à promouvoir l'évolution technique de Data Lake. En 2009, AWS a lancé une architecture Amazon Elastique Mapreduce (EMR) Data Lake pour configurer automatiquement des HDF dans des clusters d'instance EC2.En 2012, le service de cloud Data Warehouse Cloud de l'architecture MPP du cloud a continué d'introduire Amazon Redshift; puis AWS a progressivement tourné au cœur du lac Data vers Amazon S3.
1,
Moteur de requête de données rapide
sur AWS, service de stockage d'objet Amazon S3 Son haute disponibilité, haute persistance, évolutivité et format de données La compatibilité est devenue le premier choix pour la construction du lac de données. AWS fournit également une méthode de requête interactive pour interroger directement les données de S3 et Amazon Athena est un service de requête interactive.
Il peut utiliser SQL standard pour analyser les données d'Amazon S3 et Athéna est facile à utiliser, pointez sur les développeurs pour stocker des données dans S3, définir l'architecture pour commencer les requêtes, il n'a pas besoin d'effectuer un complexe complexe. Emplois ETL Préparation de l'analyse des données, les développeurs peuvent facilement analyser des ensembles de données à grande échelle.
2, Comment résoudre le problème du format de métadonnées?
Puisque le lac de données peut être stocké dans n'importe quel format, il n'est pas nécessaire de le convertir en une structure de données prédéfinie, l'un des principaux défis utilisant le lac Data est de trouver des données et de comprendre les données Structure et format. La colle AWS aide les développeurs à extraire, convertir et charger des données et transférer des données entre différents stockages de données. De plus, la colle utilise un service hébergé complet, qui grimpe automatiquement les données massives du lac Data comme "reptile", génère automatiquement le répertoire de données, qui est le stockage de métadonnées permanent de tous les actifs de données. Après avoir déposé dans le répertoire, les données peuvent être immédiatement fournies avec la recherche, la requête et l'utilisation de l'ETL.
Il convient de mentionner que Athéna peut s'intégrer avec le répertoire de données Glue AWS, implémenter la boîte, l'aideLes développeurs peuvent créer un référentiel de métadonnées unifiées sur différents services, capturer des sources de données pour découvrir des architectures et utiliser des tables nouvelles et modifiées avec des répertoires de données de la définition de partition et maintenir le contrôle de la version architecturale.
Comment construire rapidement le lac de données? Il n'est pas difficile de voir que le lac Data est un concept de stockage / analyse de données rapide efficace, mais il a également une complexité relativement élevée. Lors de la réglage et de la gestion de Data Lake, impliquant une grande quantité de tâches manuelles complexes extrêmement fastidieuses, y compris des données, de la surveillance des flux de données, de la définition de partitionnement, de cryptage d'ouverture et des clés de gestion, définissant les opérations de conversion et surveiller leurs opérations, rééditer Données pour être formats de colonne.
Et gratifiant, le 25 octobre 2020, la formation AWS Lake a été officiellement lancée dans la zone AWS China (Beijing) exploitée par le nouveau réseau du roop.
La formation du lac est construite sur les caractéristiques disponibles dans AWS Colle. Les développeurs n'ont besoin que de définir manuellement des sources de données pour développer des stratégies d'accès aux données et de sécurité à appliquer. La formation du lac aide automatiquement les développeurs les collecter à partir de la base de données et de l'objet de stockage et déplacez les données sur le nouveau lac de données Amazon S3. À la fin, les utilisateurs peuvent utiliser ces ensembles de données pour obtenir des services diversifiés en sélectionnant différentes analyses et services d'apprentissage automatique.
En résumé, l'ère des grandes données, la conception du système technique open source Ne rend pas le produit nuage ou les composants open source constituent des solutions globales de données importantes, telles que Data Lake, mais ne signifie pas que les entrepôts de données seront éliminés et les deux parties ont des contacts nécessaires. D'une part, à travers le nuage, améliorez continuellement la compétence essentielle de l'entrepôt de données, la modernisation de l'entrepôt de données. D'autre part, les entrepôts de données et les lacs de données sont deux méthodes de conception d'architectures de données importantes et les deux fonctions peuvent être complétées par l'autre, ce qui signifie que les deux parties ont besoin d'une interaction et de partage de données.
Afin deRéalisez l'interaction du lac, à la conférence AWS Re: inventer 2019, AWS propose un nouveau mode, c'est-à-dire «Lake House» dans l'AWS, et le secteur Data Lake est en train de former. AWS Lake House suit le paradigme "ELT" (extraction, charge, conversion), lors de la migration de l'entrepôt de données local vers Redshift, les développeurs peuvent utiliser des charges de travail SQL existantes optimisées pour ELT, il n'est pas nécessaire de commencer les relations depuis le début. Et la charge de travail complexe SQL réécrit comme nouveau cadre informatique.
Non seulement cela, le nouveau redshift a également une fonction d'exportation de Data Lake. Cette fonctionnalité écrit les données du lac de données, prend actuellement en charge les formats de parquet Apache, Orc, JSON et CSV, comme exemple de format de parquet (un format de stockage à colonne ouverte hautement efficace pour analyse), avec format de texte traditionnel pour le format de parquet,la vitesse de déchargement est 2 fois plus rapide et l'espace de stockage occupé dans S3 est réduit jusqu'à 6 fois.
En outre, le type d'instance RA3 de RedShift permet aux développeurs d'élargir de manière indépendante les exigences de stockage et de calcul des données redshift, aidant les développeurs gère des données et des charges de travail à un prix inférieur. Et RedShift peut traiter des requêtes simultanées et maintenir des performances cohérentes en prolongeant automatiquement une capacité transitoire supplémentaire, complétant ainsi le pic de la charge de travail.
Lorsque les données commencent parfaitement entre le lac Data et le redshift, cette flexibilité permet aux développeurs de choisir entre les coûts et les performances lors du stockage des données. Le meilleur programme de pliage.
En Chine, Xinhe en tant que société de production alimentaire à grande échelle, dans le cadre de plans de développement commercial multi-marques, proposé à une analyse de données à grande échelle et à la transformation des exigences plus élevées. Le système d'entrepôt de données traditionnel original et la pénurie de talents limitent le développement ultérieur de Xinhe, à cette fin, et choisissez la plate-forme AWS Cloud pour construire un lac de données. La haute stabilité et la sécurité de l'AWS Data Lake réalise la haute disponibilité et une forte expansion de l'entrepôt de données Xinhe, connectent les données sous-jacentes entre tous les systèmes d'entreprise et fournit un développement commercial solide par appel, analyse. Un soutien puissant aide à Xin et réalisez vraiment numérisation.
Résumé, Select AWS Lake House pour aider les développeurs à atteindre les objectifs suivants:
Stagition efficace de données à faible coût Puissance informatique évolutive indépendante Il est possible d'effectuer une grande quantité Échelle Traitement parallèle
Conversion standard SQL
, avec le développement continu de l'ensemble de produits et mode d'architecture la synergie du lac de données et l'entrepôt de données sera plus fréquent et le spectre AWS Redshift continuera de jouer un rôle clé dans l'architecture AWS Data Lake. Dans le même temps, comme le lancement davantage de services d'Amazon Redshift en Chine, AWS espère attirer davantage les grands développeurs de données de la Chine pour en apprendre davantage sur les solutions AWS Data Lake pour en apprendre davantage sur AWS. À l'avenir, AWS croit fermement que le schéma de nuages, tel que le nouveau modèle de Lake Warehouse, libérera une plus grande valeur de données pour les utilisateurs par rapport aux entrepôts de données traditionnels et aux solutions d'analyse de données.