est originaire de Facebook, provoquant des requêtes SQL à Hadoop devenant possible, pas de programmeurs, il est également facile d'utiliser une utilisation. HIVE est un outil d'entrepôt de données basé sur Hadoop, mappage de fichiers de données structurés à la table de base de données et fournit une fonction de requête complète pour convertir les relevés SQL aux tâches MapReduce.
La ruche est un cadre d'entrepôt de données basé sur Hadoop. Il fournit une variété d'outils pouvant être utilisés pour exécuter l'extraction de données (ETL), qui est un mécanisme de stockage, de requête et d'analyse de données à grande échelle stockée dans Hadoop. HIVE Définit une simple langue de requête SQL appelée nom de HQL, vous permettant de vous familiariser avec les données de requête d'utilisateur SQL. Dans le même temps, cette langue vous permet également de vous familiariser avec Mapreduce Developers pour développer un navigateur et une décélération personnalisées pour gérer des analyses complexes que le mappeur intégré et le recollecteur ne peuvent pas être complétés.
Pour installer et utiliser des détails de la ruche, veuillez vous reporter à l'article: Installez HoneyComb et utilisez des raiders
Lundi, Hive Learning Hive Plan
. Le point de connaissance de la ruche, j'ai été listé sur la photo, j'espère aider les autres mieux comprendre la ruche.
Ensuite, c'est mon expérience, personne n'a un raccourci. Il est difficile de mettre votre coeur.
Troisièmement, utilisez l'expérience
J'ai deux considérations avec la ruche:
1. Les analystes de données n'ont aucune expérience de développement, capable de manipuler de grandes données
2. Processus de développement de MapRéveloppement standard
(1) L'analyse des données de la maison ne permet aucune expérience de développement, capable de manipuler des données importantes
Conformité au concept de conception de la ruche, a toujours souligné, pas besoin de dire.
(2) Le processus de développement de MapReduce est normalisé
Cet aspect est la direction que nous devons travailler dur.
Premièrement, la nid d'abeille a emballé le processus MapReduce avec SQL, ce processus de package est la normalisation de MapReduce.
Lorsque nous faisons des affaires ou des outils, nous utilisons des forfaits logiques pour des scènes, c'est un pack en nid d'abeille. Lorsqu'il est dans la deuxième couche, nous devrions protéger les détails de la nid d'abeille autant que possible, que les interfaces soient surveillées, faibles et moins flexibles et rationalisées à nouveau la structure syntaxique du HQL. Seules nos exigences système, interface dédiée.
Lorsque vous utilisez le deuxième package, nous ne pouvons plus connaître aucune nid d'abeille, je ne sais pas ce qu'est-ce que Hadoop est. Nous n'avons besoin que de savoir que SQL Query (standard SQL92), écrit efficacement, écrire pour compléter les besoins commerciaux.
Lorsque nous terminons le deuxième emballage de la ruche, nous pouvons construire un processus de développement MapRéduce standardisé.
L'idée du nombre ci-dessus, nous pouvons unifier les différentes applications de l'entreprise en fonction du nid d'abeille, et lorsque la qualité est levée, peut être pelée sur nid d'abeille, le remplacement d'une solution mécanique meilleure copie, si l'emballage ne change pas, même Le remplacement de la nid d'abeille ne sait pas, nous avons remplacé le nid d'abeille.
Ce processus est nécessaire, cela signifie également. Lorsque je envisage de construire un outil d'analyse Hadoop, le plus efficace est une interface d'accès Hadoop comme Hadoop.
Parce que la ruche est la construction de Havoop, simplement un ensemble d'interfaces d'accès Hadoop. Hive-lui-même n'a pas beaucoup de choses, alors nous faisons attention aux questions suivantes.
Utilisez votre propre élément d'inventaire de données
pour définir un numéro de données de godet raisonnable
pour comprimer la table.
Identifier l'utilisation de tables externes
Contrôler le mapple, le numéro de réutilisateur
4, cas h
Les cas ont été conservés dans l'article
Installation et à l'aide de Raiders de HIVE HIVE Saisie des tests de données 10g R-Jian Nsql Hive Series Article Utilisation de la RIVive des données historiques