Entrez le jour de l'ère, la technologie de données importante est devenue l'un des éléments essentiels du développement d'Internet. Dans le même temps, le salaire des ingénieurs de développement de données importants est également devenu un représentant élevé dans l'industrie. Pour participer à un grand développement de données, vous devez maîtriser les technologies de base: Hadoop, nid d'abeille, tempête, étincelle, scala , V.V. De plus, ces points de connaissances techniques sont devenus un centre de test doivent avoir de grands ingénieurs de données pour aller sur des lieux de travail. Ici est principalement de partager avec vous les questions relatives aux interviews liés à l'outil de Hive Data Warehouse Tool!
1. Il existe plusieurs façons de nid d'abeille, comment réaliser la participation? A: Il y a trois façons de participer.
1. Participez à la réduction, le mode de participation le plus couramment utilisé
L'activité principale de la carte supérieure: onglet enregistre de différentes sources. Ensuite, utilisez le champ de connexion pour verrouiller, le reste et le nouveau marqueur sont ajoutés en tant que valeur et sortie finale.
La tâche principale de minimiser: Dans la diminution, le champ de connexion est terminé en tant que clé, il suffit de séparer les enregistrements de différents fichiers (au stade de la carte) dans chaque package, enfin, Cartesi.
2, connectant sur la carte de la carte, à l'aide de la scène: une très petite table petite, une grande table
Premièrement, le premier petit fichier de table la place dans la distributionCache dans le travail , puis supprimez la petite table de la distribution pour effectuer le segment / les valeurs impliquées dans la mémoire à la mémoire (vous pouvez agrandir la carte de hachage). Scannez ensuite la grande table, voir si la clé / les valeurs de la valeur de participation de chaque enregistrement dans la grande table peut trouver le même enregistrement de clé de participation en mémoire, le cas échéant, le résultat est une sortie directe.
3, Semijoin
, Semijoin est une variante de la connexion gauche comme une variante de réducejoinjoin et de certaines données filtrées dans le haut de la carte. Pendant le processus de transmission, seules les données participantes connectées sont transmises, réduites. Transmission du réseau de shuffle, nLes autres pensées et diminutions sont les mêmes.Déploiement: apportez la clé pour participer à la petite extrait de table séparément de la distribution au bouton correspondant, la phase de numérisation de la carte du panneau de connexion, filtrant la clé HASHSET, permettant d'enregistrer l'enregistrement à tourner au petit côté en dérangeant et réduisant la participation.
Deuxièmement, la différence entre la table intérieure et externe?
Tableau dans: Lorsque la table est créée, le dossier stocké de la table est créé. Lorsque la partition est ajoutée, les données sont copiées dans cette position et les données et les métadonnées seront supprimées lorsque les données sont supprimées. Panneau externe: Définissez généralement la partition, lorsque les tabourettes ne déplacent pas les données sur la position. de cette table, lors de la suppression des données, seules les informations de métadonnées de table seront supprimées, les données de la table ne seront pas supprimées.
Comment la ruche effectue-t-elle des partitions?
Augmentation des cloisons:
Supprimer les partitions:
create table tablename (id) partitioned by (dt string)
Quatre, combien de façons de sauver des métadonnées, il y a des avantages et des inconvénients. stocké dans la base de données Derby, cette méthode ne peut activer que le client de la ruche, ne pas utiliser
alter table tablenname add partition (dt = “2016-03-06“)
dans la base de données MySQL, vous pouvez connecter plusieurs clients, recommandé alter table tablename drop partition (dt = “2016-03-06“)
5. Comment optimiser les nid d'abeille? Participer à l'optimisation, essayez de mettre la petite planche sur le côté gauche de la section de participation, si une table peut être utilisée pour utiliser Mapjoin.
Organiser l'optimisation, les niveaux bas et la distbute de + Trier par peut être obtenu par arrangement global.Utilisez des partitions et des requêtes pour réduire la recherche de données, gagner du temps.
Vendredi, RCFILE, TEXTFILE, SEQUENCEFILE Format de compression?TextFile: Format de défaut, données non compressées, coût aérien, résolution de données
SéquenceFile: Hadoop API fournit un deuxième support, facile à utiliser, séparation, compression, support trois compression, non, écriture, bloc.
rCFILE: C'est une combinaison de mémoire basée sur la mémoire. Premièrement, les données sont divisées en ligne pour s'assurer que le même enregistrement est sur le même bloc, évitez de lire un enregistrement pour lire plusieurs blocs. Deuxièmement, bloquez le stockage de colonne de données, faciliter la compression de données et l'accès à la colonne rapide. Consommation de performances importante Lorsque des données sont chargées, mais disposent d'un bon rapport de compression et d'une bonne rétroaction de requête.
Sept, Hive présente les avantages de Oracle? Stockage, nid d'abeille stockée sur HDFS, Oracle est stocké dans le système de fichiers local L'évolutivité et la nid d'abeille peuvent être étendues à des milliers de boutons et Oracle ne peuvent se développer qu'à 100 unités.
Stockage d'une seule table, la quantité de données de données peut être divisée en barils et données de grand oracle.Huit, la différence entre organiser la ruche suive et l'ordre de! L'ordre de sera organisé dans le monde entier pour les données d'entrée, un seul REDUU, une grande quantité de données, très lente. Trier par ne pas disposer globalement,Assurez-vous que chaque réuuce est commandée et il n'est pas garanti de configurer Mapred, Réduire, Duty & GT;1.