Entretien 2020JAVA Vérifications de données importantes Surface populaire + Résumé de référence Réponses

1. Questions d'entretien technique

1, quels composants de hainop? Hadoop = HDFS + Fibre + Mapreduce + HIVE + HBASE + ...

1), HDFS: Système de stockage de fichiers distribué

Main: Namenenode

de: Datanode

2), Fibre: Système de gestion des ressources distribués pour les ressources (mémoire, etc.) dans le même cluster de gestion

Lord: Théâtre
de: Nodemanager

3), Mapreduce: Calculez le cadre Hadoop, Résumé global des données sur la carte et réduire

4), Zookeper: Service de coordination distribué, utilisé pour maintenir le restaurant de la confiance de la configuration de cluster, les choses envoyées par tâches, la gestion de l'adresse de cluster, la gestion des clusters, etc.
, Quorumpermain

De: Quorumpermain

5), HBASE: Base de données de dispersion Hadoop, similaire à NSQL

, Hrgoneserver, Hive: Entrepôt de données dispersé, en Técologie réelle, il s'agit d'une analyse de données. Outil, Bundreding ou Mapreduce

8), SQOOOP: Utilisé pour utiliser des données dans le déchargeTraditionnel est entré dans HBASE ou HDFS

9), Spark: Cadre de dispersion basé sur la mémoire
Main: Master

de: Staff

]

2 Quel est le rôle dans HDFS?

NAMENODE: Gestion des informations de métadonnées, attribuant une tâche de sous-nœuds (FSIMAGE est un instantané de l'ensemble du système de fichiers lorsque le bouton principal est démarré, les modifications sont un enregistrement révisé) Datanode: responsable de la conservation des données , rapportant au cœur du nombre principal de temps réel

Deuxièmement:

1) Premièrement, il est prévu de disposer de Namenode d'avoir un journal modifié et mis à jour pour Fsimage. Lorsqu'il possède un nouveau fichier Fsimage, il le copiera à Namenode.

2Namenode utilise ce nouveau fichier Fsimage lors du redémarrage, réduisant ainsi le temps de redémarrage.

3 Quelle est la différence entre les HDF et les fibres?

1) HDFS est un système de stockage de fichiers distribué, utilisé pour stocker des fichiers;

2) Le fil est un système de gestion des ressources CLa gestion des ressources non cachées consolidée pour les applications ci-dessus. Et envoyé, il introduit un avantage énorme au groupe d'utilisation, gestion des ressources unifiées et partage de données

4, processus de perturbation de MapReduce?

de la carte pour créer une sortie pour réduire les données pour récupérer les données en tant que shuffle.

1), la phase de collecte: Exporter des résultats de MapTask pour la mémoire tampon d'anneau avec la taille par défaut de 100 m, enregistrer la clé / la valeur, la partition des informations de partition et similaires.

2), la période de débordement: lorsque la quantité de données en mémoire atteint un certain seuil, les données seront enregistrées sur le disque local et les données doivent être triées pour que les données avant de rédiger des données sur le disque. Si le kit de combinaison est configuré, la même partition et les données principales seront organisées.

3), Stade de fusion: fusionner tous les fichiers de débordement temporaires afin de s'assurer qu'un calcul de carte final crée uniquement un fichier de données intermédiaire.

4), Étape de copie: Resulkask lance le flux d'extratère pour copier l'un des méchantsSon propre matériau sur les boutons MapTâche finis, sera stocké dans la mémoire tampon de la mémoire lorsque le tampon de mémoire atteint un certain niveau lorsque le seuil, les données sont écrites sur le disque.

5), la phase consolidée: tout en réduisant la vitesse de la copie à distance, les deux flux sont activés pour fusionner la mémoire dans le fichier de données local en arrière-plan.

6), Tri de tri: trier par des données consolidées, arrangez, car la phase de MapTask a été partiellement triée par des données, Rumetask assure simplement l'efficacité générique des données de copie. Mai.

5 Quelle est la différence entre la partition MapReduce et la combinaison?

La combinaison est divisée en haut de la carte et la diminution de la tête, le rôle consiste à placer la paire de valeur principale les uns des autres, il peut être personnalisé. La fonction principale de cette classe est l'unité de verrouillage clé similaire La partition est le résultat de la séparation de la carte chaque bouton. Suite à la clé pour diminuer différemment, peut également personnaliser, la partition consiste à catégoriser ces données

6, mode disponible de Hadoop?

7. Quel est le rôle du zoo dans Hadoop? 1) Zookeepee est principalement utilisé pour résoudre des problèmes de gestion de données courants dans des applications dispersées, telles que la gestion des clusters, le service de dénomination unifié, la forme de la dispersion de la gestion structurelle, le message dispersé, le verrouillage de la dispersion, etc.

2) Zookeper est un groupe composé de plusieurs serveurs, un leader, de nombreux adeptes, chaque serveur stocke une copie de données, des données globales, une lecture de lecture, mettant à jour des demandes de transfert, en déployant le leadership.

8, le principe de base de SQOP? est un outil pour déployer un mouvement de données entre les données structurelles (telles que les bases de données relationnelles) et Hadoop. Il utilise complètement la fonctionnalité parallèle Mapreduce pour accélérer le transfert de données en fonction des lots, ainsi que sur MapReduce pour obtenir une résistance aux erreurs

9, SQOP est une base de données relationnelle?

SQOOOP Enter-Tableaux -Connect JDBC: MySQL: // 192, 168, 52, 110 / HIVEMETB- racine racine -paotword

. . ] . . . 10, comment comprendre la classe d'abstraction en Java? Les classes abstraites ne peuvent pas être initialisées, les mots-clés hérités durent encore plus longtemps et après héritage, la méthode peut être écrasée, il suffit de hériter de la méthode A: méthode abstraite et méthode abstraite doit être modifié avec des mots-clés abstraits; B: Les classes abstraites n'ont pas nécessairement une méthode abstraite, mais la classe a des méthodes abstraites qui doivent être définies comme des classes abstraites; C: La classe abstraite ne peut pas être un exemple en direct; (peut être initialisé par sous-classe (classification après réécriture)); pas spécifique; La classe abstraite a une méthode de construction pour initialiser les sous-classes avec des données parentales; D: classe de classe abstraite; Si vous ne voulez pas réécrire les méthodes abstraites, les sous-classes doivent être une classe abstraite; Devenir une classe spécifique doit remplacer toutes les méthodes abstraites; En raison de l'espace limité, seuls certains d'entre eux, qui vous avez besoin de la version complète peuvent prendre un lien ultérieur! Lundi, questions de test de surface du projet 1, sur le projet; 2, comment la table HBASE enregistre-t-elle des données? Quelle est la quantité de données par jour? Avez-vous HBASE dans de nombreuses données? Au début, c'est un fichier, HBASE est une structure de table, puis comment obtenez-vous des données et donnez-vous la structure de la table? 3, si maintenant je veux interroger le nombre de pilotes avec le volume d'ordre le plus élevé chaque mois chaque mois, comment le faites-vous? 4, comment la ruche lit-elle les données? Je veux enregistrer mes donnéesBesoin à l'intérieur, comment voulez-vous optimiser?5, avez-vous utilisé des outils ETL?Comment l'utiliser?Tout comme la façon dont PUME a des données, comment configurez-vous?Comment Kafka a-t-elle lu les données?Le nid d'abeille est-il directement à partir de Kafka?6, avez-vous construit l'apparence?Comment construire?Pourquoi voulez-vous construire une apparence?7, écrivez-vous Shell?Qu'est-ce que tu écris?8, devriez-vous utiliser la commande Linux pour l'utiliser?Je dois vérifier tous les suffixes maintenant, le nom de fichier de TXT, comment vérifier?Utilisé grep?9, je ne veux pas vérifier le chauffeur maintenant, je veux vérifier la commande, comment concevoir des tables HBASE?

Sujets

Les données

Catégories

Plate-forme intermédiaire de données