Téléchargez mon fondateur général, Jonathan Wu sur l'article de Pinot, j'espère aider les gens.
Le retour de la Chine était de deux mois. Nouvelles récentes de Pinot Open Source est couverte par le cercle de mes amis. En tant que première tentative d'utilisation dans le monde et promouvoir Pinot en tant que groupe LinkedIn pour des outils d'analyse, notre groupe Pinot est apprécié sincèrement. Je représente mon équipe ici pour partager une expérience et une expérience de leur communauté.
Tout provenant de LinkedIn a parrainé cette mise à jour de la liaison publicitaire pour convertir les entreprises publicitaires en terminaux mobiles développés avec succès. En 2013, LinkedIn s'est engagé à construire 3 millions de sociétés et 23 millions de personnes (nombre d'utilisateurs au deuxième trimestre de 2013) des utilisateurs mondiaux uniCom Bridge pour aider les entreprises à envoyer directement les informations les plus pertinentes à la page d'accueil de l'utilisateur. Ceci est un produit stratégique important.L'application précédente est disponible dans les pages, puis l'application mobile sera configurée. Les mises à jour sponsorisées sont la première application commerciale LinkedIn qui est également publiée sur les applications Web et les applications mobiles. Essentiellement, les mises à jour financées sont une entreprise publicitaire de la liaison et des téléphones mobiles et de gagner de l'argent en tant que ligne d'activité. Cependant, LinkedIn a mis l'expérience utilisateur à partir du début et a essayé de trouver un point de revenu et d'interaction équilibré, éviter l'impact de l'assuré ou incapable d'être intelligent. La clé pour trouver le solde est l'application des données, de sorte que les annonces de paiement sont raisonnablement mises à jour avec des informations naturelles. Mais les caractéristiques de la multiplate-forme ont accru la complexité de notre analyse.
En octobre 2014, j'ai été partagé avec la réunion de Parveen's Starta + Hadoop à New York.
Faites un bon travail en analyse de données, vous devez d'abord effectuer le travail des points de données. Pour cC'est un japonais sponsorisé, c'est un terminal mobile et un terminal à collecter, et parce que le produit vient d'atterrir, il existe de nombreuses exigences pour le montant et le type. À cette époque, nous avons analysé l'unité de gestion de la publicité de l'équipe, qui consacrera beaucoup de temps à combiner avec les gestionnaires de produits et au personnel des ventes afin de configurer une grande étiquette de page, un code de suivi et une définition de KPI de base. Il est généralement divisé en de nombreux types d'idées: premiers, premiers besoins: comme utilisateur, niveau de carrière, fonction professionnelle, industrie, compétences, nombre de personnes, v.v.; Deuxièmement, Données comportementales: connectées à LinkedIn, niveaux interactifs, ces sociétés s'intéressent aux sociétés ayant accès à la page d'accueil de la société; Payer la mise à jour de la publicité, il est vu différemment avec la fréquence de mise à jour des informations naturelles. Cette section, Yuanming of Notre équipe a dirigé la totalité des groupes d'analyse de données publicitaires, plans et entreprises publicitaires de 7 jours et 7 jours sur 7 et 7 jours de différentes étiquettes analytiques,Collecte de données et toutes les manipulations, produits publicitaires, pièces mobiles et techniques. Résultats d'analyse de communication différentes.
Cependant, j'étais responsable de la solution de données de l'ensemble du service d'analyse des affaires, au fil des requêtes, de la taille de l'utilisateur, du comportement des utilisateurs et de la taille du groupe différente, s'ils veulent faire des indicateurs combinant la plage de taille De temps, avec le grappe Hadoop environ 2000, sur une base de file d'attente très lourde, même si vous exécutez le script Hadoop, vous ne pouvez pas exécuter tous les groupes analytiques et. En outre, les gestionnaires de produits quotidiens doivent effectuer une analyse en temps réel de plus de lignes de données et nous avons une solution BI au décalage de 5 minutes et de vitesses très lentes. Les exigences des nouveaux produits sont proposées en permanence et le processus d'analyse continue, la taille ne peut pas être déterminée, si les analystes doivent augmenter la demande de tailles analytiques, le service de l'analyse de données économiques Notre activitéJe dois courir plus de scripts. Nous savons tous que plus de dimensions, une activité globale est 2 fois plus.
Les mises à jour financées sont le produit sur la page d'accueil LinkedIn et la quantité de données créée est grande et chaque mise à jour dispose de plusieurs logiques multidimensionnelles. Ces défis ne peuvent être résolus avec des méthodes traditionnelles, c'est pourquoi nous avons recherché différents programmes. Pinot Pour le moment est une solution pour la base de données de transactions en ligne en ligne. Après avoir communiqué avec le superviseur technique haut de gamme de LinkedIn, nous avons décidé d'essayer Pinot sans une analyse d'analyse OLAP.
Pourquoi utiliser Pinot?
Motifs de l'utilisation de Pinot. Il est important de maintenir une bonne relation dans LinkedIn et les ingénieurs (apparemment identique), j'ai d'abord essayé senseidb, mais le plat principal de Senseidb a eu lieu Twitter. À cette époque, le superviseur de gestion LinkedIn recherché, introduitDonnez-moi l'équipe de développement du Pinot, un total de 3 personnes et un ingénieur est nouveau. Pinot est principalement supporté sur des systèmes en ligne liés. Chaque QPS a besoin de moins de 600 millisecondes. Produits Prise en charge de l'API SQL SQL. La source de données peut être KAFKA, qui peut être utilisée directement à partir d'Avro Hadoop Format pour entrer Pinot, le filtre de support, le groupe. Leur groupe est petit, la tâche est très importante, principalement en se concentrant sur les services en ligne, sans temps pour soutenir notre analyse d'analyse hors ligne. Heureusement, dans leur équipe, il existe de nombreuses coopérations avec notre groupe d'analyses. Nous puissions constamment l'avenir de Pinot, vous pouvez soutenir les requêtes OLAP et enfin obtenir 4 machines, comprend: 16 cœurs, 48g, SSD, donc nous commençons à essayer.
Figure 2 Pinot peut répondre à la scène technique
]
Figure 4 Pinot est utilisé Index, y compris le déploiement de filtre multi-valeurs
très excitéTéléchargez 1 jour 1 jour Données, exécutez après quelques requêtes, vérifiez le journal, plus de données est numérisée, la requête plus facile est plus facile, la première conclusion est une petite requête envoyée plusieurs fois et très bonne mission, petite mission, Xiajou rapide, peu importe Quoi, étape demain si vous ne voulez pas trop courir, c'est aussi un problème de mettre le temps d'attente. Enfin, nous avons décidé que le précédent d'abord supprimera la requête en plusieurs requêtes en fonction de la quantité de données pouvant être numérisées, puis de contrôler et de libérer et de vous assurer que la requête peut renvoyer le résultat en 10 secondes. Ce résultat convient à mes attentes. Si vous courez dans Hadoop, je dois attendre longtemps.
Après avoir terminé l'arrière-plan, j'ai rapidement construit une interface de site Web pour les gestionnaires et l'analyse de produits, permettant aux données de dépistage et d'intégration afin de garantir les nouvelles données saisies de Hadoop à Pinot. Et dans le point de vue de l'utilisateur, c'est un saut de qualité: je dois attendre une journée avant de pouvoir tGagnez des résultats et je le résolvez pendant 10 secondes. Cela permet à nos analystes d'évaluer la performance du produit en peu de temps.
Ce qui suit, nous avons besoin de deux caractéristiques: Soutenez le comptage des utilisateurs et des filtres uniques sur TUPLE. Lorsque j'ai démarré, j'ai présenté l'utilisation de différents fichiers de segment dans différents fichiers de segment et pour vous assurer que les fichiers de segment sont adaptés à stocker la même plage de verrouillage. Cela transformera le comptage unique en beaucoup de petites requêtes, puis effectuera tout le mode de consolidation le plus simple. En fait, il y a une activité de comptage, assurez-vous simplement que chaque fichier de segment n'a pas de répétition. Après cela, le groupe Pinot a augmenté la fonction de Hyper Loglog. Les filtres sur plusieurs valeurs sont également une bonne fonctionnalité et LinkedIn a différentes compétences sur chaque utilisateur et chaque utilisateur a des compétences différentes. La recherche devient très simple: par exemple, nous voulons trouver des personnes avec des compétences Java ou Scala,Il suffit d'écrire des compétences (Java ou Scala) et derrière l'indice Bitmap complètement basé sur.
À cette époque, seules 3 équipes Pinot ont rendu de tels produits très géniaux. L'équipe de l'équipe et du Pinot a lancé de nombreux liens plus profonds, ainsi que de très bonnes relations avec le principal Poraveen de Pinot.
Directeur, fondateur Gorwoingio est maintenant. Diviser vers LinkedIn, eBay, HP, 2007 ira à l'étranger, la croissance établie en 2015.