1. Contexte du projet
Nous avons donné à ce projet de libérer des programmeurs des règles volumineuses et de les prendre dans des travaux de traitement des données plus élevés.
Pour résoudre ce problème, nous isolerons la machine d'extraction affectant les travaux de coointstance et d'efficacité, décrivant le trafic de traitement de données suivant:
Le "plug-tiré" doit être fort, alors l'interface de clé a:
Entrée normalisée: Obtenez des objets HTML DOM standard pour entrer
Extrait de contenu Normalisé: Utilisez des modèles XSLT standard pour extraire le contenu du site Web
Sortie standard: Sortie du site Web du format XML standard, Contenu
Effacer l'interface de prise d'extraction: L'extracteur est une classe clairement définie, interagissant avec le module de moteur de chenilles
Troisième, code d'extraction
Ensemble d'extrait pluggable est le composant central d'une AsieN NISH REPTILE Instantané, défini comme une classe: GSEXtractor
Fichier de code source Python et son document de description Veuillez télécharger de GITUB
Ce qui suit est un exemple de programme qui montre comment utiliser le site Web d'extraction GSEXRACTore GOOSeeker de la liste de bbs post. Cet exemple présente les caractéristiques suivantes: Echantillons XSLT utilisés par l'extracteur préféré: XSLT_BBS.XML Utilisez uniquement des exemples, des scripts d'utilisation réelle, la source XSLT présente de nombreuses, la principale source de la ligne principale est située sur le Plate-forme d'oie. API Print Extraction Résultats sur l'interface du panneau de commande Ce qui suit est le code source, peut être téléchargé à partir de github , Comme indiqué ci-dessous: 5, LIRE Suivant Cela écrit expliquer la valeur et l'utilisation de l'extracteur, mais ne parlez pas de la créer, seul l'extrait rapide peutLa réalisation de ce problème sera expliquée dans d'autres articles dans le but d'économiser du temps de développement. Terminer Auteur: Hua Tian Khanh Cet article a été autorisé avec l'auteur, tel que la réimpression, veuillez contacter l'auteur.