I. Introduction
Au lieu de cela, le contenu Web dynamique déployé par JavaScript qui ne peut pas enregistrer le contenu requis à partir du code source HTML et JavaScript doit être effectué en premier.
Nous avons vérifié avec succès la méthode de prise de contenu Web dynamique dans "Crawler Python + Phantomjs". L'extracteur standard de la teneur en python est spécifié par le python de chenille open source, rendant le code très simple.
II. Point clé technique
Nous avons dit que cette source ouverte reptile dans de nombreux postes: sauvegarde des programmeurs. Il est important de sauver les règles d'extraction du temps. Le site Web de commerce électronique a beaucoup de contenu dynamique, par exemple les prix des produits et les commentaires, etc.
De plus, le boîtier n'utilise pas API REPTILE GOOSeeker, mais enregistre le script XSLT créé par le tableau MS ci-joint dans le fichier local et lisez le fichier lorsque le programme est en cours d'exécution. Aller au gsextractor. Les écoles hLe prochain cas de cas spécifiques montrant comment utiliser API.
En résumé, deux points techniques récapitulés sont résumés comme suit:Lecture du programme XLST à partir du fichier local
Auto-injection de XLST dans GSExtractor, en utilisant XSLT à partir d'un champ de contenu de site Web multi-miniers .Mardi. Source Python
quatre. Résultats de la collecte de données
Exécutez le code ci-dessus si vous gravissez tous les modèles de téléphonie mobile, les prix et d'autres informations sur les catalogues de téléphones mobiles Jingdong et enregistrez-la aux fichiers locaux «Jingdong Mobile List_1.xml». Nous utilisons le navigateur pour ouvrir ce fichier de résultats, vous verrez ce qui suit:
Terminer
Auteur: Hua Tian Khanh Cet écrit a été autorisé avec l'auteur, telle Comme réimpression, veuillez contacter l'auteur.