Chapitre 9 Combattre Mountain Python (2): Escalade Jingdong Liste des produits

I. Introduction

Au lieu de cela, le contenu Web dynamique déployé par JavaScript qui ne peut pas enregistrer le contenu requis à partir du code source HTML et JavaScript doit être effectué en premier.

Nous avons vérifié avec succès la méthode de prise de contenu Web dynamique dans "Crawler Python + Phantomjs". L'extracteur standard de la teneur en python est spécifié par le python de chenille open source, rendant le code très simple.
II. Point clé technique

Nous avons dit que cette source ouverte reptile dans de nombreux postes: sauvegarde des programmeurs. Il est important de sauver les règles d'extraction du temps. Le site Web de commerce électronique a beaucoup de contenu dynamique, par exemple les prix des produits et les commentaires, etc.

De plus, le boîtier n'utilise pas API REPTILE GOOSeeker, mais enregistre le script XSLT créé par le tableau MS ci-joint dans le fichier local et lisez le fichier lorsque le programme est en cours d'exécution. Aller au gsextractor. Les écoles hLe prochain cas de cas spécifiques montrant comment utiliser API.

En résumé, deux points techniques récapitulés sont résumés comme suit:

Lecture du programme XLST à partir du fichier local

Auto-injection de XLST dans GSExtractor, en utilisant XSLT à partir d'un champ de contenu de site Web multi-miniers .
Mardi. Source Python

quatre. Résultats de la collecte de données

Exécutez le code ci-dessus si vous gravissez tous les modèles de téléphonie mobile, les prix et d'autres informations sur les catalogues de téléphones mobiles Jingdong et enregistrez-la aux fichiers locaux «Jingdong Mobile List_1.xml». Nous utilisons le navigateur pour ouvrir ce fichier de résultats, vous verrez ce qui suit:

Terminer

Auteur: Hua Tian Khanh Cet écrit a été autorisé avec l'auteur, telle Comme réimpression, veuillez contacter l'auteur.

Sujets

reptile

Catégories

Apprentissage automatique