Skip to main content

Python rampe Shell pour trouver une maison de 80 000 + sources de logements âgées, voir des personnes ordinaires difficiles à acheter une maison à Beijing! 1. Vue d'ensemble

2. Collecte de données
3. Nettoyage des données
3.1. Lire les données
3.2. Supprimer les données de stationnement (sous-sol)
3.3. Analyse des informations de liste
4. Manipulation et visualisation de données
4.1. Nombre d'anciens logements dans chaque zone
4.2. Prix moyen des anciens logements dans toutes les régions
4.3. Vieille maison Prix dans tous les domaines
4.4. Vieille zone de logement
4.5. Nombre de vieilles maisons dans différentes zones
4.6. Prix - Distribution de "zone
4.7. Nombre de vieilles maisons dans chaque région - Prix de distribution"
4.8. Nombre de logements anciens dans différentes zones
4.9. Vieux logements "Apartments - zone" Prix moyen
5. Liste des titres et nuages de la Communauté
6. Résumé
[

1. Total

A récemment vu une phrase, c'était très sûr, cette phrase était "Quiconque est un enfant quand vous êtes jeune, jamais acheter une suite ».

En fait, lorsque je viens d'entrer dans la société de la tour d'ivoire, je ne pensais pas à la maison. Je me souviens que en 2016 , les prix du logement ont augmenté et ont une conscience cognitive. Jusqu'à l'âge de la culture, l'histoire de la maison doit être libérée.

Prix Quel est le traitement incroyable des prix de Guangzhou dans le nord? Regardez la dernière coquille Index des coquilles à voir: Beijing est de 61 300, Shanghai 562 millions d'euros, Guangzhou 28 600, Shenzhen 705 millions

Aujourd'hui, nous considérons aujourd'hui des informations de 80 000 habitants de la coquille pour voir ce que le logement à Beijing est.

À travers cet article, vous pouvez apprendre des informations multidimensionnelles d'informations multidimensionnelles, de traitement des données Pandas et de PYECHARTS, SECHARTS, SEACN) + Modèles + Modèles + Maps + Maps + Carte thermique + Des cartes d'empilement et des APIS hautes utilisées. Description des données

:

Source de données: NHBien rechercher des coquillages - Le nombre de données de logement lundi: 82, 346 (y compris le stationnement, l'assainissement du traitement des données)

Outils environnementaux

Python 3.8.5

]
Demander des données de site Web Reptile Reptile Demande de reptiles Site et nettoyage Données de nettoyage Données et distribution PYECHARTS Dessin Dessin Matplotlib Dessin Naturorn 2. Collecte de données

Les clamshells trouvent une petite analyse de données relativement simples, de simples règles de basculement et de texte Web HTML. Nous écrivons pour des boucles, des demandes de données avec des demandes et utilisons des expressions régulières pour effectuer des listes de liste. affirme que l'ensemble du processus de reptiles n'est pas compliqué, il n'est pas non plus détaillé et le sujet suivant explique comment obtenir toutes les données.


Code d'analyse des données répertoriés comme suit:


Description

# 请求网页数据函数def get_html(url, proxies): try: rep = requests.get(url, headers= header, proxies= proxies, timeout=6) except Exception as e : print(e) proxies = get_proxies() rep = requests.get(url, headers= header, proxies= proxies, timeout=6) while rep.status_code != 200: proxies = get_proxies() rep = requests.get(url, headers= header, proxies= proxies, timeout=6) html = rep.text html = re.sub('\s', '', html) # 将html文本中非字符数据去掉 return html,proxies# 循环请求每页数据num = 0for page in range(1,pages+1): items = [] time.sleep(random.random()) info_url = f'{url}/pg{page}' try: info_html, proxies = get_html(info_url, proxies) except Exception as e: print(e) continue sellListContent = re.findall(r'<ulclass="sellListContent"log-mod="list">(.*?)</ul>', info_html)[0] Lists = re.findall(r'<liclass="clear">(.*?)</li>', sellListContent) for List in Lists: try: # 获取房屋信息 item = {} item['标题'] = re.findall(r'detail"title="(.*?)"data-hreftype=', List)[0] item['房子ID'] = re.findall(r'housedel_id=(\d+)&', List)[0] item['地址'] = re.findall(r'<ahref="(.*?)">(.*)</a>', List)[0][1] item['详情页'] = re.findall(r'<ahref="(.*?)">(.*)</a>', List)[0][0] item['详情'] = re.findall(r'<spanclass="houseIcon"></span>(.*?)</div>', List)[0] item['总价'] = re.findall(r'<divclass="totalPrice"><span>(\d+\.?\d*)</span>(.*?)</div>', List)[0][0] item['总价单位'] = re.findall(r'<divclass="totalPrice"><span>(\d+\.?\d*)</span>(.*?)</div>', List)[0][1] item['均价'] = re.findall(r'<divclass="unitPrice".*<span>(.*?)</span></div></div></div>', List)[0] item['关注人数'] = re.findall(r'<spanclass="starIcon"></span>(.*?)</div>', List)[0] item['地区'] = areaName item['价格区间'] = priceRange item['户型'] = layout items.append(item) num = num+1 print(f'{num}个房子信息已经采集!') except Exception as e: print(e) print(item) continue

En raison de la prise de charge sombre Multi sur 100 pages, environ 30 chambres par page, nSi nous voulons obtenir toutes les données, vous devez faire attention à deux points: Peut être combiné par l'URL après la taille de la taille des particules fines, peut souvent surmonter la zone et la plage et la célibataire que j'utilise cette politique de combinaison. ;

Étant donné que le site est limité par la fréquence d'accès du site Web et le nombre de fois, vous devez utiliser des agents IP, les achats d'agents d'achat peuvent répondre aux besoins d'apprentissage, ainsi que le paramètre proxy dans la fonction Demande.Get ().
3. Données de nettoyage

Nous utilisons Panda

et RE , MAIN Ceci est une information de données parking est filtrée avec un non-résidentiel liste et la liste est une information plus utile.

3.1 Données de lecture

Données d'origine

Nous pouvons voir, dans les détails de données d'origine inclus plus d'informations, telles que le revêtement de sol, tels que le revêtement de sol, Appartements, régions, architecture et orientations, etc. Pour la plupart des parties du sous-sol et de base, certainement khIl considère cette partie des données, qui vont nettoyer plus tard. Dans le même temps, plus d'informations sont contenues dans le prix moyen et l'attention sur le nombre de personnes.

import pandas as pdimport redf = pd.read_excel('贝壳在售二手房数据20201228.xlsx')df.sort_values(by='总价') 3.2. Supprimer les données de stationnement (sous-sol)
Parking et certaines Villa Data
Haha, un peu gêné, une certaine villa a raté. Mais ça va, la villa ne le considérera pas en premier. Après tout, je ne peux pas me permettre!

3.3. Analyse de l'information sur la famille

# 车位条件,不一定严谨mask = ((df['详情'].str.contains('地下室')) # & (df['详情'].str.contains('1室'))# &(~df['详情'].str.contains(r'地下室\(共[2-9]|[1-9]\d+层\)')) )|((df['详情'].str.contains('底层')) & (df['详情'].str.contains('1室')) &(~df['详情'].str.contains(r'底层\(共[2-9]|[1-9]\d+层\)')) )# 房子house = df[~mask]# 车位carport = df[mask]carport.sort_values(by='总价')

Résultats de l'analyse de l'information

Je l'ai utilisé lors de l'utilisation, qui est l'expression commune qui apparaît. Après cela, dans le groupe d'échange, je veux connaître la déesse des dieux, et je sais ** ?: ** Expressions, puis manifeste cela mieux. Ensuite, nous effectuons des opérations connexes pour les données de données.


Analyse détaillée des nouvelles adresses

Prix moyens, temps de libération et analyse des informations numériques, extrait

utilisés dansIci, les gens peuvent facilement comprendre son rôle! # 详情信息解析s = '中楼层(共9层)|2007年建|1室1厅|24.78平米|北'# s = '地下室|2014年建|1室0厅|39.52平米|东'# s = '底层(共2层)5室3厅|326.56平米|东南西北'# s = '地下室1室0厅|11.9平米|南'# re.split(r'(.+?)(\(共(.*)层\))*(\|((.*)年建)*\|)*?(\d+室.*?)\|(.*)平米\|(.*)',s)re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',s)

Prix moyen - Publication - Suivez le nombre d'analyses d'informations

houseData = house.copy()houseData.loc[:,'楼层'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[1])houseData.loc[:,'楼高'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[2])houseData.loc[:,'建筑年份'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[3])houseData.loc[:,'户型'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[4])houseData.loc[:,'面积'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[5])houseData.loc[:,'朝向'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',x)[6]) Enfin, nous sélectionnons uniquement les données que vous souhaitez utiliser, Total

80 825

Chambre Source.

# 均价信息解析houseData['均价'] = houseData['均价'].str.extract(r'(\d+)')# 发布时间信息解析houseData['发布时间'] = houseData['关注人数'].str.extract(r'\/(\d+[年|月|日])') # 关注人数信息解析houseData['关注人数'] = houseData['关注人数'].str.extract(r'(\d+)人关注')

4. Manipulation et visualisation de données

Dans la partie 3, nous avons introduit une bibliothèque de pandas ci-dessous est la collection de peinture suivante et faire Quelques paramètres globaux lors de la visite de la visualisation.

ershoufang = houseData[ '房子ID', '地址', '总价', '总价单位', '均价', '关注人数', '地区', '价格区间', '户型', '楼层', '楼高', '建筑年份', '面积', '朝向', '发布时间']ershoufang 4.1. Le nombre d'anciennes ressources de logement dans différentes zones
La liste la plus répertoriée est située dans le district de Chaoyang, suivie de Fengtai et de Hadian, essentiellement concentrée dans la ville centrale. Comme la banlieue nord de Beijing Yan Khanh, Huairou, Miyun et Pinggu et d'autres maisons.

Code de dessin:
import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['Microsoft YaHei'] #设置全局默认字体 为 幼圆plt.rcParams['axes.unicode_minus'] = False # 解决中文字体下负号显示问题plt.rcParams["axes.labelsize"] = 16 # 设置全局轴标签字典大小import seaborn as snssns.set_style("darkgrid",{"font.family":['Microsoft YaHei', 'SimHei']}) #seaborn绘图的字体设置from pyecharts.globals import CurrentConfig, NotebookTypeCurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LABfrom pyecharts import options as optsfrom pyecharts.commons.utils import JsCodefrom pyecharts.charts import * data = ershoufang.copy() Nombre de personnes anciennes à Beijing Beige, le comté de Chaoyang, près de 28% avec un taux de 202 000, la moitié de la liste est à Chaoyang Comté, fengtaiet Hadian. En plus de trois zones, est, Xicheng dans la petite zone centrale, mais le nombre de maisons est, mais c'est quelques logements dans le mont Shijing.

# 各地区二手房源数beijing = data.groupby('地区',as_index=False)['房子ID'].count().sort_values('房子ID',ascending=False).reset_index(drop=True)beijing.loc[~beijing['地区'].str.endswith('区'),'地区']=beijing['地区']+'区'
4.2. Prix moyen des anciens logements dans différents domaines
# 绘制地图(区)c = ( Map(init_opts=opts.InitOpts(theme='dark', width='800px')) .add("房源数", [list(z) for z in zip(beijing['地区'].to_list(), beijing['房子ID'].to_list())], "北京", label_opts=opts.LabelOpts(is_show=False)) .set_global_opts( title_opts=opts.TitleOpts(title="贝壳北京二手房源数分布", subtitle='数据采集日期:2020年12月'), visualmap_opts=opts.VisualMapOpts(max_=15000) ) )c.render_notebook() Le prix moyen du vieux logement à Beijing est de 58 800 yuans par mètre carré! Ceux-ci
La capture d'écran suivante, le numéro de jeu de coulisses de réponse "

Prix moyen de la moyenne du logement de Beijing

" peut recevoir une adresse de graphique thermique, des frais exemptés pour voir plus de détails.
Répartition des prix moyens de l'ancien logement # 富文本rich_text = { "a": {"color": "#999", "lineHeight": 22, "align": "center"}, "b": {"fontSize": 12, "lineHeight": 33}, "per": { "color": "#eee", "backgroundColor": "#334455", "padding": [2, 4], "borderRadius": 2, },}location = beijing['地区'].to_list()num = beijing['房子ID'].to_list()pie = (Pie(init_opts=opts.InitOpts(theme='dark', width='800px', height='560px', )) .add('二手房源数', [list(z) for z in zip(location, num)], radius=200, #设置饼图半径 label_opts=opts.LabelOpts(position='outsiede', formatter="{b|{b}: }{c} {per|{d}%} ", rich=rich_text)) .set_global_opts(legend_opts=opts.LegendOpts(is_show=False), title_opts=opts.TitleOpts(title="贝壳北京各区二手房源数量占比", subtitle='数据采集日期:2020年12月'),) )pie.render_notebook()

Graphique de prix moyen

#房价均价平均值data.均价.mean()58799.88320445407 Du planification de prix moyen que nous pouvons voir qu'il y a Plus de 50 000 en moyenne

, et plus de 70 000 listes sont également beaucoup, le plus bas possible ne peut être que 10 000, le plus élevé possible de recevoir 1,75 million!

Graphique moyen

Code:


Dans la carte de prix de prix moyenne, nous pouvons voir, est, Xicheng comme zone centrale, le prix moyen de sa maison est vraiment élevé, le prix moyen est proche de 100 000 +

; Deuxièmement, c'est le district de Hadian des ressources scolaires. Prix moyen aussi

jusqu'à 83 000 + ; Chaoyang ressemble à des ressources scolaires n'est pas trop riche. Le prix moyen est de 60 000 +; Bien que d'autres domaines d'autres domaines soient beaucoup plus coûteux, a essentiellement diminué de 3 à 5 millions!

!
Diagramme de ligne de prix moyen
# 均价直方图plt.figure(figsize=(15,8))sns.set_context("talk")sns.histplot(data.均价).set(ylabel='数量')
. Comment sont donc le classement moyen dans différents domaines? Nous constatons également que le prix du logement Beijing est en fait, toutes les ressources du centre-ville sont les plus abondantes. Zones partagées.

Colonne de notation de prix moyen

Le prix moyen est la communauté la plus chère Le prix moyen est le sommet le plus cher. 10 dans la communauté dépasse

1,75 million

mètresIl, ce sont les fées arbres saints !!

Le prix moyen de la communauté la plus chère

# 箱线图x_data = list(data['地区'].unique())y_data = [data[data['地区']==x]['均价'].to_list() for x in x_data]Box = (Boxplot(init_opts=opts.InitOpts(theme='dark', width='800px')) .set_global_opts(legend_opts=opts.LegendOpts(is_show=True), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)), title_opts=opts.TitleOpts(title="贝壳北京各区二手房均价箱型图", subtitle='数据采集日期:2020年12月'), ) ) Box.add_xaxis(x_data)Box.add_yaxis("", Box.prepare_data(y_data))Box.render_notebook() Regard sur CITIC Guoan Quelle est l'existence:

Situé près de Xuanwumen, Nha Xicheng, 2018, est une maison de grande échelle, un ensemble de 4,5 millions !!


China Guoanfu

Qui est le plus grand dans quatre régions du nombre de personnes à Beijing?

District de Chaoyang Beijing n ° 1 , District de Fengtai Original de Xiyu

, District de Hadian

Wancheng Huafu

, Changping County Provence orientale


4.3. Prix de la maison ancienne

Le nombre total de maisons anciennes dans Beijing est de 4,58 millions! Celles-ci ** Il s'agit toujours de 4 000 séries de biens immobiliers d'une valeur de plus de 10 millions. La capture d'écran suivante, la réponse de la performance du numéro de public "** Vieille adresse thermique de Beijing, gratuitement de voir plus de détails. Prix du distributeur de la vieille maison du total de Beijing Total des graphiques (à l'exclusion de plus de 10 millions de biens immobiliers)


La majeure partie du prix total est comprise entre

300-5 millions

, la ville dans la gamme en fait, plus que 2 millions de maisons sont également plus. Et la plupart des maisons chez 1 million de personnes sont appelées district et la taille de la salle de bain est d'environ 20 mètres carrés. Pour plus de détails, vous pouvez afficher les données d'origine pour en savoir plus !!!

Tableau total

#房价均价分布(1000万以内)data[data['总价']<1000].总价.mean()458.2997917446772 Nombre total de cartes de la ligne de prix (excluant plus de 10 millions de biens immobiliers)

Du prix total d'un seul ensemble , le prix à l'est, Xicheng et Haidian, près de 5 millions

sont encore plus élevés. Si vous souhaitez examiner la salle de Hadian, le budget de 7 millions peut inclure fondamentalement la plupart des actifs 7 millions de 7 millions!

Nombre de quatre zones du nombre de personnes à Beijing ont le plus grand nombre de petites communautés. Qui est quelqu'un?

District de Chaoyang Dongshengshu, n ° 8, rue Yunyun, jardin international, district de FengtaJe, Haidai District, Longhu Yihe Original, Xiang Son Qingqi Villa, Changping Prometheus County compte plus de 70 millions de jeux de maisons.

Le prix total de chaque région est de 5

.



Où est le plus?

Outre une villa d'une famille, N ° 40, Xinan, Miyun, est un appartement surdimensionné de grande hauteur situé près du deuxième tour ou de la communauté de luxe. Bien sûr, cela ne fait vraiment pas beaucoup de sens!

Le meilleur prix est 10
Ce qui suit est un manoir de la famille de Miyun, 24 000 appartements? Un total de 11 structures mélangées en acier !!!

Numéro 40 Route Sud










.





. ]



. . . 4.4. Ancienne zone de logement dans toutes les zones Nous enlevons 372 ensembles de plus de 400 maisons, seulement 80 000 unités inférieures à 400. Dans ces listes, cette zone est 50-70 et et et et 80-90 Il existe les plus grandes listes, ces bases sont toutes des chambres, grandes 2 ou 3 petites, principalement! La carte de la zone utilisée En revanche, la liste de grande échelle est fondamentalement dans la zone que le centre se termine la zone urbaine, Le prix est relativement faible. Changping est vraiment un très bon endroit. Le prix moyen des personnes âgées est très coûteux, mais la liste à grande échelle occupe davantage. 4.5. Chambres limitées à cinq mains à Beijing, le plus ancien logement entre 2000 et 2010, presque tous après la réforme et l'ouverture dans les années 1980. Prix de distribution numérique Différents de tous les domaines où le nombre de maisons de la maison total de prix de prix avec la valeur la plus élevée est400-5 millions, puis la liste de 500-6 millions de Dong. Bien sûr, il y a plus de 2,5 millions de visites dans le district de Xicheng, Xicheng, Haidian et Chaoyang. Grâce à de meilleures données, nous constatons que ce type de maison est essentiellement de 20 appartements. L'essentiel de la pièce ne convient pas au salon! Les produits de liste étrangères sont dérivés de ressources éducatives très importantes et non! 4.7. Le nombre d'anciens logements dans de nombreux domaines La plupart des types d'appartements se trouvent 2 chambres à coucher, 3 chambres et 1 salle de séjour adapté aux familles, principalement 400-5 millions de personnes! 4.8. Distribution de la maison ancienne dans de nombreux domaines 2 pièces 1 Hall Ce type d'appartement convient à une famille de trois personnes qui vivent, presque pas de problème quoi. ] 4.9. " Du prix moyen de différents appartements, une distance significative n'est pas grande. Regardons la pièce principale 1 chambre 1 chambre, 2 chambres, 1 chambre et 3 chambres 1 chambre comparer, semble être une chambre 1 chambre et 3 Les chambres seront légèrement supérieures à la deuxième chambre 1 salle 1, mais il n'est pas clair. Il n'est pas clair. Fondamentalement par rapport à la région et au district, le degré central est le plus grand prix! Ceux-ci Distribuant le prix moyen des vieux logements dans différents Zones Il existe des amis pour faire attention au comté de Fengtai, ont une 4 chambres 9 halls 6 salles de bains à la maison, le prix moyen pouvant atteindre 150 000, nous sommes en fait une villa! . Titre et nuage de la Communauté À propos de la production du nuage, WordCloud [Bibliothèque , cartographie du nuage Le code de cette section peut voir l'article avant Quel type souhaitez-vous utiliser lorsque vous avez une liste de banquesBien? TRANSPOSILE NANSHENG a montré une bonne lumière, une ventilation et une respiration sincérité, des ventes sincères sincèrement! Cinq ou cinq ans seulement Peut économiser de l'argent parmi eux, "Five Full" fait référence aux licences immobilières qui commencent à calculer de dépendances, de temps par an ou de plus de cinq ans; Propriétaire faisant référence à cette maison dans la province de la province. Normalement, la maison rencontre la condition «complète» pour réduire la taxe fiscale et commerciale de la Chambre. Quels sont les incendies? De ce nuage a vraiment décidé le nombre de centres de la communauté Tiantangyuan, pivoine, Xinglong Home, la vieille Source de la maison est vraiment beaucoup! Ces 6. Sommaire Selon le 30 janvier 2020, le recrutement zhilian a publié "2020 demande de travail hivernal en Chine et le rapport fournit des talents antiques blancs, la moyenne Le salaire de Beijing est ". Demande de main-d'œuvreChinois hiver et le rapport fournissant des talents antiques blancs Nous croyons que le prix total est de 4,5 millions, c'est le prix total d'achat, réduit de 35% de paiement selon , ce qui signifie 15,75 millions d'années, les salaires de l'année 14 sont convertis, ne mangent pas sans boire 10 ans ou plus, vous pouvez terminer le paiement, mais je ne connais pas la géométrie!Celles

Sujets