dev_xulongjin 655911b748 chore(project): 初始化项目结构和配置
- 添加 .idea 目录和相关配置文件,设置项目忽略文件、编码、模块管理等
- 创建商务大数据分析目录和子目录,准备数据和任务笔记本
- 添加示例数据文件:中国城市人口数据.csv
- 创建任务笔记本文件,进行数据处理和分析示例
2025-04-14 16:06:13 +08:00

20 KiB
Raw Blame History

None <html lang="en"> <head> </head>
In [113]:
import pandas as pd
In [114]:
data = pd.read_csv('data/某地区房屋销售数据 (1).csv', encoding='gbk')
data.head(5)
Out[114]:
房屋出售时间 地区邮编 房屋价格 房屋类型 配套房间数
0 2010/1/4 0:00 2615 435000 house 3
1 2010/1/5 0:00 2904 712000 house 4
2 2010/1/6 0:00 2617 435000 house 4
3 2010/1/6 0:00 2606 1350000 house 5
4 2010/1/7 0:00 2905 612500 house 4
In [115]:
data['new_postcode'] = data['地区邮编'].apply(lambda x: str(x)[:2])
data.head(5)
Out[115]:
房屋出售时间 地区邮编 房屋价格 房屋类型 配套房间数 new_postcode
0 2010/1/4 0:00 2615 435000 house 3 26
1 2010/1/5 0:00 2904 712000 house 4 29
2 2010/1/6 0:00 2617 435000 house 4 26
3 2010/1/6 0:00 2606 1350000 house 5 26
4 2010/1/7 0:00 2905 612500 house 4 29
In [116]:
data.groupby('new_postcode').agg({'房屋出售时间':'count'})
Out[116]:
房屋出售时间
new_postcode
26 16393
29 10975
In [117]:
housesale1 = data.groupby(['房屋类型', 'new_postcode']).apply(lambda x:x).reset_index()
housesale1
Out[117]:
index 房屋出售时间 地区邮编 房屋价格 房屋类型 配套房间数 new_postcode
0 0 2010/1/4 0:00 2615 435000 house 3 26
1 1 2010/1/5 0:00 2904 712000 house 4 29
2 2 2010/1/6 0:00 2617 435000 house 4 26
3 3 2010/1/6 0:00 2606 1350000 house 5 26
4 4 2010/1/7 0:00 2905 612500 house 4 29
... ... ... ... ... ... ... ...
27363 27363 2019/7/25 0:00 2900 500000 unit 3 29
27364 27364 2019/7/25 0:00 2612 560000 unit 2 26
27365 27365 2019/7/26 0:00 2912 464950 unit 2 29
27366 27366 2019/7/26 0:00 2601 589000 unit 2 26
27367 27367 2019/7/26 0:00 2612 775000 unit 2 26

27368 rows × 7 columns

In [118]:
data['平均价格'] = data.groupby(['房屋类型', 'new_postcode'])['房屋价格'].transform('mean')
In [125]:
data2 = data.drop_duplicates(['房屋类型','new_postcode'],inplace=False)
data2
Out[125]:
房屋出售时间 地区邮编 房屋价格 房屋类型 配套房间数 new_postcode 平均价格
0 2010/1/4 0:00 2615 435000 house 3 26 725040.113978
1 2010/1/5 0:00 2904 712000 house 4 29 582085.199671
22595 2010/1/11 0:00 2602 270000 unit 1 26 434573.470446
22607 2010/2/9 0:00 2900 436000 unit 2 29 369109.530255
In [126]:
data2[['房屋类型','new_postcode','平均价格']]
Out[126]:
房屋类型 new_postcode 平均价格
0 house 26 725040.113978
1 house 29 582085.199671
22595 unit 26 434573.470446
22607 unit 29 369109.530255
</html>