dev_xulongjin 655911b748 chore(project): 初始化项目结构和配置
- 添加 .idea 目录和相关配置文件,设置项目忽略文件、编码、模块管理等
- 创建商务大数据分析目录和子目录,准备数据和任务笔记本
- 添加示例数据文件:中国城市人口数据.csv
- 创建任务笔记本文件,进行数据处理和分析示例
2025-04-14 16:06:13 +08:00

14 KiB
Raw Permalink Blame History

None <html lang="en"> <head> </head>
In [1]:
import pandas as pd
In [4]:
data = pd.read_csv('data/某地区房屋销售数据 (1).csv', encoding='gbk')
data['new_postcode'] = data['地区邮编'].apply(lambda x: str(x)[:2])
data.head(3)
Out[4]:
房屋出售时间 地区邮编 房屋价格 房屋类型 配套房间数 new_postcode
0 2010/1/4 0:00 2615 435000 house 3 26
1 2010/1/5 0:00 2904 712000 house 4 29
2 2010/1/6 0:00 2617 435000 house 4 26
In [5]:
# 1、求出不同地区和不同房间数的房价使用pivot_table函数
data.pivot_table(values='房屋价格', index='new_postcode', columns='配套房间数', aggfunc='mean')
Out[5]:
配套房间数 0 1 2 3 4 5
new_postcode
26 564125.0 343189.962401 457595.588277 624204.46900 810389.319007 1.037034e+06
29 528000.0 292934.514286 381675.627240 475210.25609 651102.874716 7.995584e+05
In [7]:
# 2、不同地区哪种类型的房产房价最贵使用pivot_table函数
data.pivot_table(values='房屋价格', index='new_postcode', columns='房屋类型', aggfunc='max')
Out[7]:
房屋类型 house unit
new_postcode
26 8000000 2500000
29 5425000 769500
In [8]:
# 3、不同类型房产和不同房间数的房价之间的比较使用pivot_table函数
data.pivot_table(values='房屋价格', index='房屋类型', columns='配套房间数', aggfunc='mean')
Out[8]:
配套房间数 0 1 2 3 4 5
房屋类型
house 677394.736842 353634.269663 489555.889339 560117.683516 730667.024375 9.290297e+05
unit 330850.000000 336570.325391 432502.153116 594535.982287 641736.842105 1.146333e+06
In [10]:
# 4、不同地区不同房间数房屋销售情况交叉表使用crosstab函数参考例3-61
pd.crosstab(data['new_postcode'], data['配套房间数'])
Out[10]:
配套房间数 0 1 2 3 4 5
new_postcode
26 24 1383 2815 6371 4793 1007
29 5 175 558 4557 4845 835
</html>