gcc-project-py-25-2/task2.ipynb at main

dev_xulongjin 655911b748 chore(project): 初始化项目结构和配置

- 添加 .idea 目录和相关配置文件，设置项目忽略文件、编码、模块管理等
- 创建商务大数据分析目录和子目录，准备数据和任务笔记本
- 添加示例数据文件：中国城市人口数据.csv
- 创建任务笔记本文件，进行数据处理和分析示例

2025-04-14 16:06:13 +08:00

None <html lang="en"> <head> </head>

In [1]:

import pandas as pd

In [4]:

data = pd.read_csv('data/某地区房屋销售数据 (1).csv', encoding='gbk')
data['new_postcode'] = data['地区邮编'].apply(lambda x: str(x)[:2])
data.head(3)

Out[4]:

	房屋出售时间	地区邮编	房屋价格	房屋类型	配套房间数	new_postcode
0	2010/1/4 0:00	2615	435000	house	3	26
1	2010/1/5 0:00	2904	712000	house	4	29
2	2010/1/6 0:00	2617	435000	house	4	26

In [5]:

# 1、求出不同地区和不同房间数的房价，使用pivot_table函数
data.pivot_table(values='房屋价格', index='new_postcode', columns='配套房间数', aggfunc='mean')

Out[5]:

配套房间数	0	1	2	3	4	5
new_postcode
26	564125.0	343189.962401	457595.588277	624204.46900	810389.319007	1.037034e+06
29	528000.0	292934.514286	381675.627240	475210.25609	651102.874716	7.995584e+05

In [7]:

# 2、不同地区哪种类型的房产房价最贵，使用pivot_table函数
data.pivot_table(values='房屋价格', index='new_postcode', columns='房屋类型', aggfunc='max')

Out[7]:

In [8]:

# 3、不同类型房产和不同房间数的房价之间的比较，使用pivot_table函数
data.pivot_table(values='房屋价格', index='房屋类型', columns='配套房间数', aggfunc='mean')

Out[8]:

配套房间数	0	1	2	3	4	5
房屋类型
house	677394.736842	353634.269663	489555.889339	560117.683516	730667.024375	9.290297e+05
unit	330850.000000	336570.325391	432502.153116	594535.982287	641736.842105	1.146333e+06

In [10]:

# 4、不同地区不同房间数房屋销售情况交叉表，使用crosstab函数，参考例3-61
pd.crosstab(data['new_postcode'], data['配套房间数'])

Out[10]:

配套房间数	0	1	2	3	4	5
new_postcode
26	24	1383	2815	6371	4793	1007
29	5	175	558	4557	4845	835

</html>