dev_xulongjin 655911b748 chore(project): 初始化项目结构和配置
- 添加 .idea 目录和相关配置文件,设置项目忽略文件、编码、模块管理等
- 创建商务大数据分析目录和子目录,准备数据和任务笔记本
- 添加示例数据文件:中国城市人口数据.csv
- 创建任务笔记本文件,进行数据处理和分析示例
2025-04-14 16:06:13 +08:00

12 KiB
Raw Blame History

None <html lang="en"> <head> </head>
In [1]:
import pandas as pd
In [4]:
data = pd.read_csv('data/中国城市人口数据.csv',encoding="GBK")
data.head(5)
Out[4]:
省份 2020年人口万人 2019年人口万人
0 河北省 7461 7447
1 山西省 3492 3497
2 辽宁省 4259 4277
3 吉林省 2407 2448
4 江苏省 8475 8469
In [15]:
data.shape
Out[15]:
(22, 3)
In [13]:
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   省份           22 non-null     object
 1   2020年人口万人  22 non-null     int64 
 2   2019年人口万人  22 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 656.0+ bytes
In [7]:
data.describe()
Out[7]:
2020年人口万人 2019年人口万人
count 22.000000 22.000000
mean 5482.772727 5478.500000
std 3067.216187 3043.789239
min 592.000000 590.000000
25% 3583.000000 3584.750000
50% 4620.000000 4615.000000
75% 7256.750000 7245.250000
max 12601.000000 12489.000000
In [12]:
# 2020年总人口
data['2020年人口万人'].sum()
Out[12]:
120621
In [16]:
# 2019年总人口
data['2019年人口万人'].sum()
Out[16]:
120527
In [20]:
# 总人口对比
data['2020年人口万人'].sum() - data['2019年人口万人'].sum()
Out[20]:
94
In [21]:
# 各省人口对比
data2 = data
data2['compare'] = data2['2020年人口万人'] - data2['2019年人口万人']
data2.head(5)
Out[21]:
省份 2020年人口万人 2019年人口万人 compare
0 河北省 7461 7447 14
1 山西省 3492 3497 -5
2 辽宁省 4259 4277 -18
3 吉林省 2407 2448 -41
4 江苏省 8475 8469 6
</html>