dev_xulongjin 655911b748 chore(project): 初始化项目结构和配置
- 添加 .idea 目录和相关配置文件,设置项目忽略文件、编码、模块管理等
- 创建商务大数据分析目录和子目录,准备数据和任务笔记本
- 添加示例数据文件:中国城市人口数据.csv
- 创建任务笔记本文件,进行数据处理和分析示例
2025-04-14 16:06:13 +08:00

27 KiB

None <html lang="en"> <head> </head>
In [1]:
import pandas as pd
In [8]:
data1 = pd.read_excel('data/healthcare-dataset-stroke.xlsx')
data1.head(3)
Out[8]:
编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风
0 9046 私人 城市 36.6 以前吸烟
1 51676 私营企业 农村 NaN 从不吸烟
2 31112 私人 农村 32.5 从不吸烟
In [10]:
data2 = pd.read_excel('data/healthcare-dataset-age_abs.xlsx')
data2.head(3)
Out[10]:
编号 年龄 平均血糖
0 9046 67.0 228.69
1 51676 61.0 202.21
2 31112 80.0 105.92
In [17]:
print(data1.size)
data2.size
15903
Out[17]:
5301
In [71]:
merge_data = data1.merge(data2, on=['编号'], how='left')
merge_data.head(3)
Out[71]:
编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风 年龄 平均血糖
0 9046 私人 城市 36.6 以前吸烟 67.0 228.69
1 51676 私营企业 农村 NaN 从不吸烟 61.0 202.21
2 31112 私人 农村 32.5 从不吸烟 80.0 105.92
In [72]:
def age_process(x):
    if (x % 1 != 0 or x < 0):
        return None
    return int(x)
In [73]:
merge_data['年龄'] = merge_data['年龄'].apply(lambda x: age_process(x))
In [74]:
merge_data[merge_data['年龄'].isna()]
Out[74]:
编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风 年龄 平均血糖
162 69768 学生 城市 NaN 未知 NaN 70.37
363 7559 学生 城市 24.9 未知 NaN 83.82
376 22706 学生 农村 15.5 未知 NaN 88.11
562 45238 学生 城市 16.5 未知 NaN 58.26
564 61511 学生 农村 16.2 未知 NaN 73.71
597 40639 学生 农村 17.5 未知 NaN 60.53
607 9906 学生 城市 17.0 未知 NaN 102.34
684 53016 学生 城市 14.4 未知 NaN 130.61
753 49529 学生 城市 17.2 未知 NaN 60.98
850 41615 学生 农村 18.1 未知 NaN 126.18
913 17733 学生 农村 19.5 未知 NaN 109.51
982 54747 学生 农村 19.2 未知 NaN 157.57
995 60211 学生 城市 18.9 未知 NaN 90.51
996 53279 学生 农村 16.3 未知 NaN 118.87
1093 66772 学生 农村 16.0 未知 NaN 55.86
1101 57854 学生 城市 19.7 未知 NaN 56.30
1134 47848 学生 农村 20.1 未知 NaN 93.74
1137 59734 学生 城市 17.6 未知 NaN 75.79
1206 68908 学生 城市 23.0 未知 NaN 66.36
1218 20282 学生 农村 21.8 未知 NaN 77.91
1244 45554 学生 城市 22.1 未知 NaN 62.40
1317 30084 学生 农村 17.5 未知 NaN 98.67
1366 35737 学生 城市 19.5 未知 NaN 86.09
1486 1405 学生 城市 16.3 未知 NaN 111.65
1499 45357 学生 农村 21.5 未知 NaN 113.96
1600 40544 学生 城市 14.3 未知 NaN 109.56
1609 38043 学生 农村 10.3 未知 NaN 122.04
1614 47350 学生 城市 14.1 未知 NaN 139.67
1632 57485 学生 农村 18.5 未知 NaN 55.51
1758 27279 学生 城市 22.5 未知 NaN 90.46
</html>