{ "cells": [ { "cell_type": "code", "id": "initial_id", "metadata": { "collapsed": true, "ExecuteTime": { "end_time": "2025-04-14T02:39:40.769558Z", "start_time": "2025-04-14T02:39:40.456570Z" } }, "source": "import pandas as pd", "outputs": [], "execution_count": 1 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T02:41:58.436846Z", "start_time": "2025-04-14T02:41:58.386566Z" } }, "cell_type": "code", "source": [ "data1 = pd.read_excel('data/healthcare-dataset-stroke.xlsx')\n", "data1.head(3)" ], "id": "4b3c42b38f05d480", "outputs": [ { "data": { "text/plain": [ " 编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风\n", "0 9046 男 否 是 私人 城市 36.6 以前吸烟 是\n", "1 51676 女 否 是 私营企业 农村 NaN 从不吸烟 是\n", "2 31112 男 否 是 私人 农村 32.5 从不吸烟 是" ], "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
编号性别高血压是否结婚工作类型居住类型体重指数吸烟史中风
09046私人城市36.6以前吸烟
151676私营企业农村NaN从不吸烟
231112私人农村32.5从不吸烟
\n", "
" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "execution_count": 8 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T02:42:02.131783Z", "start_time": "2025-04-14T02:42:02.114377Z" } }, "cell_type": "code", "source": [ "data2 = pd.read_excel('data/healthcare-dataset-age_abs.xlsx')\n", "data2.head(3)" ], "id": "e72f2e11a9b2e88d", "outputs": [ { "data": { "text/plain": [ " 编号 年龄 平均血糖\n", "0 9046 67.0 228.69\n", "1 51676 61.0 202.21\n", "2 31112 80.0 105.92" ], "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
编号年龄平均血糖
0904667.0228.69
15167661.0202.21
23111280.0105.92
\n", "
" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "execution_count": 10 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T02:44:09.987977Z", "start_time": "2025-04-14T02:44:09.985187Z" } }, "cell_type": "code", "source": [ "print(data1.size)\n", "data2.size" ], "id": "40c26c71f24c511d", "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "15903\n" ] }, { "data": { "text/plain": [ "5301" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "execution_count": 17 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T07:59:22.335960Z", "start_time": "2025-04-14T07:59:22.326530Z" } }, "cell_type": "code", "source": [ "merge_data = data1.merge(data2, on=['编号'], how='left')\n", "merge_data.head(3)" ], "id": "37f42c042c31af5e", "outputs": [ { "data": { "text/plain": [ " 编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风 年龄 平均血糖\n", "0 9046 男 否 是 私人 城市 36.6 以前吸烟 是 67.0 228.69\n", "1 51676 女 否 是 私营企业 农村 NaN 从不吸烟 是 61.0 202.21\n", "2 31112 男 否 是 私人 农村 32.5 从不吸烟 是 80.0 105.92" ], "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
编号性别高血压是否结婚工作类型居住类型体重指数吸烟史中风年龄平均血糖
09046私人城市36.6以前吸烟67.0228.69
151676私营企业农村NaN从不吸烟61.0202.21
231112私人农村32.5从不吸烟80.0105.92
\n", "
" ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "execution_count": 71 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T07:59:24.287769Z", "start_time": "2025-04-14T07:59:24.284471Z" } }, "cell_type": "code", "source": [ "def age_process(x):\n", " if (x % 1 != 0 or x < 0):\n", " return None\n", " return int(x)" ], "id": "d45e61b4e5c45d4a", "outputs": [], "execution_count": 72 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T07:59:26.832979Z", "start_time": "2025-04-14T07:59:26.827710Z" } }, "cell_type": "code", "source": "merge_data['年龄'] = merge_data['年龄'].apply(lambda x: age_process(x))", "id": "b81f4203662a2950", "outputs": [], "execution_count": 73 }, { "metadata": { "ExecuteTime": { "end_time": "2025-04-14T07:59:30.620159Z", "start_time": "2025-04-14T07:59:30.606700Z" } }, "cell_type": "code", "source": "merge_data[merge_data['年龄'].isna()]", "id": "da4b29e8f3d56bc6", "outputs": [ { "data": { "text/plain": [ " 编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风 年龄 平均血糖\n", "162 69768 女 否 否 学生 城市 NaN 未知 是 NaN 70.37\n", "363 7559 女 否 否 学生 城市 24.9 未知 否 NaN 83.82\n", "376 22706 女 否 否 学生 农村 15.5 未知 否 NaN 88.11\n", "562 45238 女 否 否 学生 城市 16.5 未知 否 NaN 58.26\n", "564 61511 女 否 否 学生 农村 16.2 未知 否 NaN 73.71\n", "597 40639 女 否 否 学生 农村 17.5 未知 否 NaN 60.53\n", "607 9906 女 否 否 学生 城市 17.0 未知 否 NaN 102.34\n", "684 53016 女 否 否 学生 城市 14.4 未知 否 NaN 130.61\n", "753 49529 女 否 否 学生 城市 17.2 未知 否 NaN 60.98\n", "850 41615 女 否 否 学生 农村 18.1 未知 否 NaN 126.18\n", "913 17733 女 否 否 学生 农村 19.5 未知 否 NaN 109.51\n", "982 54747 男 否 否 学生 农村 19.2 未知 否 NaN 157.57\n", "995 60211 男 否 否 学生 城市 18.9 未知 否 NaN 90.51\n", "996 53279 男 否 否 学生 农村 16.3 未知 否 NaN 118.87\n", "1093 66772 女 否 否 学生 农村 16.0 未知 否 NaN 55.86\n", "1101 57854 男 否 否 学生 城市 19.7 未知 否 NaN 56.30\n", "1134 47848 男 否 否 学生 农村 20.1 未知 否 NaN 93.74\n", "1137 59734 男 否 否 学生 城市 17.6 未知 否 NaN 75.79\n", "1206 68908 女 否 否 学生 城市 23.0 未知 否 NaN 66.36\n", "1218 20282 男 否 否 学生 农村 21.8 未知 否 NaN 77.91\n", "1244 45554 女 否 否 学生 城市 22.1 未知 否 NaN 62.40\n", "1317 30084 男 否 否 学生 农村 17.5 未知 否 NaN 98.67\n", "1366 35737 男 否 否 学生 城市 19.5 未知 否 NaN 86.09\n", "1486 1405 男 否 否 学生 城市 16.3 未知 否 NaN 111.65\n", "1499 45357 女 否 否 学生 农村 21.5 未知 否 NaN 113.96\n", "1600 40544 男 否 否 学生 城市 14.3 未知 否 NaN 109.56\n", "1609 38043 女 否 否 学生 农村 10.3 未知 否 NaN 122.04\n", "1614 47350 女 否 否 学生 城市 14.1 未知 否 NaN 139.67\n", "1632 57485 女 否 否 学生 农村 18.5 未知 否 NaN 55.51\n", "1758 27279 男 否 否 学生 城市 22.5 未知 否 NaN 90.46" ], "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
编号性别高血压是否结婚工作类型居住类型体重指数吸烟史中风年龄平均血糖
16269768学生城市NaN未知NaN70.37
3637559学生城市24.9未知NaN83.82
37622706学生农村15.5未知NaN88.11
56245238学生城市16.5未知NaN58.26
56461511学生农村16.2未知NaN73.71
59740639学生农村17.5未知NaN60.53
6079906学生城市17.0未知NaN102.34
68453016学生城市14.4未知NaN130.61
75349529学生城市17.2未知NaN60.98
85041615学生农村18.1未知NaN126.18
91317733学生农村19.5未知NaN109.51
98254747学生农村19.2未知NaN157.57
99560211学生城市18.9未知NaN90.51
99653279学生农村16.3未知NaN118.87
109366772学生农村16.0未知NaN55.86
110157854学生城市19.7未知NaN56.30
113447848学生农村20.1未知NaN93.74
113759734学生城市17.6未知NaN75.79
120668908学生城市23.0未知NaN66.36
121820282学生农村21.8未知NaN77.91
124445554学生城市22.1未知NaN62.40
131730084学生农村17.5未知NaN98.67
136635737学生城市19.5未知NaN86.09
14861405学生城市16.3未知NaN111.65
149945357学生农村21.5未知NaN113.96
160040544学生城市14.3未知NaN109.56
160938043学生农村10.3未知NaN122.04
161447350学生城市14.1未知NaN139.67
163257485学生农村18.5未知NaN55.51
175827279学生城市22.5未知NaN90.46
\n", "
" ] }, "execution_count": 74, "metadata": {}, "output_type": "execute_result" } ], "execution_count": 74 } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 2 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython2", "version": "2.7.6" } }, "nbformat": 4, "nbformat_minor": 5 }