- 新增二手车数据源读取和分析任务 - 完成车辆价格分布、销量品牌分布、排放标准分析等9项需求 - 添加数据预处理步骤,包括数据清洗、类型转换等 - 使用pandas进行数据处理和分析 - 新增second_cars_info.csv文件的GBK编码配置 - 更新VCS配置,将项目目录映射到Git版本控制系统
26 KiB
26 KiB
None
<html lang="en">
<head>
</head>
</html>
请读取二手车数据源,完成以下需求,在notebook中运行代码,将完整运行结果导出为pdf上传。
1、车辆价格分布情况
2、车辆销量品牌分布
3、排放标准分析
4、车龄分析
5、里程分析
6、折旧价格分析
7、不同品牌新车平均价格对比
8、排放标准与行驶里程的关系
9、车龄与二手车价格的相关性
In [81]:
import pandas as pd
In [82]:
car = pd.read_csv('./data/second_cars_info.csv',encoding='gbk')
car.head(5)
Out[82]:
In [83]:
from decimal import Decimal
car["Km"] = car["Km"].str.extract("(\d+\.?\d+)",expand = True)
car["New_price"] = car["New_price"].str.extract("(\d+\.?\d+)",expand = True)
car["New_price"] = car["New_price"].apply(lambda x : Decimal(x) * 10000)
# car["Sec_price"] = car["Sec_price"].apply(lambda x : Decimal(str(x)) * 10000)
# car["Km"] = car["Km"].apply(lambda x : Decimal(str(x)) * 10000)
car.head(5)
Out[83]:
In [84]:
car['Boarding_time'] = pd.to_datetime(car['Boarding_time'].str.replace('年', '-').str.replace('月', ''), errors='coerce', format='%Y-%m')
car.head(3)
Out[84]:
In [85]:
today = pd.Timestamp('today')
car['Year'] = today.year - car['Boarding_time'].dt.year
car['Month'] = today.month - car['Boarding_time'].dt.month
car['Year'] = car['Year'] + car['Month'] / 12
In [86]:
# 1、车辆价格分布情况
car['Sec_price'].describe()
Out[86]:
In [87]:
# 2、车辆销量品牌分布
car['Brand'].value_counts()
Out[87]:
In [88]:
# 3、排放标准分析
car['Discharge排放标准'].value_counts()
Out[88]:
In [89]:
# 4、车龄分析
car['Year'].describe()
Out[89]:
In [90]:
# 5、里程分析
car['Km'].describe()
Out[90]:
In [91]:
# 6、折旧价格分析
# car = car.dropna(subset=['Km'])
car[['Km', 'Sec_price']].corr()
Out[91]:
In [96]:
# 7、不同品牌新车平均价格对比
car[['Brand', 'New_price']].groupby('Brand').mean()
Out[96]:
In [99]:
# 8、排放标准与行驶里程的关系
car['Km'] = pd.to_numeric(car['Km'], errors='coerce')
car.groupby('Discharge排放标准')['Km'].mean()
Out[99]:
In [100]:
# 9、车龄与二手车价格的相关性
car[['Year', 'Sec_price']].corr()
Out[100]: