第一大题

1.1

数据获取方式

大数据特征(4V)

1.2

第二大题

2.1

填充方法

均值填充的问题

2.2

可能原因

处理方法

2.3

import pandas as pd
import numpy as np

# 读取数据
study = pd.read_csv("study.csv")

# 找出 score < 0 或 > 100 的异常值,并将对应 lt 设为 NaN
study.loc[(study["score"] < 0) | (study["score"] > 100), "lt"] = np.nan

# 输出处理后的数据
print(study)

第三大题

3.1

  1. 数据采集:整合出租车 GPS、地铁刷卡、路口监控、天气数据。
  2. 数据清洗:处理缺失值、异常值(如 GPS 漂移)。
  3. 数据存储:使用分布式存储(如 HDFS)或时序数据库(如 InfluxDB)。
  4. 数据分析:计算拥堵指数、出行热点区域。
  5. 可视化设计:选择合适图表(如热力图、折线图)。
  6. 交互优化:提供动态筛选(如时间段、区域)。
  7. 部署应用:集成到交通管理平台或公众出行 APP。

3.2

选择依据

3.3

修改后代码:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_style('darkgrid')
sns.set(font='SimHei')

titanic = pd.read_csv("titanic.csv")

titanic['sex']= ["男" if i == "male" else "女" for i in titanic['sex']]
titanic['class'] = ['1' if i == "First" else "2" if i == "Second" else "3" for i in titanic['class']]
titanic = titanic.rename(columns={"class":"舱位等级", "age":"乘客年龄", "sex":"乘客性别"})

sns.boxplot(x = "舱位等级", y = "乘客年龄", hue = "乘客性别", data=titanic)

plt.show()

箱形图关键特征

第四大题

4.1

数据类型:结构化数据(CSV 格式的销售记录)。

增量采集方法

4.2

核心函数

df[['商品名称', '销量']] = df['商品名称_销量'].str.split('_', expand=True)

4.3

图表类型折线图(展示时间趋势)或 柱状图(对比不同水果销量)。

选择理由:折线图能清晰反映销量随时间的变化趋势。

关键字段