这次课是李沐老师在斯坦福大学进行讲授的,华人之光了属于是。李沐老师在b站也进行了中文讲授。这篇博客是课堂的一些笔记,更新可能较慢,因为最近作业好多😢。
数据探索性分析
采用pandas进行数据的读取,查看
- 若数据集每一列中, 有超过30%的数据是没有的,则将其丢弃。(data.drop())
- 查看数据类型是否正确,若不正确,将其类型进行转换。 (data.dtypes)
- 查看特征的某一些数学特性,例如:均值、标准差、最小值、最大值。(data,describe())
- 对不正常的数据进行过滤,例如某些数据过小或者过大。
- 查看特征的直方图,从而可以了解该特征的数据分布情况(sns.histplot())
数据清理
types of error
- Outliers
- Rule violations
- Pattern violations