这次课是李沐老师在斯坦福大学进行讲授的,华人之光了属于是。李沐老师在b站也进行了中文讲授。这篇博客是课堂的一些笔记,更新可能较慢,因为最近作业好多😢。

数据探索性分析

采用pandas进行数据的读取,查看

  1. 若数据集每一列中, 有超过30%的数据是没有的,则将其丢弃。(data.drop())
  2. 查看数据类型是否正确,若不正确,将其类型进行转换。 (data.dtypes)
  3. 查看特征的某一些数学特性,例如:均值、标准差、最小值、最大值。(data,describe())
  4. 对不正常的数据进行过滤,例如某些数据过小或者过大。
  5. 查看特征的直方图,从而可以了解该特征的数据分布情况(sns.histplot())

数据清理

types of error

  1. Outliers
  2. Rule violations
  3. Pattern violations