数据探索最基本的步骤之一是获取对数据的基本描述,通过获取对数据的基本描述从而获得对数据的基本感觉。下面的一些方法用于帮助我们认识数据。

我们使用波士顿房价预测的数据集进行实验

DataFrame.describe():查看数据的基本分布,具体是对每列数据进行统计,统计值包含频次、均值、方差、最小值、分位数、最大值等。它有助于我们快速了解数据分布,并发现异常值等信息。 DataFrame.head():可以直接加载数据集的前五行。 DataFrame.shape:得到数据集的行列情况。 DataFrane.info():可以快速获得对数据集的简单描述,比如每个变量的类型、数据集的大小和缺失值情况。以上方法可以帮助我们了解数据的基本信息。接下来,我们将通过具体的操作来展现这些方法的强大功能。

变量缺失值查看及处理

首先,通过一段代码展示 nunique 和缺失值的情况:

stats = []

for col in train.columns:

stats.append(

好文推荐

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: