df.fillna(x)可以将缺失值填充为指定的值

import pandas as pd

# 原数据

df = pd.DataFrame({'A':['a1','a1','a2','a2'],

'B':['b1','b2',None,'b2'],

'C':[1,2,3,4],

'D':[5,6,None,8],

'E':[5,None,7,8]

})

# 将缺失值填充为0

res1 = df.fillna(0)

结果展示

df

res1

# 常用的方法还有以下几个:

# 填充为0

df.fillna(0)

# 填充为指定字符

df.fillna('missing')

df.fillna('暂无')

df.fillna('待补充')

# 指定字段填充

df.E.fillna('暂无')

# 指定字段填充

df.E.fillna(0, inplace = True)

# 只替换第一个

df.fillna(0, limit = 1)

# 将不同列的缺失值替换为不同的值

values = {'A':0,'B':1,'C':2,'D':3}

df.fillna(value = values)

需要注意的是,如果想让填充马上生效,需要重新为df赋值或者传入参数inplace = True

有时候我们不能填入固定值,而是按照一定的方法填充,df.fillna()提供了一个method参数,可以指定以下几个方法:

pad/ffill:向前填充,使用前一个有效值填充,df.fillna(method=’ffill’)可以简写为df.ffill()

bfill/backfill:向后填充,使用后一个有效值填充,df.fillna(method=’bfill’)可以简写为df.bfill()

import pandas as pd

# 原数据

df = pd.DataFrame({'A':['a1','a1','a2','a2'],

'B':['b1','b2',None,'b2'],

'C':[1,2,3,4],

'D':[5,6,None,8],

'E':[5,None,7,8]

})

# 取后一个有效值填充

res1 = df.fillna(method = 'bfill')

# 取前一个有效值填充

res2 = df.fillna(method = 'ffill')

结果展示

df

res1

res2

除了取前后值,还可以取经过计算得到的值,比如常用的平均值填充法:

# 填充列的平均值

df.fillna(df.mean())

# 对指定列填充平均值

df.fillna(df.mean()['B':'D'])

# 另一种填充列的平均值的方法

df.where(pd.notna(df),df.mean(),axis = 'columns')

缺失值的填充的另一思路是使用替换方法df.replace():

# 将指定列的空值替换成指定值

import pandas as pd

import numpy as np

# 原数据

df = pd.DataFrame({'A':['a1','a1','a2','a2'],

'B':['b1','b2',None,'b2'],

'C':[1,2,3,4],

'D':[5,6,None,8],

'E':[5,None,7,8]

})

df.replace({'B':{np.nan:'Hudas'}})

结果展示

扩展补充知识

stu_info.xlsx

import pandas as pd

stu_info = pd.read_excel(r'C:\Users\X2001565\Desktop\stu_info.xlsx')

stu_info.rename(columns=lambda x: str.lower(x), inplace=True)

stu_info 

对字段'name'中的缺失值进行赋值 

# refresh Name to put "Error" for empty one

def refresh_name(row):

if type(row['name']) != str:

return 'Error'

else:

return row['name']

stu_info['name'] = stu_info.apply(lambda row: refresh_name(row), axis = 1)

stu_info

提示Tips: 注意上述缺失值填充方法只适合字段存储的值是字符串类型 

def refresh_grade(row):

if type(row['grade']) != str:

return 'No grade'

else:

return row['grade']

stu_info['grade'] = stu_info.apply(lambda row: refresh_grade(row), axis = 1)

stu_info

我们可以发现字段'grade'列填充缺失值是行不通的

推荐文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: