1. 前言

数据处理和清洗是数据分析和机器学习中至关重要的步骤。在数据处理过程中,我们经常需要对数据集进行清洗和转换,其中单元格替换是一个常用的技术。Python作为一种功能强大且灵活的编程语言,为数据处理提供了丰富的工具和库。Pandas库是Python中最流行的数据处理库之一,它提供了丰富的功能,包括强大的单元格替换操作。

在本博客中,我们将深入探讨Python和Pandas库中有关单元格替换的知识。我们将首先介绍Python中的基本替换方法,然后重点关注Pandas库中的df.replace()方法,以及如何使用它来进行单元格替换。我们还将学习如何使用df.replace()来实现单元格范围替换,以及如何进行哑变量替换,将分类数据转换为更易于处理的形式。

2. 单元格变量替换

当涉及到数据处理、清洗或转换时,Python原生库和Pandas库都提供了一些功能来进行单元格替换。让我们先介绍一下Python原生库中的替换方法,然后再探讨Pandas库的相关功能。

Python原生库中的单元格替换:

在Python中,主要使用内置的数据结构如列表(List)和字典(Dictionary)来处理数据。对于列表,你可以使用列表推导式或循环来实现单元格替换,而对于字典,可以通过键值对的方式进行替换。

例如使用列表推导式替换列表中的特定值:

In[0]:

derive_list = ['a','b','c','d','e'] # 用列表推导来替换的列表例子

derive_list = [x if x != 'a' else 'A' for x in derive_list] # 使用列表推导式来替换列表中特定的值

print(derive_list)

注释:

derive_list: 这是一个列表变量,它包含了一些元素。假设derive_list是一个字符串列表,例如[‘a’, ‘b’, ‘c’, ‘d’, ‘e’]。 for x in derive_list: 这是列表推导式的循环部分。它遍历derive_list中的每个元素,并将当前元素赋值给变量x。 x if x != ‘a’ else ‘A’: 这是列表推导式的条件表达式。它表示如果当前元素x不等于’a’,则不做修改,否则替换为’A’。

最终结果: 列表推导式的结果是一个新的列表,其中满足条件的元素已经被替换。该结果会覆盖原始的derive_list,因此derive_list会被修改。

out[0]:

['A', 'b', 'c', 'd', 'e']

接下来使用循环替换列表中的特定值:

In[1]:

loop_list = ['h','e','l','l','o',',','p','y','t','h','o','n'] # 用循环来替换列表中特定的值

for index,list_item in enumerate(loop_list): # 使用循环来替换列表中特定的值

if list_item == 'p':

loop_list[index] = 'P'

for new_list_item in loop_list: # 使用循环来依次打印新列表里面的元素值

print(new_list_item, end="") # end=""的作用是不换行

注释:

enumerate()函数可以用于遍历一个可迭代对象(如列表、元组、字符串等)并返回元素的索引和对应的值。

out[1]:

hello,Python

最后在学习一下使用字典替换列表中的特定值:

In[2]:

num_key_dict = {0:'a',1:'b',2:'c',3:'d'} # 键为number类型的dict

str_key_dict = {'0':'a','1':'b','2':'c','3':'d'} # 键为string类型的dict

num_key_dict[1] = 'B' # 替换dict中的特定值

str_key_dict['1'] = 'B' # 替换dict中的特定值

print("num_key_dict is:",num_key_dict)

print("str_key_dict is:",str_key_dict)

注释:

若将str_key_dict['1'] = 'B'改为str_key_dict[1] = 'B'那么str_key_dict中的’b‘值并不会被改变,而是字典中多了一个key为1,value为’B’的键值对

out[2]:

num_key_dict is: {0: 'a', 1: 'B', 2: 'c', 3: 'd'}

str_key_dict is: {'0': 'a', '1': 'B', '2': 'c', '3': 'd'}

案例数据表university_rank.csv

接下来我们将重点放在Pandas中的单元格替换操作,Pandas提供了多种方法来替换DataFrame或Series中的特定值。这些方法可以帮助你快速、灵活地对数据进行替换。下面将详细介绍几种常用的单元格替换方法。

常用的函数是df.inplace来进行某个单元格或者某个列的变量替换

语法:DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)

df.replace(

# 要替换的值。可以是单个值、一个列表、字典或正则表达式。

to_replace

# 用于替换的新值。可以是单个值或字典。

value

# 是否在原df上修改

inplace = False

# 指定每行替换的最大数量。默认为None,表示不限制。

limit = None

# 是否启用正则表达式替换。默认为False。

regex = False

# 当to_replace为字典时,指定如何进行替换。默认为'pad',表示用字典中的值向前填充

method = 'pad'

)

In[3]:

import pandas as pd

df = pd.read_csv("university_rank.csv") # 读取案例数据表

inplace_set = {'北美': "北美洲", '南美': '南美洲'} # 创建一个替换集合

df.地区.replace(inplace_set, inplace=True) # 将读取到的数据中所有'北美'、'南美'单元格均换成'北美洲'、'南美洲'

df # 展示新的DataFrame

**out[3]:**

大学名称 排名 地区 学科领域 排名依据

0 哈佛大学 1 北美洲 工程 学术声誉

1 牛津大学 2 欧洲 医学 科研产出

2 北京大学 3 亚洲 商学 国际影响力

3 悉尼大学 4 大洋洲 计算机科学 教学质量

4 圣保罗大学 5 南美洲 艺术 学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美洲 计算机科学 研究生录取率

96 约翰内斯堡大学 97 非洲 环境科学 学术声誉

97 麦吉尔大学 98 北美洲 艺术 学生满意度

98 伦敦政治经济学院 99 欧洲 法律 国际影响力

99 东京大学 100 亚洲 教育 毕业生就业率

[100 rows x 5 columns]

2.1 范围单元格替换

假如要对某个范围的单元格进行替换就需要搭配df.query、df.loc、df.index来使用来达到目的 若我想要筛选出地区为北美洲和南美洲,同时10<排名<80的所有记录,将其排名依据均设置为空

In[4]:

df.loc[df.query("10<排名<80 and 地区 in ['北美洲','南美洲']").index, '排名依据'] = '' # 筛选出地区为北美洲和南美洲,同时10<排名<80的所有记录,将其排名依据均设置为空

df[10:79] # 查看进行范围单元格替换后的DataFrame

out[4]:

大学名称排名地区学科领域排名依据10斯坦福大学11北美洲工程11剑桥大学12欧洲医学教学质量12清华大学13亚洲商学校友网络13墨尔本大学14大洋洲计算机科学学术声誉14圣保罗国立大学15南美洲艺术..................74墨尔本大学75大洋洲商学国际化程度75圣保罗国立大学76南美洲计算机科学76约翰内斯堡大学77非洲环境科学学术声誉77麦吉尔大学78北美洲艺术78伦敦政治经济学院79欧洲法律国际影响力

69 rows × 5 columns

同样的我们也可以使用replace方法,通过条件表达式选择满足条件的行,并将"排名依据"列的值置为空字符串

In[5]:

# 使用replace方法,通过条件表达式选择满足条件的行,并将"排名依据"列的值置为空字符串

condition = (df["排名"].between(11, 79)) & (df["地区"].isin(['北美洲', '南美洲']))

df['排名依据'].replace(to_replace=df.loc[condition, '排名依据'].values, value='', inplace=True)

df[10:79] # 查看进行范围单元格替换后的DataFrame

.dataframe tbody tr th {

vertical-align: top;

}

.dataframe thead th {

text-align: right;

}

out[5]:

大学名称排名地区学科领域排名依据10斯坦福大学11北美洲工程11剑桥大学12欧洲医学教学质量12清华大学13亚洲商学校友网络13墨尔本大学14大洋洲计算机科学学术声誉14圣保罗国立大学15南美洲艺术..................74墨尔本大学75大洋洲商学国际化程度75圣保罗国立大学76南美洲计算机科学76约翰内斯堡大学77非洲环境科学学术声誉77麦吉尔大学78北美洲艺术78伦敦政治经济学院79欧洲法律国际影响力

69 rows × 5 columns

2.2 哑变量替换

在数据分析和统计学中,哑变量(Dummy Variable),也称为虚拟变量,是用来对分类变量进行编码的一种方法。在许多机器学习算法中,需要将分类数据转换为数值形式才能进行处理,而哑变量就是一种常用的编码方式。

哑变量编码的基本思想是将一个有n个取值的分类变量转换成n个二进制变量,每个二进制变量表示该分类是否出现。对于原始的分类变量,其中某个取值用1表示,而其他取值用0表示。这样做的目的是为了在数值形式上保持分类变量之间的独立性。

例如,假设有一个商品,它具有商品ID、价格、分类三个属性,变量“分类”,包含三个取值:“日常用品”、“蔬果"和"服装”。如下图所示

#mermaid-svg-sR5oPYFt2TzdGCIY {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .error-icon{fill:#552222;}#mermaid-svg-sR5oPYFt2TzdGCIY .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-sR5oPYFt2TzdGCIY .marker{fill:#333333;stroke:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY .marker.cross{stroke:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-sR5oPYFt2TzdGCIY .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster-label text{fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster-label span{color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .label text,#mermaid-svg-sR5oPYFt2TzdGCIY span{fill:#333;color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .node rect,#mermaid-svg-sR5oPYFt2TzdGCIY .node circle,#mermaid-svg-sR5oPYFt2TzdGCIY .node ellipse,#mermaid-svg-sR5oPYFt2TzdGCIY .node polygon,#mermaid-svg-sR5oPYFt2TzdGCIY .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-sR5oPYFt2TzdGCIY .node .label{text-align:center;}#mermaid-svg-sR5oPYFt2TzdGCIY .node.clickable{cursor:pointer;}#mermaid-svg-sR5oPYFt2TzdGCIY .arrowheadPath{fill:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-sR5oPYFt2TzdGCIY .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster text{fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster span{color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-sR5oPYFt2TzdGCIY :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

属性1

属性2

属性3

商品

商品ID

价格

分类

使用哑变量编码后,将生成三个二进制变量:"日常用品"变量、“蔬果"变量和"服装"变量。如果原始数据中的某一行"分类"是"日常用品”,则"日常用品"变量为1,而"蔬果"和"服装"变量为0。

下面这个表格是正常的商品表

商品名称商品ID价格分类手帕纸10011$日常用品T恤100210$服装火龙果10035$蔬果

下面这个改动后的商品表则是使用分类这个哑变量

商品名称商品ID价格分类_日常用品分类_服装分类_蔬果手帕纸10011$100T恤100210$010火龙果10035$001

哑变量替换(Dummy Variable Replacement)指的是将原始的分类变量使用哑变量编码替换成数值形式。这种替换方式常用于机器学习模型的训练和其他数据分析任务,因为大部分算法需要处理数值数据。

在Pandas中,使用pd.get_dummies函数可以方便地将包含分类数据的DataFrame或Series转换成哑变量形式。它会自动识别分类数据并生成相应的哑变量。其中某个分类的取值用1表示,其余分类的取值用0表示。

语法:pd.get_dummies(data, prefix=None, prefix_sep=‘_’, columns=None, drop_first=False, dtype=None)

pd.get_dummies(

# 转换的变量列,若不指定则为全部列

data

# 哑变量名称前缀,str或列表,用于指定生成的哑变量列名的前缀。默认为None,即不添加前缀。

prefix = None

# 用于指定前缀与原始列名之间的分隔符

prefix_sep = '_'

# 设置空值的哑变量

dummy_na = False

# 转换的原始列名,若不指定则为全部列

columns = None

# 是否丢弃第一列,因为若后面的列全为0,反向说明省去的列为1,则第一列可舍去

drop_frist = False

# 数据类型,用于指定生成哑变量列的数据类型。默认为None,即自动推断数据类型。

dtype = None

)

In[6]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

print(df) # 打印一下案例数据表

print(pd.get_dummies(data=df.学科领域)) # 只打印以学科领域为哑变量列的表

out[6]:

大学名称 排名 地区 学科领域 排名依据

0 哈佛大学 1 北美 工程 学术声誉

1 牛津大学 2 欧洲 医学 科研产出

2 北京大学 3 亚洲 商学 国际影响力

3 悉尼大学 4 大洋洲 计算机科学 教学质量

4 圣保罗大学 5 南美 艺术 学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美 计算机科学 研究生录取率

96 约翰内斯堡大学 97 非洲 环境科学 学术声誉

97 麦吉尔大学 98 北美 艺术 学生满意度

98 伦敦政治经济学院 99 欧洲 法律 国际影响力

99 东京大学 100 亚洲 教育 毕业生就业率

[100 rows x 5 columns]

医学商学工程教育法律环境科学社会科学经济学艺术计算机科学0001000000011000000000201000000003000000000140000000010.................................950000000001960000010000970000000010980000100000990001000000

100 rows × 10 columns

In[7]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

print(df) # 打印案例表

print(pd.get_dummies(df, columns=["学科领域"])) # 打印包括学科领域哑变量列的所有数据

out[7]:

大学名称 排名 地区 学科领域 排名依据

0 哈佛大学 1 北美 工程 学术声誉

1 牛津大学 2 欧洲 医学 科研产出

2 北京大学 3 亚洲 商学 国际影响力

3 悉尼大学 4 大洋洲 计算机科学 教学质量

4 圣保罗大学 5 南美 艺术 学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美 计算机科学 研究生录取率

96 约翰内斯堡大学 97 非洲 环境科学 学术声誉

97 麦吉尔大学 98 北美 艺术 学生满意度

98 伦敦政治经济学院 99 欧洲 法律 国际影响力

99 东京大学 100 亚洲 教育 毕业生就业率

[100 rows x 5 columns]

大学名称排名地区排名依据学科领域_医学学科领域_商学学科领域_工程学科领域_教育学科领域_法律学科领域_环境科学学科领域_社会科学学科领域_经济学学科领域_艺术学科领域_计算机科学0哈佛大学1北美学术声誉00100000001牛津大学2欧洲科研产出10000000002北京大学3亚洲国际影响力01000000003悉尼大学4大洋洲教学质量00000000014圣保罗大学5南美学生满意度0000000010.............................................95圣保罗国立大学96南美研究生录取率000000000196约翰内斯堡大学97非洲学术声誉000001000097麦吉尔大学98北美学生满意度000000001098伦敦政治经济学院99欧洲国际影响力000010000099东京大学100亚洲毕业生就业率0001000000

100 rows × 14 columns

In[8]:

print(pd.get_dummies(df, columns=["学科领域"], drop_first=True)) # 去掉第一列哑变量

out[8]:

大学名称排名地区排名依据学科领域_商学学科领域_工程学科领域_教育学科领域_法律学科领域_环境科学学科领域_社会科学学科领域_经济学学科领域_艺术学科领域_计算机科学0哈佛大学1北美学术声誉0100000001牛津大学2欧洲科研产出0000000002北京大学3亚洲国际影响力1000000003悉尼大学4大洋洲教学质量0000000014圣保罗大学5南美学生满意度000000010..........................................95圣保罗国立大学96南美研究生录取率00000000196约翰内斯堡大学97非洲学术声誉00001000097麦吉尔大学98北美学生满意度00000001098伦敦政治经济学院99欧洲国际影响力00010000099东京大学100亚洲毕业生就业率001000000

100 rows × 13 columns

2.3 分段单元格替换

分段单元格替换(Binning)是一种在数据处理中常用的技术,它将连续的数值数据划分为若干个离散的区间,然后用相应的区间值来替换原始数据。这样可以将连续的数值数据转换为有序的分类数据,便于数据分析和可视化。

分段单元格替换通常用于数据的离散化,将数值数据按照一定规则划分成若干区间,然后将原始数据映射到相应的区间值。

在Pandas中,可以使用cut()函数来实现分段单元格替换。cut()函数接受一个Series对象和一个表示区间边界的列表,然后将Series中的数值映射到相应的区间。

假如现在我想要将原本1-100的排名替换成1-20,20-40,40-60,60-80,80-100五段来显示,那么我们能使用什么函数来达到这个目的呢?

语法:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)

pd.cut(

# 分段的变量列名称

x

# 具体的分段设定,表示区间边界的列表,可以是整数表示区间的个数,也可以是自定义的边界值列表

bin

# 是否包括右边界 '[)'形式

right = True

# 给分段设置标签

lables = None

# 第一条记录是否包括左侧界值,当right不为True才有效果

include_lowest = False

# 是否返回划分后的区间边界值,默认为False。

retbins = False

# 表示区间边界的精度,默认为3

precision = 3

# 处理重复的边界值。默认为'raise',即如果有重复的边界值会抛出异常

duplicates = 'raise'

)

In[9]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

# 对df的排名列进行分段处理

df['排名'] = pd.cut(x=df['排名'], bins=[1, 20, 40, 60, 80, 100],

right=False, labels=["L1", "L2", "L3", "L4", "L5"])

print(df.head(40)) # 打印替换后的新DataFrame

out[9]:

大学名称排名地区学科领域排名依据0哈佛大学L1北美工程学术声誉1牛津大学L1欧洲医学科研产出2北京大学L1亚洲商学国际影响力3悉尼大学L1大洋洲计算机科学教学质量4圣保罗大学L1南美艺术学生满意度5约翰内斯堡大学L1非洲法律毕业生就业率6麦吉尔大学L1北美教育校友网络7伦敦政治经济学院L1欧洲经济学国际化程度8东京大学L1亚洲社会科学研究生录取率9澳大利亚国立大学L1大洋洲环境科学科研经费10斯坦福大学L1北美工程研究成果11剑桥大学L1欧洲医学教学质量12清华大学L1亚洲商学校友网络13墨尔本大学L1大洋洲计算机科学学术声誉14圣保罗国立大学L1南美艺术学生满意度15约翰内斯堡大学L1非洲法律国际影响力16麦吉尔大学L1北美教育毕业生就业率17伦敦政治经济学院L1欧洲经济学科研产出18东京大学L1亚洲社会科学国际化程度19澳大利亚国立大学L2大洋洲环境科学研究生录取率20加州理工学院L2北美工程学术声誉21巴黎高等师范学院L2欧洲医学科研产出22香港大学L2亚洲商学国际影响力23奥克兰大学L2大洋洲计算机科学教学质量24里约热内卢大学L2南美艺术学生满意度25约翰内斯堡大学L2非洲法律毕业生就业率26约翰内斯堡大学L2非洲工程研究成果27麦吉尔大学L2北美医学教学质量28伦敦政治经济学院L2欧洲社会科学国际化程度29东京大学L2亚洲艺术学生满意度30澳大利亚国立大学L2大洋洲法律毕业生就业率31斯坦福大学L2北美经济学校友网络32剑桥大学L2欧洲工程科研产出33清华大学L2亚洲医学学术声誉34墨尔本大学L2大洋洲商学教学质量35圣保罗国立大学L2南美计算机科学研究生录取率36约翰内斯堡大学L2非洲环境科学学术声誉37麦吉尔大学L2北美艺术学生满意度38伦敦政治经济学院L2欧洲法律国际影响力39东京大学L3亚洲教育毕业生就业率

3. 结束语

如果有疑问欢迎大家留言讨论,你如果觉得这篇文章对你有帮助可以给我一个免费的赞吗?我们之间的交流是我最大的动力!

好文推荐

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: