【Python】数据分析+数据挖掘——掌握Python和Pandas中的单元格替换操作

1. 前言

数据处理和清洗是数据分析和机器学习中至关重要的步骤。在数据处理过程中，我们经常需要对数据集进行清洗和转换，其中单元格替换是一个常用的技术。Python作为一种功能强大且灵活的编程语言，为数据处理提供了丰富的工具和库。Pandas库是Python中最流行的数据处理库之一，它提供了丰富的功能，包括强大的单元格替换操作。

在本博客中，我们将深入探讨Python和Pandas库中有关单元格替换的知识。我们将首先介绍Python中的基本替换方法，然后重点关注Pandas库中的df.replace()方法，以及如何使用它来进行单元格替换。我们还将学习如何使用df.replace()来实现单元格范围替换，以及如何进行哑变量替换，将分类数据转换为更易于处理的形式。

2. 单元格变量替换

当涉及到数据处理、清洗或转换时，Python原生库和Pandas库都提供了一些功能来进行单元格替换。让我们先介绍一下Python原生库中的替换方法，然后再探讨Pandas库的相关功能。

Python原生库中的单元格替换：

在Python中，主要使用内置的数据结构如列表（List）和字典（Dictionary）来处理数据。对于列表，你可以使用列表推导式或循环来实现单元格替换，而对于字典，可以通过键值对的方式进行替换。

例如使用列表推导式替换列表中的特定值：

In[0]:

derive_list = ['a','b','c','d','e'] # 用列表推导来替换的列表例子

derive_list = [x if x != 'a' else 'A' for x in derive_list] # 使用列表推导式来替换列表中特定的值

print(derive_list)

注释：

derive_list: 这是一个列表变量，它包含了一些元素。假设derive_list是一个字符串列表，例如[‘a’, ‘b’, ‘c’, ‘d’, ‘e’]。 for x in derive_list: 这是列表推导式的循环部分。它遍历derive_list中的每个元素，并将当前元素赋值给变量x。 x if x != ‘a’ else ‘A’: 这是列表推导式的条件表达式。它表示如果当前元素x不等于’a’，则不做修改，否则替换为’A’。

最终结果: 列表推导式的结果是一个新的列表，其中满足条件的元素已经被替换。该结果会覆盖原始的derive_list，因此derive_list会被修改。

out[0]:

['A', 'b', 'c', 'd', 'e']

接下来使用循环替换列表中的特定值：

In[1]:

loop_list = ['h','e','l','l','o',',','p','y','t','h','o','n'] # 用循环来替换列表中特定的值

for index,list_item in enumerate(loop_list): # 使用循环来替换列表中特定的值

if list_item == 'p':

loop_list[index] = 'P'

for new_list_item in loop_list: # 使用循环来依次打印新列表里面的元素值

print(new_list_item, end="") # end=""的作用是不换行

注释：

enumerate()函数可以用于遍历一个可迭代对象（如列表、元组、字符串等）并返回元素的索引和对应的值。

out[1]:

hello,Python

最后在学习一下使用字典替换列表中的特定值：

In[2]:

num_key_dict = {0:'a',1:'b',2:'c',3:'d'} # 键为number类型的dict

str_key_dict = {'0':'a','1':'b','2':'c','3':'d'} # 键为string类型的dict

num_key_dict[1] = 'B' # 替换dict中的特定值

str_key_dict['1'] = 'B' # 替换dict中的特定值

print("num_key_dict is:",num_key_dict)

print("str_key_dict is:",str_key_dict)

注释：

若将str_key_dict['1'] = 'B'改为str_key_dict[1] = 'B'那么str_key_dict中的’b‘值并不会被改变，而是字典中多了一个key为1，value为’B’的键值对

out[2]:

num_key_dict is: {0: 'a', 1: 'B', 2: 'c', 3: 'd'}

str_key_dict is: {'0': 'a', '1': 'B', '2': 'c', '3': 'd'}

案例数据表university_rank.csv

接下来我们将重点放在Pandas中的单元格替换操作，Pandas提供了多种方法来替换DataFrame或Series中的特定值。这些方法可以帮助你快速、灵活地对数据进行替换。下面将详细介绍几种常用的单元格替换方法。

常用的函数是df.inplace来进行某个单元格或者某个列的变量替换

语法：DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)

df.replace(

# 要替换的值。可以是单个值、一个列表、字典或正则表达式。

to_replace

# 用于替换的新值。可以是单个值或字典。

value

# 是否在原df上修改

inplace = False

# 指定每行替换的最大数量。默认为None，表示不限制。

limit = None

# 是否启用正则表达式替换。默认为False。

regex = False

# 当to_replace为字典时，指定如何进行替换。默认为'pad'，表示用字典中的值向前填充

method = 'pad'

)

In[3]:

import pandas as pd

df = pd.read_csv("university_rank.csv") # 读取案例数据表

inplace_set = {'北美': "北美洲", '南美': '南美洲'} # 创建一个替换集合

df.地区.replace(inplace_set, inplace=True) # 将读取到的数据中所有'北美'、'南美'单元格均换成'北美洲'、'南美洲'

df # 展示新的DataFrame

**out[3]:**

大学名称排名地区学科领域排名依据

0 哈佛大学 1 北美洲工程学术声誉

1 牛津大学 2 欧洲医学科研产出

2 北京大学 3 亚洲商学国际影响力

3 悉尼大学 4 大洋洲计算机科学教学质量

4 圣保罗大学 5 南美洲艺术学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美洲计算机科学研究生录取率

96 约翰内斯堡大学 97 非洲环境科学学术声誉

97 麦吉尔大学 98 北美洲艺术学生满意度

98 伦敦政治经济学院 99 欧洲法律国际影响力

99 东京大学 100 亚洲教育毕业生就业率

[100 rows x 5 columns]

2.1 范围单元格替换

假如要对某个范围的单元格进行替换就需要搭配df.query、df.loc、df.index来使用来达到目的若我想要筛选出地区为北美洲和南美洲，同时10<排名<80的所有记录,将其排名依据均设置为空

In[4]:

df.loc[df.query("10<排名<80 and 地区 in ['北美洲','南美洲']").index, '排名依据'] = '' # 筛选出地区为北美洲和南美洲，同时10<排名<80的所有记录,将其排名依据均设置为空

df[10:79] # 查看进行范围单元格替换后的DataFrame

out[4]:

大学名称排名地区学科领域排名依据10斯坦福大学11北美洲工程11剑桥大学12欧洲医学教学质量12清华大学13亚洲商学校友网络13墨尔本大学14大洋洲计算机科学学术声誉14圣保罗国立大学15南美洲艺术..................74墨尔本大学75大洋洲商学国际化程度75圣保罗国立大学76南美洲计算机科学76约翰内斯堡大学77非洲环境科学学术声誉77麦吉尔大学78北美洲艺术78伦敦政治经济学院79欧洲法律国际影响力

69 rows × 5 columns

同样的我们也可以使用replace方法，通过条件表达式选择满足条件的行，并将"排名依据"列的值置为空字符串

In[5]:

# 使用replace方法，通过条件表达式选择满足条件的行，并将"排名依据"列的值置为空字符串

condition = (df["排名"].between(11, 79)) & (df["地区"].isin(['北美洲', '南美洲']))

df['排名依据'].replace(to_replace=df.loc[condition, '排名依据'].values, value='', inplace=True)

df[10:79] # 查看进行范围单元格替换后的DataFrame

.dataframe tbody tr th {

vertical-align: top;

}

.dataframe thead th {

text-align: right;

}

out[5]:

69 rows × 5 columns

2.2 哑变量替换

在数据分析和统计学中，哑变量（Dummy Variable），也称为虚拟变量，是用来对分类变量进行编码的一种方法。在许多机器学习算法中，需要将分类数据转换为数值形式才能进行处理，而哑变量就是一种常用的编码方式。

哑变量编码的基本思想是将一个有n个取值的分类变量转换成n个二进制变量，每个二进制变量表示该分类是否出现。对于原始的分类变量，其中某个取值用1表示，而其他取值用0表示。这样做的目的是为了在数值形式上保持分类变量之间的独立性。

例如，假设有一个商品，它具有商品ID、价格、分类三个属性，变量“分类”，包含三个取值：“日常用品”、“蔬果"和"服装”。如下图所示

#mermaid-svg-sR5oPYFt2TzdGCIY {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .error-icon{fill:#552222;}#mermaid-svg-sR5oPYFt2TzdGCIY .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-sR5oPYFt2TzdGCIY .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-sR5oPYFt2TzdGCIY .marker{fill:#333333;stroke:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY .marker.cross{stroke:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-sR5oPYFt2TzdGCIY .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster-label text{fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster-label span{color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .label text,#mermaid-svg-sR5oPYFt2TzdGCIY span{fill:#333;color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .node rect,#mermaid-svg-sR5oPYFt2TzdGCIY .node circle,#mermaid-svg-sR5oPYFt2TzdGCIY .node ellipse,#mermaid-svg-sR5oPYFt2TzdGCIY .node polygon,#mermaid-svg-sR5oPYFt2TzdGCIY .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-sR5oPYFt2TzdGCIY .node .label{text-align:center;}#mermaid-svg-sR5oPYFt2TzdGCIY .node.clickable{cursor:pointer;}#mermaid-svg-sR5oPYFt2TzdGCIY .arrowheadPath{fill:#333333;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-sR5oPYFt2TzdGCIY .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-sR5oPYFt2TzdGCIY .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster text{fill:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY .cluster span{color:#333;}#mermaid-svg-sR5oPYFt2TzdGCIY div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-sR5oPYFt2TzdGCIY :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

属性1

属性2

属性3

商品

商品ID

价格

分类

使用哑变量编码后，将生成三个二进制变量："日常用品"变量、“蔬果"变量和"服装"变量。如果原始数据中的某一行"分类"是"日常用品”，则"日常用品"变量为1，而"蔬果"和"服装"变量为0。

下面这个表格是正常的商品表

商品名称商品ID价格分类手帕纸10011$日常用品T恤100210$服装火龙果10035$蔬果

下面这个改动后的商品表则是使用分类这个哑变量

商品名称商品ID价格分类_日常用品分类_服装分类_蔬果手帕纸10011$100T恤100210$010火龙果10035$001

哑变量替换（Dummy Variable Replacement）指的是将原始的分类变量使用哑变量编码替换成数值形式。这种替换方式常用于机器学习模型的训练和其他数据分析任务，因为大部分算法需要处理数值数据。

在Pandas中，使用pd.get_dummies函数可以方便地将包含分类数据的DataFrame或Series转换成哑变量形式。它会自动识别分类数据并生成相应的哑变量。其中某个分类的取值用1表示，其余分类的取值用0表示。

语法:pd.get_dummies(data, prefix=None, prefix_sep=‘_’, columns=None, drop_first=False, dtype=None)

pd.get_dummies(

# 转换的变量列，若不指定则为全部列

data

# 哑变量名称前缀,str或列表，用于指定生成的哑变量列名的前缀。默认为None，即不添加前缀。

prefix = None

# 用于指定前缀与原始列名之间的分隔符

prefix_sep = '_'

# 设置空值的哑变量

dummy_na = False

# 转换的原始列名，若不指定则为全部列

columns = None

# 是否丢弃第一列，因为若后面的列全为0，反向说明省去的列为1，则第一列可舍去

drop_frist = False

# 数据类型，用于指定生成哑变量列的数据类型。默认为None，即自动推断数据类型。

dtype = None

)

In[6]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

print(df) # 打印一下案例数据表

print(pd.get_dummies(data=df.学科领域)) # 只打印以学科领域为哑变量列的表

out[6]:

大学名称排名地区学科领域排名依据

0 哈佛大学 1 北美工程学术声誉

1 牛津大学 2 欧洲医学科研产出

2 北京大学 3 亚洲商学国际影响力

3 悉尼大学 4 大洋洲计算机科学教学质量

4 圣保罗大学 5 南美艺术学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美计算机科学研究生录取率

96 约翰内斯堡大学 97 非洲环境科学学术声誉

97 麦吉尔大学 98 北美艺术学生满意度

98 伦敦政治经济学院 99 欧洲法律国际影响力

99 东京大学 100 亚洲教育毕业生就业率

[100 rows x 5 columns]

医学商学工程教育法律环境科学社会科学经济学艺术计算机科学0001000000011000000000201000000003000000000140000000010.................................950000000001960000010000970000000010980000100000990001000000

100 rows × 10 columns

In[7]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

print(df) # 打印案例表

print(pd.get_dummies(df, columns=["学科领域"])) # 打印包括学科领域哑变量列的所有数据

out[7]:

大学名称排名地区学科领域排名依据

0 哈佛大学 1 北美工程学术声誉

1 牛津大学 2 欧洲医学科研产出

2 北京大学 3 亚洲商学国际影响力

3 悉尼大学 4 大洋洲计算机科学教学质量

4 圣保罗大学 5 南美艺术学生满意度

.. ... ... ... ... ...

95 圣保罗国立大学 96 南美计算机科学研究生录取率

96 约翰内斯堡大学 97 非洲环境科学学术声誉

97 麦吉尔大学 98 北美艺术学生满意度

98 伦敦政治经济学院 99 欧洲法律国际影响力

99 东京大学 100 亚洲教育毕业生就业率

[100 rows x 5 columns]

大学名称排名地区排名依据学科领域_医学学科领域_商学学科领域_工程学科领域_教育学科领域_法律学科领域_环境科学学科领域_社会科学学科领域_经济学学科领域_艺术学科领域_计算机科学0哈佛大学1北美学术声誉00100000001牛津大学2欧洲科研产出10000000002北京大学3亚洲国际影响力01000000003悉尼大学4大洋洲教学质量00000000014圣保罗大学5南美学生满意度0000000010.............................................95圣保罗国立大学96南美研究生录取率000000000196约翰内斯堡大学97非洲学术声誉000001000097麦吉尔大学98北美学生满意度000000001098伦敦政治经济学院99欧洲国际影响力000010000099东京大学100亚洲毕业生就业率0001000000

100 rows × 14 columns

In[8]:

print(pd.get_dummies(df, columns=["学科领域"], drop_first=True)) # 去掉第一列哑变量

out[8]:

大学名称排名地区排名依据学科领域_商学学科领域_工程学科领域_教育学科领域_法律学科领域_环境科学学科领域_社会科学学科领域_经济学学科领域_艺术学科领域_计算机科学0哈佛大学1北美学术声誉0100000001牛津大学2欧洲科研产出0000000002北京大学3亚洲国际影响力1000000003悉尼大学4大洋洲教学质量0000000014圣保罗大学5南美学生满意度000000010..........................................95圣保罗国立大学96南美研究生录取率00000000196约翰内斯堡大学97非洲学术声誉00001000097麦吉尔大学98北美学生满意度00000001098伦敦政治经济学院99欧洲国际影响力00010000099东京大学100亚洲毕业生就业率001000000

100 rows × 13 columns

2.3 分段单元格替换

分段单元格替换（Binning）是一种在数据处理中常用的技术，它将连续的数值数据划分为若干个离散的区间，然后用相应的区间值来替换原始数据。这样可以将连续的数值数据转换为有序的分类数据，便于数据分析和可视化。

分段单元格替换通常用于数据的离散化，将数值数据按照一定规则划分成若干区间，然后将原始数据映射到相应的区间值。

在Pandas中，可以使用cut()函数来实现分段单元格替换。cut()函数接受一个Series对象和一个表示区间边界的列表，然后将Series中的数值映射到相应的区间。

假如现在我想要将原本1-100的排名替换成1-20，20-40，40-60，60-80，80-100五段来显示，那么我们能使用什么函数来达到这个目的呢？

语法:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)

pd.cut(

# 分段的变量列名称

# 具体的分段设定,表示区间边界的列表，可以是整数表示区间的个数，也可以是自定义的边界值列表

bin

# 是否包括右边界 '[)'形式

right = True

# 给分段设置标签

lables = None

# 第一条记录是否包括左侧界值，当right不为True才有效果

include_lowest = False

# 是否返回划分后的区间边界值，默认为False。

retbins = False

# 表示区间边界的精度，默认为3

precision = 3

# 处理重复的边界值。默认为'raise'，即如果有重复的边界值会抛出异常

duplicates = 'raise'

)

In[9]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

# 对df的排名列进行分段处理

df['排名'] = pd.cut(x=df['排名'], bins=[1, 20, 40, 60, 80, 100],

right=False, labels=["L1", "L2", "L3", "L4", "L5"])

print(df.head(40)) # 打印替换后的新DataFrame

out[9]:

大学名称排名地区学科领域排名依据0哈佛大学L1北美工程学术声誉1牛津大学L1欧洲医学科研产出2北京大学L1亚洲商学国际影响力3悉尼大学L1大洋洲计算机科学教学质量4圣保罗大学L1南美艺术学生满意度5约翰内斯堡大学L1非洲法律毕业生就业率6麦吉尔大学L1北美教育校友网络7伦敦政治经济学院L1欧洲经济学国际化程度8东京大学L1亚洲社会科学研究生录取率9澳大利亚国立大学L1大洋洲环境科学科研经费10斯坦福大学L1北美工程研究成果11剑桥大学L1欧洲医学教学质量12清华大学L1亚洲商学校友网络13墨尔本大学L1大洋洲计算机科学学术声誉14圣保罗国立大学L1南美艺术学生满意度15约翰内斯堡大学L1非洲法律国际影响力16麦吉尔大学L1北美教育毕业生就业率17伦敦政治经济学院L1欧洲经济学科研产出18东京大学L1亚洲社会科学国际化程度19澳大利亚国立大学L2大洋洲环境科学研究生录取率20加州理工学院L2北美工程学术声誉21巴黎高等师范学院L2欧洲医学科研产出22香港大学L2亚洲商学国际影响力23奥克兰大学L2大洋洲计算机科学教学质量24里约热内卢大学L2南美艺术学生满意度25约翰内斯堡大学L2非洲法律毕业生就业率26约翰内斯堡大学L2非洲工程研究成果27麦吉尔大学L2北美医学教学质量28伦敦政治经济学院L2欧洲社会科学国际化程度29东京大学L2亚洲艺术学生满意度30澳大利亚国立大学L2大洋洲法律毕业生就业率31斯坦福大学L2北美经济学校友网络32剑桥大学L2欧洲工程科研产出33清华大学L2亚洲医学学术声誉34墨尔本大学L2大洋洲商学教学质量35圣保罗国立大学L2南美计算机科学研究生录取率36约翰内斯堡大学L2非洲环境科学学术声誉37麦吉尔大学L2北美艺术学生满意度38伦敦政治经济学院L2欧洲法律国际影响力39东京大学L3亚洲教育毕业生就业率

3. 结束语

如果有疑问欢迎大家留言讨论，你如果觉得这篇文章对你有帮助可以给我一个免费的赞吗？我们之间的交流是我最大的动力！

好文推荐

评论可见，请评论后查看内容，谢谢！！！