人工智能 pandas实战：出租车GPS数据分析

一、数据背景

数据表的变量含义如下。

id：车辆编号，唯一标识 time：GPS采集时间 long：GPS经度 lati：GPS纬度 status：载客状态，1为载客，0为空客 speed：采集的GPS车速

首先读取数据，由于原数据没有header，直接就是数据，因此需设置为None，然后手动添加列索引名称。

# 读取数据

hd = ['id','time','long','lati','status','speed']

df = pd.read_csv('taxi.csv', header=None, names=hd)

数据来源：《交通时空大数据分析、挖掘与可视化》

看下数据整体情况。

df.info()

共54.5万条数据，没有缺失的变量，且类型除时间time以外都是数值型。

接着看下具体数据，猜测和理解下业务场景，并了解数据的形式。

# 查看前20行

df.head(20)

通过以上数据，我们可以发现：

获取方式：这个数据是通过出租车上的机器（比如传感器）采集的GPS信息，并且每隔一段时间进行采集和上报，采集频率不固定。时间数据：每个采集时间都提供了经纬度、载客状态、和车速信息，是一组时间序列数据，但仔细发现原数据时间没有排序。车辆行驶：经纬度、车速随着车的行驶状态动态变化，比如车停了等红灯车速变为0，经纬度也保持不变，车开起来了车速和经纬度会实时变化。载客状态：根据是否有乘客上车而发生变化，与车辆行驶状态没有任何关系。出租车的初始状态是0的话，如果有乘客上车，那么载客状态变为1，并且在乘客未下车之前机器采集上报的状态会一直是1，直到乘客下车为止才会再变为0，然后循环反复。

以上是我们对数据的简单理解。

二、数据处理

1）排序

原始数据的时间未进行排序，所以我们无法观察车辆行驶或载客状态的规律，首先需要进行排序。

需求1：对id和time进行升序排序，然后重置索引

# 排序

df = df.sort_values(by = ['id','time']).reset_index(drop=True)

df.head(10)

可以看到time已经按照升序排序了，索引重置为0,1,…,n。

2）类型转换

前面我们发现time变量是object类型，不利于我们做日期的操作，因此我们要转换为时间戳类型。

需求2：将time变量转换为时间戳类型

使用to_datetime方法实现类型转，具体用法可参考传送门。

# 转换日期类型

df['time'] = pd.to_datetime(df['time'])

原数据的time只有时分秒，没有年月日，因此转换后的年月日默认使用了当前日期。

3）重复值

原数据的重复数据较为复杂，常规简单的去重方法无法实现，因此下面通过需求3-7分步骤完成。

需求3：查询id和time重复数据的数量

理论上说，id和time都一样就是重复的数据，因为时间是按一定频率采样的，一个车辆在一个时间点只对应一条数据。因此设置subset子集对id和time查重，同时设置keep=False保留全部重复数据。查重的具体用法可参考。

df_dup = df[df.duplicated(subset=['id','time'], keep=False)==True].reset_index()

df_dup.shape

------

(910, 6)

重复数据全部保留共有910条（这里使用reset_index将原数据df的索引变为变量，后面去重时有用）。

仔细观察发现，重复数据在id和time相同的情况下，其他变量还存在多种不同形式（如下图红框），形式总结如下。

status相同都是0或都是1，但经纬度、车速可能不同 status不同，是1和0，但经纬度、车速相同

那具体该保留哪个，去除哪个呢？

这需要我们找到一个保留或去除的判断依据。

这里我们尝试通过status的前后变化对重复数据进行判断和筛选。一是因为同一时间不可能有两个载客状态，二是status变化频率低利于观察。

发现了几种不同的形式，我们如何处理呢？

根据status前后变化的规律，处理方式如下：

status相同时，但经纬度和车速不同时，删除其一即可，因为采样频率过低无法具体判断哪个是准确的。 status不同时，但经纬度和车速相同时，删除时间序列下status异常数据，因为乘客坐车需要时间，载客状态不可能在极短的时间内突然变化。比如，时序下的status为0001000，中间突然出现一个1，那么删除1所在行。同理1110111突然出现一个0，那么删除0所在行（这部分也算是异常值，只不过与重复值交叉同时出现了）。

需求4：对重复数据进行分组的重复数量统计，检查是否有3个以上（包含）重复的

以上重复数据的数量都是2个，那有没有大于2个重复的呢？

数据量太多，肉眼无法观察，我们通过以下语句判断。

(df_dup.groupby(['id','time'])['status'].count()==2).all()

------

False

对id和time分组统计重复数量，是否全部等于2，结果并不是，说明存在大于2个重复的数据。

需求5：筛选出重复数量大于2的数据

既然还存在大于2个重复的数据，那也必须一探究竟，可能形式更复杂。

(

df_dup.groupby(['id','time'])['status'].count()

.reset_index()

.pipe(lambda x:x.loc[x.status>2])

)

id和time分组下有6个重复数量为3的，且最大重复数量就是3了。

对于该情况下status前后的变化情况就需要逐个筛选去看了，这里数量不多大家可以自行观察数据。

经过观察后，我们可以这样做去重的处理：

如果status全部相同，那么任意选一个，比如选第一个如果status不同，那么基于少数服从多数原则，从多个值里选择一个。比如时序的status值分别为101/110/011，从两个1中选其一；再比如status为001/100/010，从两个0中选其一。

至此，查重部分结束。我们发现了一些规律并且制定了去重的逻辑，那么如何实现去重呢？

需求6：对id和time分组统计status个数、求和，与重复数据df_dup匹配合并

很显然，在这种复杂的情况下直接用drop_duplicates是不管用的，所以我们必须想其他的方法。

下面我们通过加工一组特征来辅助我们进行去重的筛选，对id和time分组统计status个数、求和。

dup_grp = (

df_dup.groupby(['id','time'])

.agg(stat_cnt=('status','count'),stat_sum=('status','sum'))

.reset_index())

加工结果如下，每个唯一的id和time组合都对应着stat_cnt和stat_sum两个特征，根据两个特征值的不同组合就可以判断重复的不同情况了（如图）。

然后我们再通过merge用法将特征值匹配到重复数据df_dup上。

dup_mrg = pd.merge(df_dup, dup_grp, on=['id','time'], how='left')

dup_mrg.head(6)

需求7：根据以上需求3和5中查重的判断逻辑对重复数据筛选，返回需要保留的行索引

这里是去重的最后一步了，前面的处理都是为了这一步的逻辑判断。

可以想到用groupby+apply的方法组合对重复数据分组聚合来进行筛选，结果返回需要保留数据的原数据索引（在需求3中已经重置索引）。

def dup_check(x):

if (x.stat_cnt.max() == 2) & (x.stat_sum.max() == 0): #重复数量为2,status均为0,返回第一个索引

return x['index'].values[0]

elif (x.stat_cnt.max() == 2) & (x.stat_sum.max() == 1): #重复数量为2,status为10,返回0值的索引

return x.loc[x.status==0,'index'].values[0]

elif (x.stat_cnt.max() == 2) & (x.stat_sum.max() == 2): #重复数量为2,status均为1,返回第一个索引

return x['index'].values[0]

elif (x.stat_cnt.max() == 3) & (x.stat_sum.max() == 0): #重复数量为3,status均为0,返回第一个索引

return x['index'].values[0]

elif (x.stat_cnt.max() == 3) & (x.stat_sum.max() == 1): #重复数量为3,status为100/010/001,返回第一个0值的索引

return x.loc[x.status==0,'index'].values[0]

elif (x.stat_cnt.max() == 3) & (x.stat_sum.max() == 2): #重复数量为3,status为110/101/011,返回第一个1值的索引

return x.loc[x.status==1,'index'].values[0]

elif (x.stat_cnt.max() == 3) & (x.stat_sum.max() == 3): #重复数量为3,status均为1,返回第一个索引

return x['index'].values[0]

# 重复数据中需保留的行索引

kp_index = dup_mrg.groupby(['id','time']).apply(dup_check)

# 重复数据中需去掉的行索引

drp_index = dup_mrg.loc[~dup_mrg['index'].isin(kp_index.values),'index']

drp_index

得到保留数据的索引，那么剩下的全都是需要去重的索引了。

最后我们再通过loc筛选从原始数据df中筛选掉这些需要去除的行索引，最终达到去重的目的。

print(df.shape)

df = df.loc[~df.index.isin(drp_index.values)]

print(df.shape)

------

(544999, 6)

(544541, 6)

可以看到共去重了458条数据。

4）异常值

其实前面重复值处理时已经遇到了异常值，但那是在重复情况下发生的异常，一定也还有非重复情况下的异常。

说明：由于是机器采集的GPS数据，在采集过程中可能会因传感器问题出现一定概率的异常值，这是经常发生的，所以我们必须对数据进行异常的排查。

前面提到过，我们发现存在以下异常的情况：同一个车辆在极短的时间内完成载客状态的切换。

比如下面红框里，最大时间差为40秒，载客状态由空客->载客->空客。

理论上说基本不可能，因为乘客乘坐出租车只有40秒的情况极其少见，因此我们判定中间status=1的出现是一种异常情况，需要剔除或将其状态还原为0。

上面是0-1-0的异常，同理1-0-1也是异常，都是短时间内的状态切换。

既然我们发现了这种异常，如何使用pandas将此类异常全部筛选出来呢？

我们给出的判断逻辑是：

载客状态不连续，当前状态与前后状态不一样，比如0-1-0或1-0-1 且这段不连续状态属于同一个车辆id 且这段不连续状态的最大时间差很小，我们设定60秒为阈值

需求8：将id、time、status变量分别上移和下移1个单位，生成6个新变量

现在问题的关键如何用当前状态与前后状态进行对比，pandas中可以使用shift函数对列进行上下的移动，这样就可以实现前后对比了。

# 上下平移一个单位

df['status_up'] = df['status'].shift(1) # 向下移动 1

df['status_down'] = df['status'].shift(-1) # 向上移动 1

df['id_up'] = df['id'].shift(1) # 向下移动 1

df['id_down'] = df['id'].shift(-1) # 向上移动 1

df['time_up'] = df['time'].shift(1) # 向下移动 1

df['time_down'] = df['time'].shift(-1) # 向上移动 1

以这样就可以对每一行进行前后值是否相等的判断了。

比如上面图里红框，对status=1与status_up=0和status_down=0对比以后，筛选出了0-1-0这种异常模式。

需求9：以上存在异常状态的数据全部筛选出来

筛选逻辑如前面所说，以下是对应的5个筛选条件。

#剔除异常数据

cond_1 = (df['status'] != df['status_down'])

cond_2 = (df['status'] != df['status_up'])

cond_3 = (df['id'] == df['id_up'])

cond_4 = (df['id'] == df['id_down'])

cond_5 = ((df['time_down']-df['time_up']).dt.seconds < 60)

df_abn = df[cond_1 & cond_2 & cond_3 & cond_4 & cond_5].reset_index()

df_abn.shape

------

(409, 13)

然后我们就可以得到满足这些条件的异常数据，共有409条（前面去重时还删了一部分）。

# 异常数据id分布

df_abn.id.value_counts()

这409个非重复数据异常值里面，有的车辆（比如id为28159）高达70次的异常。

通过这样的异常检查，我们就可以对车辆数据进行监控，比如每隔一段时间内车辆所发生的异常次数，进而做相应的处置。

需求10：对非重复异常值进行剔除

与重复值去除一样，这里我们通过记录原数据索引的方式，将异常值索引所在行数据从原数据中剔除。

print(df.shape)

df = df.loc[~df.index.isin(df_abn['index'].values)]

print(df.shape)

------

(544541, 12)

(544132, 12)

三、数据分析及可视化

1）订单出行特征

原数据是一个GPS信息表，每一行代表了xx车辆在xx订单下xx时间的GPS数据，是一个明细数据。这非常不利于业务人员使用，业务更多关心的是车辆在什么时间什么地点最终到了哪里去，而不是每时每刻的信息。

需求11：我们需要把GPS信息表转换为出行信息表

转换后的形式如上图所示，地点可用经纬度代替。

那么这个转换过程如何实现呢？

可以通过下面两个步骤实现。

捕捉每个订单上下车的时间和地点，并筛选出来

判断条件是：如果此时点的status载客状态与上一状态差为1，即由0变为1，说明是上车。反之，如果由1变为0则差值为-1，即为下车。

那么用此时点与上一时点状态作差还是可以通过shift偏移来实现，前面检查异常值时我们已经创建了辅助特征status_up和id_up，所以这里直接拿来用即可。

将状态差值为1（上车）和 -1（下车）筛选出来，并且两个状态下需为同一辆车。

# 与上一个状态作差

df['status_chg'] = df['status']-df['status_up']

# 车辆id与上一个作差

df['id_chg'] = df['id']-df['id_up']

# 筛选上车和下车的标识1和-1，并为同一车辆

df_temp = df.loc[((df['status_chg']==1) | (df['status_chg']==-1)) & (df['id_chg']==0)]

将上、下车时间的地点时间错位拼接

现在上下车分别为两行数据，我们最终想移动变成一行。还是利用shift将我们想要的变量向上偏移一个单位即可。偏移后每一行都是上车、下车或下车、上车的信息，我们最后再通过loc筛选从上车到下车的所有行，同样指定是同一车辆。

最后修改列名完成了出行信息表。

# 将时间、经纬度向上偏移1个单位

df_temp['Etime'] = df_temp['time'].shift(-1)

df_temp['Elong'] = df_temp['long'].shift(-1)

df_temp['Elati'] = df_temp['lati'].shift(-1)

df_order = df_temp.loc[(df_temp['status_chg']==1) & (df_temp['id']==df_temp['id'].shift(-1)),

['id','time','long','lati','Etime','Elong','Elati']]

# 修改列名

df_order.columns=['车辆id','开始时间','开始经度','开始纬度','结束时间','结束经度','结束纬度']

df_order.head(10)

下面根据已完成的订单出行信息表进行一些统计分析。

2）订单时段数量统计

需求12：统计各小时的订单数分布

前面我们已经将time时间转换为时间类型了，那么将时间戳转换为小时就非常简单了，时间属性方法可以参考传送门。转换后为一天0到24小时之内的小时数值，比如2023-06-28 04:30:13转换为小时4。

然后对小时groupby分组求订单数量即可，最后使用pandas的内置方法进行可视化，可视化方法参考传送门。

# 转换为小时

df_order['小时'] = df_order['开始时间'].dt.hour

# 对小时分组求订单数量

df_hourcnt = df_order.groupby('小时')['车辆id'].count()

df_hourcnt = df_hourcnt.rename('数量').reset_index()

# 绘制折线图

fig = plt.figure(1,(8,4),dpi = 200)

ax = plt.subplot(111)

plt.plot(df_hourcnt['小时'],df_hourcnt['数量'],'k-')

plt.plot(df_hourcnt['小时'],df_hourcnt['数量'],'k.')

plt.bar(df_hourcnt['小时'],df_hourcnt['数量'])

plt.ylabel('数量')

plt.xlabel('小时')

plt.xticks(range(24),range(24))

plt.title('出行小时数量统计')

plt.ylim(0,350)

plt.show()

观察结果：

出租车在各时段都有订单出行，其中早上8点到晚上5点起伏较为平稳，从晚上8点到10点是高峰期，后半夜3点到5点（夜车）是低峰期。观察结果比较符合我们的现实情况。

3）订单时长分布

需求13：统计各时段订单的时长分布

下面通过箱型图对各时段订单时长做可视化。

# 开始结束时间作差并转化为秒单位

df_order['订单时长'] = (df_order['结束时间']-df_order['开始时间']).dt.seconds

# 各时段订单时长箱型图

fig = plt.figure(1,(6,4),dpi = 150)

ax = plt.subplot(111)

plt.sca(ax)

sns.boxplot(x="小时", y=df_order["订单时长"]/60, data=df_order,ax=ax)

plt.ylabel('订单时长(分钟)')

plt.xlabel('订单时段')

plt.ylim(0,60)

plt.show()

观察结果：

订单时长在各时段均有一定的差异，但在早晚高峰时段（8-9点、17-18点）订单时长明显多，是因为高峰期堵车所以导致时间比较长。

长按扫码识别

以上就是“pandas实战：出租车GPS数据分析”的全部内容，希望对你有所帮助。关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步！！

上面这份完整版的Python全套学习资料已经上传至CSDN官方，朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

文章链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

人工智能 pandas实战：出租车GPS数据分析

开发语言 Python pandas的describe函数参数详解

Pandas 2 使用指南：数据结构简介

发表评论取消回复

金钥匙

人工智能 pandas实战：出租车GPS数据分析

开发语言 Python pandas的describe函数参数详解

Pandas 2 使用指南：数据结构简介

相关文章

发表评论取消回复