网站首页 > 数据库 > 正文

hadoop 数据仓库 Hive表字段值中存在换行符，查询结果混乱进而导致插入失败

人工智能编程软件数据库 2024-05-26 6 0

1、问题描述

自动化调度系统在按周期天执行数据迁移（出库）任务时，在执行到某条SQL时报错，最终导致任务失败

SQL如下（已转化）：

insert table t1

select

dt,

id,

name,

counts,

roles,

comments

from t2

where dt='20240101'

报错信息摘要如下：

Error message from spark is:java.io.IOException: ERROR-1-HIVE:20027:{Failed to execute move task of sparkSql}Moving data to: hdfs://...

move task failed to execute => Failed with exception ERROR: syntax error at or near ":" 位置：384

报错信息提示语法问题，可是检查SQL发现也没有什么语法问题，这到底是怎么回事呢？

2、问题原因

最终，从SQL和表的角度入手，首先，检查SQL里面的查询语句的执行：

select

dt,

id,

name,

counts,

roles,

comments

from t2

where dt='20240101'

使用Presto引擎的执行的结果：

dtidnamecountsrolescomments2024010118A630伍六七青凤江惠莲793

使用Hive（MapReduce）和Spark引擎执行的结果：

dtidnamecountsrolescomments2024010118A630伍六七NULL青凤NULLNULLNULLNULLNULL江惠莲793NULLNULLNULLNULL

从上面结果可以看到，若Hive表字段值中存在换行符，MapReduce和Spark引擎的查询结果出现混乱

由于我们的调度系统设置的执行引擎为Spark，因此，原本查询的一行结果会被字段值中的换行符\n转换为多行，查询结果结构混乱，最终导致插入失败

3、问题解决

Hive提供了regexp_replace()函数可用于替换数据仓库中包含特殊字符（如换行符）的字段

Hive字符串UDF官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions

根据官网描述，换行符\n使用两个反斜杠，即一个反斜杠用来转义

修改后的SQL如下：

insert table t1

select

dt,

id,

name,

counts,

regexp_replace(roles, '\\n', ' ') as roles,

comments

from t2

where dt='20240101'

这样，我们的数据才会显示正常，报错问题也就解决了

另外，部分系统可能需要使用四个反斜杠，即

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取） [外链图片转存中…(img-6cFcuUzx-1712847206764)]

金钥匙

hadoop 数据仓库 Hive表字段值中存在换行符，查询结果混乱进而导致插入失败

大数据深入理解 Hadoop 上的 Hive 查询执行流程

hive学习笔记之十一：UDTF

发表评论取消回复

金钥匙

hadoop 数据仓库 Hive表字段值中存在换行符，查询结果混乱进而导致插入失败

大数据 深入理解 Hadoop 上的 Hive 查询执行流程

hive学习笔记之十一：UDTF

相关文章

发表评论取消回复

大数据深入理解 Hadoop 上的 Hive 查询执行流程