文章目录

一. 问题描述二. 解决方案2.1 官方文档2.2 XML格式不规范

一. 问题描述

今天接到一个新需求,hive表里面有个字段存储的是XML类型数据

数据格式:

bb

cc

二. 解决方案

2.1 官方文档

遇到不懂的问题,首先上官方文档查询相关文档,然后照着官网的demo改改,一般就能解决问题了

官方文档地址: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+XPathUDF 丰富的XML相关函数及测试用例

代码:

-- 求路径 a/b下面的值

SELECT xpath_string ('bbcc', 'a/b') LIMIT 1 ;

测试记录:

hive>

> SELECT xpath_string ('bbcc', 'a/b') LIMIT 1 ;

OK

bb

Time taken: 1.477 seconds, Fetched: 1 row(s)

hive>

2.2 XML格式不规范

因为Hive不支持XML数据格式,后端写入数据库存的是一个String类型,此时格式就没那么规范了,会有一些特殊字符

解析xml报错,原来是有特殊字符 https://stackoverflow.com/questions/730133/what-are-invalid-characters-in-xml

xml不符合规范的字符 https://blog.csdn.net/u014589856/article/details/107151252

通过正则表达式删除特殊字符:

下面几个是常用的特殊字符

@&$#%

regexp_replace(the_gifts,'[@&$#%]','')

只保留 大小写字母 数字 及中文 以及 xml标签

regexp_replace(the_gifts,'(^[a-z]+|[A-Z]+|[0-9]+|[\\u4E00-\\u9FA5]+[])','')

参考阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: