​原文《数字政府智慧政务大数据资源中心、数据湖及数据治理平台建设方案》WORD格式。

​大数据资源中心建设方案

在本次项目中,我们需要制定全市公共数据汇聚的标准规范和管理制度,归集全市各单位的政府公共数据,形成XX市的政务数据资源湖。同时经过对数据进行清洗、转换、融合、治理后,形成高质量的公共数据资源,构建形成XX市标准化都大数据仓库。

基于全市的政务数据资源湖,利用经过治理后的数据,可以针对某一特领域的业务数据共享、应用需求,按主题归集形成专题库和主题库,并面向政务部门及社会进行数据开放。此外,我们还将持续开展、深入XX市大数据的应用探索,围绕跨部门、跨领域、跨行业的数据应用需求,对数据实体进行数据关联、数据融合和衍生计算,生成算法标签,逐步建立不同领域的应用专题或主题库构建面向全市多部门提供统筹的数据共建共享共用的数据服务。

中心总体定位设计

XX市大数据能力平台包括市级数据湖、基础库、主题库和融合业务应用数据库几大部分,是数据接入、数据归集和数据治理形成的结果。其中,数据治理保证市级数据湖中数据的规范,构建基础库和融合业务应用数据库,是更高层次的数据管理机制。通过数据治理,面向政务、物联、视频三大类数据,保障数据架构、数据标准、数据开发等数据管理职能的开展,提升数据管理水平,对数据采集、存储、交换、共享、使用等全生命周期进行持续改善。

本期项目建设的数据资源中心可覆盖XX市各委办局部门,数据来源包括市级(含下属区县)各级政务数据、物联设备数据、视频数据等。可满足多源异构的结构化数据、半结构化数据和非结构化数据的存储,支撑政务数据共享交换需求,支撑数字XX市建设上层应用算法模型训练需求,支撑上层应用系统的数据需求,需要设计相应的数据库以及数据存储结构。

XX市大数据能力平台的建设采用市级数据湖+基础库+主题库的数据存储架构,市级数据湖与主题库依托于大数据支撑子系统建设。数据来源主要来自于XX市各级委办单位、各乡镇街道,数据包括市政府及市级委办局政务数据、视频数据,事业单位数据等,经由数据数据交换子平台采集、归集后:

将数据存储落地于市级数据湖,市数据湖中存储贴源业务数据,并形成共享数据的数据资源门户; 由数据数据交换子平台将数据从市数据湖交换至数据治理工具; 数据治理工具根据数据治理规则、数据标准、行业指标等特性,完成对源业务系统贴源数据的治理,形成高质量的业务数据; 由数据数据交换子平台将经过治理的数据写入至基础库和各类融合业务应用数据库,在融合业务应用数据库中进行数据的主题分类、维度模型分析、内容分析等业务操作,形成主题库,并形成数据资源门户; 对于基础库和融合业务应用数据库中高质量的业务数据,一则可通过数据数据交换子平台的交换功能对内提供各租户间的数据共享;二则可通过数据数据交换子平台的共享功能对外提供对外的服务发布与利用,包括对上层应用的数据支撑和对源各委办部门的数据反哺。

从上述各原始数据源→市大数据资源中心→外部应用/各委办的数据流向可以看出,市级大数据资源中心的数据库设计需能够满足关系型数据、多种类型数据文件、空间地理数据、半/非结构化数据、IoT数据、视频影像数据等的存储,并需要支撑各种多维、聚合数据的分析。

总体设计

因此,在本项目中XX市大数据能力平台的建设采用市级数据湖+基础库+主题库+融合业务应用数据库的数据存储架构。具体,对于XX市大数据资源中心的建设规划如下:

设计原则

根据对本期项目数据源特点以及数据存储和应用特点的分析,市级数据湖、基础库和主题库的底层存储数据库的设计需要遵循以下基本原则:

实用性原则:首先满足本期项目多源、多专业、多时、多类型、海量异构地理空间信息整合,以及一体化组织和管理与服务的需要。 先进性原则:考虑技术进步和今后信息库的发展,主要体现在技术规范、技术水平、数据库产品选择、设计方法采用先进技术等几个方面。 一致性原则:对信息进行统一,保证系统数据的一致性和有效性。 完整性原则:是指数据的正确性和相容性,防止合法用户使用数据库时向数据库加入不合语义的数据,对输入到数据库中的数据要有审核和约束机制。 规范化原则:数据库的设计应遵循规范化理论,规范化程度过低的关系,可能会存在数据冗余等问题,解决的方法就是对关系模式进行分解或合并(规范化),转换成高级范式。 可扩展性原则:数据库结构的设计应充分考虑发展的需要、移植的需要,具有良好的扩展性、伸缩性和适度冗余。 安全性原则:数据库的安全性是指保护数据,防止非法用户使用数据库或合法用户非法使用数据库造成数据泄露、更改或破坏。要有认证和授权机制。

设计思路

根据对本期项目数据源的特点以及数据存储和应用特点,市级数据湖、基础库和主题库的底层存储数据库的设计主要遵循下思路:

设计之初预留备用字段带来的不足

为了减少对今后对数据库表中的字段调整,某些设计者在设计之初,根据经验对若干可能扩展的表中预留部分备用字段。预留备用字段的方式在某些程度上可以增加扩展的灵活性,但存在如下隐患:

预留字段的数量无法预测,预留N个还是预留N+1个,由于无法预知需要预留的数量造成扩展的不确定性; 预留字段的类型无法预测,预留字符型还是数值,无法去预测和评估; 常见在预留的扩展字段中,这些预留的扩展字段往往会破坏数据库最基本的范式要求,数据库的范式的最基本要求就是原子性和唯一性,而扩展的字段本身的定义是不明确的,是非原子的和非唯一的。 数据结构扩展思路 业务垂直拆分

随着业务的发展,一台写库显然不能够满足高并发的情况,但是考虑到写库是有状态的,不能简单的横向扩展,假设有两台写库,那么随机更新一台的数据,就会导致另一方数据存在问题。出现一种数据两个不同版本,显然是无法接受的。在写库上,可以考虑按照业务来垂直进行分库。由于此处讨论的是数据库架构,对于 web 层来说,其实也是可以按照业务垂直拆分的。

单业务库水平、垂直拆分

在上一种情况,假设交易库是整个系统的瓶颈,需要对交易库进行单独的扩展。可以考虑交易的水平拆分或者垂直拆分,有可能同时进行两种方式拆分。水平拆分一般根据业务无关的关键字进行拆分,横向扩展性比较好,但是对于查询的挑战比较大。垂直拆分一般根据业务来拆分,但是可能导致数据不均匀以及拆分不够灵活。

数仓设计

综合前文对于数据分析、数据存储和数据库的分析与设计,本期次建设的XX市大数据能力平台数据资源层按照数据定位和功能的不同,分为市级数据湖、基础库和主题库两部分。

其中,市级数据湖主要用于存储来自各政务、视频和社会数据源的原始贴源数据,存储规模庞大,分析价值密度较低;主题库则用于存储从市级数据湖中按需抽取的经过一系列清洗、转换、加载、治理后的高质量的数据,直接对上层应用提供数据支撑,对各部门提供数据共享支撑。市级数据湖、基础库和主题库统一底层存储管理。

根据以上需求,本项目中XX市大数据能力平台的建设,将采用如下底层存储数据库选型设计:

关系型数据库区域:主要包括前置节点区域、市级数据湖结构化区域、部门特殊业务系统等,将采用稳定、高效的国产关系型数据库构建高可用数仓集群来确保核心业务数据的高可用; 大数据支撑区域:主要包括市级数据湖半、非结构化区域等,将采用Hadoop平台用于半、非结构化数据的存储,以及聚合、多维数据分析的支撑使用,可确保信息资源中心各类业务数据存储计算能力的高效性与稳定性; 大数据分析区域:主要包括主题库等,将采用HBase、Solr等NoSQL数据库存取原始数据与分析数据,用以存储业务数据供实时在线分析。此外,再利用 Hadoop平台存储一份分析数据,利用 Hive 进行离线分析,通过在线与离线分析相结合,可确保能够提供完整的分析服务。

数据安全

根据对本期项目数据源的特点以及数据存储和应用特点,市级数据湖、基础库和主题库的底层存储数据库的安全性将从以下几个方面进行考虑:

数据访问安全

根据数据内容的不同,以及不同级别的用户设置不同的数据访问权限。特定的数据只允许经过授权的用户进行访问,保证数据访问的安全性。

数据传输安全

在远程进行数据访问和流程报批的过程中。需要考虑数据远程传输的安全性,将通过数据压缩传输,加密传输等方法和措施,保证数据传输安全性。同时,采用 HTTPs 传输方式。HTTPs 协议即 HTTP 协议的安全版,它是 HTTP 协议基础上增加了使用 SSL 加密传送信息的协议,用于对数据进行压缩和解压操作,并返回网络上传送回的结果。HTTPs 协议的主要作用可以分为两种:一种是建立一个信息安全通道,来保证数据传输的安全;另一种就是确认网站的真实性。

为保证数据传输的机密性和完整性,还可以同时对拨号用户接入采用强身份认证,并采用数据库安全审计设备,支持网络 IP 数据包的机密性保护;信息认证功能,支持 IP 数据包的完整性保护;防火墙功能,支持网络访问控制机制,防止外部非法用户攻击;安全审计及告警功能,支持对网络非法访问操作的审计和自动告警。

统一数据库管理

为了便于数据库的统一管理与维护,将数据存储和应用开发分开,面向不同的具体需求,开发便于数据维护和更新的数据库系统。

有效的数据更新机制

数据更新依赖于基层日常数据采集的基础数据库,采用自下而上的更新方式,由下级数据管理部门负责日常数据采集更新,通过增量备份的方式定期逐级向上更新数据库。数据库的更新由上而下进行,通过数据增量方式进行传送。对于管理数据库的更新,建立行政保障、补偿管理系统运行、软硬件配套与数据库更新联动的机制。

灾难恢复

在发生计算机系统灾难后,可利用在本地或远离灾难现场的地方的备份系统重新组织系统运行和恢复业务的过程。保护数据的完整性,使数据损失最少,甚至没有数据损失,并快速恢复工作,使业务停顿时间最短,甚至不中断业务。

系统备份

通过建立备份系统,避免由于各种情况造成的网络、数据、系统的不可用给网络中运行的业务造成影响,一旦灾难发生,可以通过该系统为网络的恢复提供有力的保证。备份措施要保证主要线路、关键设备、重要数据、重要系统等要素的可用性,从而保证XX市大数据能力平台大数据支撑子系统的稳定运行,提高其对各类事件的免疫能力。

建设XX市数据湖

市级数据湖通过数据数据交换子平台与进行政务数据、物联数据和视频数据的交换。依据部门类别、数据源类别等,通过数据库提供的多租户功能构建资源隔离的租户空间。市级数据湖中的共享数据依据元数据进行编目,建立动态更新的数据资源门户。

市级数据湖的数据存储规模庞大,需要支持存储扩展和横向、纵向迁移,直接用于分析的平均价值密度较低,通常需经过预处理、集成后,形成高质量的主题库数据资源支撑不同的上层应用。

数据湖数据架构

市级数据湖是所有从外部数据源落地到市数据管理部门的统一数据存储空间。市级数据湖将基于政务云存储服务和大数据支撑子系统提供的数据库服务进行搭建,存储通常包括分布式文件存储系统、关系型数据库、NoSQL数据库、列式存储数据库等类型,主要存储政务、视频和物联三大类多源异构、未经加工的原始数据,需要支持存储结构化、非结构化等多种类型的数据。

数据湖是存储各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从全市委办多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,包括结构化数据、半结构化数据和非结构化数据。基于以上,数据湖整体架构如下:

面向多类数据源,通过一定技术手段汇集市委办数据、省级平台下发的数据、互联网数据以及其他各类数据 以一定的数据开发工具为基础,构建SRC近源数据层、ODS数据资源层,形成面向全行业的数据基础层 以数据湖为基础,为后续主题、专题建设提供基础数据支撑,同时为上层应用价值发掘提供全面的数据支撑。 SRC近源数据层

SRC近源数据层定位在于将原始数据源进行全量映射保存,是外部各类数据进入数据湖的第一步缓冲节点,因此其构建,需要充分考虑原始数据源的特性,同时需要进行相应的设计,以此汇聚后下一步处理提供基础支撑。结合XX市大数据能力平台的建设任务需要以及面向的业务特性场景需要,SRC近源数据层需要汇集XX市各政务业务条线的数据,数据类型需要涵盖结构化数据、非结构化数据:

1、结构化数据

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进存储和管理。

2、非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

ODS源数据层

为了构建有效的数据分层治理,构建起逐层递进的数据流转模式,数据湖构建过程中,需要构建ODS源数据层。ODS源数据层的数据是对SRC近源数据层数据进行数据全/增量合并以及数据清洗和标准化动作之后的数据存储层,ODS源数据层有两类数据表:

(1)保持原始格式的全量数据表,主要是用于溯源。

(2)清洗和代码标准化,代码名称字段扩充后的标准基础数据表。

ODS源数据层处于源数据与价值数据层,是进行基础数据清洗、质量探查、维度融合的核心数据层。

数据湖数据范围

XX市大数据能力平台的数据湖支持大范围内的各种类型各类数据的存储与管理,其数据的主要来源包括:

市级政务数据

包括市政府各办数据、市下属各委办局数据、各乡镇、街道数据,省级平台下发的各类政务数据等。

供给事业数据

市级自来水、电力、煤气、供热等公共事业数据,此类数据是和百姓生活息息相关的重要民生资源。

物联数据

各类物联设备数据,包括设备数据、日志数据、事件数据等。

视频数据

各类监控等视频类数据,包括半结构化数据、视频大图、视频小图等。

社会数据

社会相关数据,包括各事业单位业务与管理数据、互联网数据等。

建设XX市基础库

在本次项目中将基于数字XX市与XX市智慧城市大脑的建设需求,以数据湖数据资源为基础,建设全市统一的基础人口综合库、法人综合库、电子证照库与空间地理信息基础库,支撑全市基础数据相关应用。

其中,电子证照基础库已经建成,而人口综合库、法人综合库与空间地理信息库则需要新建(或重建)。

人口基础库建设

通过对人口综合库数据源的全面梳理,构建全市统一的、以公民身份号位为唯一标识的、可共享的综合人口信息资源库。基于综合人口库,实现全市人口信息的汇聚治理、共享交换和应用服务,为开展跨部门、跨业务、跨区域的人口应用服务和数据共享,以及人口大数据分析、辅助决策等,提供全方位的人口信息支撑。

建设方案概述

人口库管理应用提供对汇聚形成的人口数据的概况展示、人口个案查询及多条件查询、人口统计、人口画像等应用功能,并提供针对人口数据处理规则、数据模型、字段来源、生命周期配置等管理维护功能。

构建自然人画像

将来自公安网、委办局专网、互联网等数据源中的个人基本信息、行为信息、工作信息、相关物品信息、消费信息等数据进行有机整合和关联,转化以“人、事、地、物、组织”为核心要素的数据形式,构建人口全息档案,形成人员关系图谱,并构建自然人画像。

人口库数据服务

数据整合方案

人口库管理应用提供对汇聚形成的人口数据的概况展示、人口个案查询及多条件查询、人口统计、人口画像等应用功能,并提供针对人口数据处理规则、数据模型、字段来源、生命周期配置等管理维护功能。

人口查询

支持人口个案查询及多条件查询,可根据用户权限,通过设定条件,对人口基础信息进行筛选,提供相关人员的基础信息和扩展信息,查询方式有简单查询、组合查询和关联查询。查询时候在查询页面显示当前登录用户的水印。

人口统计

支持劳动力结构统计、少数民族统计、教育结构统计等信息统计,向用户以多维度展示各种信息资源,能让用户直观感受数据。

对人口库数据接入相关功能进行数据接入来源方面的功能整合开发。将原来由人口库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向人口库提供,不再需要相关数据提供部门重复提供。

完成人口库数据资源整合后平台可提供身份核查和信息查询共享服务,通过输入公民姓名和身份证号码,便可查询居民身份号码和姓名匹配度以及死亡(注销)标识,也可提供公民性别、民族、出生日期、出生地等信息查询。

根据人口库数据模型和需求从民政,公安,卫生等多个数据源加载数据,由于不同数据源的数据结构可能不同,因而在加载数据之前要进行数据转换和数据整合,使得加载的数据统一到需要的数据模型下,即根据匹配、留存、去重等规则,实现多种数据类型的关联和合并。

人口全息档案

以人为主题的信息检索、应用分析需求最广、所含信息要素也最多。“一人一档”就是基于“以人为中心”的设计理念,按人、属性、行为事件、物品、地点、机构等业务要素以及关联关系从多个维度分层构建“一人一档”数据模型,将来自公安网、社会委办局专网、互联网等数据源头中的个人基本信息、个人行为信息、个人工作信息、个人相关物品信息、个人消费信息等数据进行有机整合和关联,去除重复、统一标准、科学分类,系统化、条理化,全面、有效、多视角地展示人员信息及其他信息间的复杂联系,在数据串联的基础上做到人员信息的多维度分析。

人口全息档案包括人员基本信息、健康信息、工作信息、资产信息、诚信信息、消费信息等。人员基本信息又包括:姓名、性别、照片、电话、地址、教育、身高、血型、婚姻情况等。健康信息包括:就医、买药、健康状态、特病等。工作信息包括:就职单位、职业资格、技术专业等。资产信息包括:车辆、房屋等。诚信信息:违法犯罪、涉及案件、重点人员、重点人口等。消费信息:银行卡刷卡、会员卡消费等。

通过全息档案的建立形成人员关系图谱:对个人相关信息及人员关系通过图的方式形象展示,可以更加清晰、直观地梳理人员及行为、属性关系,可以选择通过列表和人员关系图两种方式查看人员社会信息。

家庭关系图谱

建立婚姻关系与双亲关系等关系型图谱,分析个人的亲属关系,制作关系图谱,进行直观展现。对个人相关信息及人员关系通过图的方式形象展示,可以更加清晰、直观地梳理人员及行为、属性关系,可以选择通过列表和人员关系图两种方式查看人员社会信息。

人口全息视图

在可视化视图的方式,统计各维度人口的相关基础信息,并在此基础上分类叠加扩展业务信息,例如教育、社保、民政、税务、房产、医疗、交通、消费、旅游等有用指标,并以专题视图的形式提供直观的统计结果表达。

人口信息统计

进行人口主题分析,管理元数据,建立可进行人口主题分析的汇总资源库。建设数据加工体系,根据确定的主题进行数据抽取、过滤、转换和装载,对不同粒度的数据进行汇总、聚合。人口主题分析包括:人口静态统计分析、人口动态统计分析、人口其他数据统计分析、人口变化及影响。

同时可按自定义时间、区域、年龄、性别等条件进行筛选查询,用以掌握各维度的人口分布情况和管理效果。

人口信息查询

提供用户按照元数据进行数据查询组织,完成数据的查询。查询工具支持基于元数据的查询,可以定制显示列和定制查询条件,并具有如下特点:

1) 支持相关查询

2) 支持数据过滤(维度、粒度、指标范围)、排序

3) 支持交叉表、直方图、面积图、离散图、曲线图等

4) 支持数据导出:Excel、Word、HTML、TXT

法人基础库建设

通过对法人库数据源的全面梳理,对法人库数据接入相关功能进行数据接入来源方面的功能整合开发。将原来由法人库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向法人库提供,不再需要相关数据提供部门重复提供。

构建全市法人信息基础数据库后,能把原先碎片化存放的信息归集到法人名下,全面立体的展示法人相关信息,并为全市其他平台和应用提供有力支撑。

建设方案概述

法人库采用统一社会编码作为主键,法人覆盖政府机关、事业单位、企业、社会团体等类别。建立法人画像数据标签,标签设计分为法人基础主题、财务主题、生命周期主题、信用主题、关系主题、关键人主题6大主题域,数据应用于社会经济统计、法人信用领域、国家经济结构、企业经营情况等方向的分析统计。

构建法人画像

构建法人统一视图与画像,多维展现与法人相关的各类信息,包括注册、变更、监管、消费投诉、商标、广告、供应商核准信息以及各委办局与法人间的相关信息(提警示信息、奖励信息、处罚信息等)。

能够对法人基础信息进行查询,可以按照法人名称、法人分类、法人诚信、法人性质、注册资金及所属板块等进行综合查询,对法人信用信息一览展现。

法人库数据服务

法人库可以将多种信息以图表的形式展现出来,包括企业年限统计、行业分类统计、注册资本统计等统计类型。可以从法人基本信息、员工情况、经营情况等多方面统计,统计包括各类企业数、开业数、注销数、员工数、税收情况等。

数据整合方案

法人库管理应用提供对汇聚形成的法人数据的概况展示、法人多条件查询、经营异常查询和简单查询、法人统计、法人画像等应用功能,并提供针对法人数据处理规则、数据模型管理、字段来源管理、行业类型管理、法人监控等管理维护功能。数据来源包括:

公安 市场监管局 税务 社保

法人库采用统一社会编码作为主键,同一编码仅代表同一个法人实体。根据法人库数据模型和需求从公安、市场监管局、税务、社保等多个数据源加载数据,由于不同数据源的数据结构可能不同,因而在加载数据之前要进行数据转换和数据整合,使得加载的数据统一到需要的数据模型下,即根据匹配、留存、去重等规则,实现多种数据类型的关联和合并。法人数据包括以下类别:

法人多维画像

能够多维展现与法人相关的各类信息,包括注册、变更、监管、消费投诉、商标、广告、供应商核准信息以及各委办局与法人间的相关信息(提警示信息、奖励信息、处罚信息等)。能够对法人基础信息进行查询,可以按照法人名称、法人分类、法人诚信、法人性质、注册资金及所属板块等进行综合查询,对法人信用信息一览展现。

法人统一视图

在可视化视图的方式,统计各维度法人的相关基础信息,并在此基础上分类叠加扩展业务信息,例如经营、民生、生产、司法等有用指标,并以专题视图的形式提供直观的统计结果表达,同时可按自定义条件进行筛选查询,用以掌握各维度的法人分布情况和管理效果。

法人统一视图是针对法人主体服务与监管的基石,完美地抽象出一个法人全貌是大数据技术的基本方式。通过法人统一视图,能够动态、实时、准确地掌握行业、产业变化,更好地支撑上层主题、专题应用,做到有理有据地、及时准确地、科学地做好决策和应对。

法人信息统计

法人相关统计指标

法人统计将多种信息以图表的形式展现出来,包括企业年限统计、行业分类统计、注册资本统计等统计类型。可以从法人基本信息、员工情况、经营情况等多方面统计,统计包括各类企业数、开业数、注销数、员工数、税收情况等。

空间地理库建设

基于规划、国土资源等部门提供的图数据、坐标系和坐标数据,采用GIS、遥感影像、三维建模等技术,构建空间地理信息库,并将遥感影像、地址数据、政务信息图层等,与人口信息、法人单位、宏观经济等进行整合,为全市政府部门和企事业单位提供统一的、综合的空间地理信息服务。

本次项目建设将整合房屋信息和地址信息,房屋信息包括房屋地址、图纸、产权人(身份证或统一社会信用代码)、联系人、联系方式、开发单位、施工单位、房屋结构信息及修改时间,并按照住宅、商业和公用事业进行分类。地址信息主要为原有地址库数据的整合、清洗、加工,提高地址信息的数据质量,为城市管理和社会公共服务提供数据支撑。

建设基础地理信息数据库 信息包括定位基础、居民地、交通、管线、水系、境界、地貌、植被、土质、工矿建筑、三维模型等基础数据和地名数据、数字正射影像数据等数据内容; 通过数据交换方式提供给对地理信息系统有深入应用的市政府各部门使用。 公共基础地理信息数据库 从基础地理信息数据经过提取、保密处理之后形成的数据子集; 通过电子政务网的网络服务方式提供给市政府各部门及企事业单位使用,运行于政务外网。 公共专题共享地理信息数据库 包括市政府各部门及企事业单位可共享的各类专题数据,,按照一定标准规范将业务数据进行空间化形成的用于共享的地理信息资源。 数据可在市政府各部门之间通过电子政务网共享使用,也可在经过处理之后提供给社会公众使用。 公众专用地理信息数据库 通过对公共基础地理信息数据集和公共专题地理信息数据中的敏感信息进行数据提取; 通过互联网以网页浏览或网络服务方式提供给社会公众使用,运行于互联网之中。

建设XX市主题库

主题库建设方法

主题库建设概述

主题库与市级数据湖共用底层存储,资源逻辑隔离。主题库用于存储按照业务需求进行一系列清洗、转换、加载、治理步骤后形成的高质量数据资源,主要包含基础库、主题库等,数据来自于市级数据湖。

根据XX市的实际情况,主题库的定位主要包含以下三个方面:

存储某类主题业务相关的数据集。由需求部门提出某类主题业务的需求或模型,从数据湖中取相应数据集,利用大数据支撑平台算力进行计算产生结果集。该结果集提供给需求部门进行业务支撑,并存储在对应的主题库中,同时发布为服务目录,供其他部门进行调用。其特点如下:

单一性:可能由单个部门提出的单一需求; 临时性:属于临时任务,生成的数据集具备通用性的可以保留,不具备通用性的可以销毁; 大量性:承担各部门临时需求,任务具有大量性特点。

存储与上层某类主题应用相关的数据。由多个部门发起的需求,经过调研需要形成某类范围较大的主题应用的数据集,用以支持新建的规模较大的主题或专题应用。其特点如下:

规模大:数据规模和应用规模均较大; 非临时性:是经过跨部门谨慎调研和模型设计的,而非临时的单一部门的需求。

存储生成这些主题库的原始数据,主要目的是核验与溯源。

主题库建设方法

建设思路

构建主题库数据模型考虑到模型的高可用性,统一性,可维护,可解释等多方面,采用分层分域的建设思路,分层按照基础层、主题层、专题层、应用层来建设。每一层数据模型设计需采用专业的建模思路,从分析方法论,技术工具,建模流程各个方面进行考量。

设计原则

主题库是依据信息分类,基于面向对象的数据组织原则,以资源库为数据源,围绕某一主题对象进行数据分析和整理后形成的数据集合,是在较高层次对相关对象的完整数据描述,能刻画各个对象所涉及的各个维度、各个要素之间的关系。

主题库中间层设计原则

低耦合:合理定义基础属性、扩展属性,避免属性定义重复、冗余出现; 稳定性:保持基础宽表模型的稳定性,通过属性表解决扩展属性变化频繁的问题; 高效性:模型解耦设计兼顾应用灵活组装和高效数据更新。

主题库是根据应急业务,围绕基础信息、行政管理、监督管理、监测预警、应急处置等实体构建沉淀的一组数据建模方法和一系列基础算法,是为了高度统一的刻画这些实体的属性和特征,从庞大的资源库中抽取共性的维度进行分析,形成高通用、易扩展和易使用的数据模型,形成多要素的全方位的、全时空的实体感知信息。

构建方法

主题库根据应用主题分域进行数据整合或轻粒度汇总,形成以业务实体核心,基础属性、扩展属性为主体信息的基础宽表、基础属性和维表,它以应用为目的提炼整合层信息,采用碎片化方式处理和存储,支持快速敏捷的数据处理、支持应用数据的快捷组装,满足应用需求多样化、及时性的要求,最大程度降低模型间耦合度。中间层建设要点包括:

采用星型建模,形成业务主体+基础属性或扩展属性基本结构。 模型的基础处理功能设计:数据整合:明确业务主体,整合相关基础属性形成复杂业务维度及标签需要的基础因子;数据映射:根据应用共性要求需形成不同层次、不同角度的基础维度信息,并建立源编码和维度值一对一或者多对一的映射关系;数据属性标识:根据业务主体的规则完成属性标识计算,以及提供复杂口径的计算因子;数据汇总;按照一定的口径规则汇总业务实体的基础特征数据。 模型的内容设计:按照加工方式和数据特点将属性信息一般分为四大类:实例对象信息、基础属性维度、统计维度信息、统计指标信息:实例对象信息:以源数据为主,不作任何加工处理的实例化信息;基础属性维度:以源数据为主,不作任何加工处理的属性类信息,保留源系统编码是非常有必要的,此类数据可以没有对应的维表但必须有对应的编码解释;统计维度信息:通过将基础属性进行转换或归集得到的、有标准编码规范的、有层次的维度信息,维度字段保留最细粒度;统计指标信息:体现业务主体某种业务特征规模的统计值,通过一定规则汇总形成,单位保留原始单位,只做单位统一、不做单位转换,以免降低指标精度。

建立专题建设流程体系,可以有效推进数据成果落地。从业务需求获取

业务需求获取

通过文件、电话、走访等交流形式,收集各部门的模型需求,根据需求分析业务重点,为模型更新和模型建设筹备素材。

模型发布

模型发布前后,主动到各部门进行模型宣讲与交流,及时解答模型困惑,帮助各级机构了解模型,应用模型。

模型效果跟踪反馈

模型发布后通过邮件、不定时走访、电话回访等方式,跟踪各部门模型应用情况,收集模型反馈,解答使用疑惑。

建设城市码主题库

综合人口、公安、民政等各类数据,建立市民电子身份证模型,构建城市码大数据应用,实现"一人一码",支撑健康码、医保社保、公共交通出行等各类便民应用。

建设应急主题库

应急主题库概述

主题库建设所需的数据资源是承载在大数据基础设施上最主要的数据集合,是本次XX市大数据能力平台建设中重要的应用场景。应急数据资源池在建设时应进行充分合理规划,其设计内容主要包括原始数据、资源库和主题库等方面。

原始库

XX市应急管理局数据资源池的数据来源包含应急管理局内部数据(监测预警系统数据,安全生产行政执法数据等)、外部委数据(交通、公安、民政等)、互联网数据(即时通信数据、互联网舆情数据等)。数据来源途径众多,汇聚形式、数据格式、数据时效性也是多种多样。

由于数据来源多、种类丰富,原始库的数据应该采取清晰、合理的方式去组织。对于不同来源的数据,应该按照其数据来源进行清晰的标识,包括表名标识、表元数据标识等;对于不同种类的数据,应该采取不同的存储机制进行存取。

原始库的数据结构设计原则上和业务生产库的表结构一致,并在业务生产库基础上增添数据接入过程中的操作字段,表示数据的更新和删除等状态。以此向数据资源池提供原始、准确的数据,便于后续的分析和使用。

资源库

资源库的数据是由原始库的数据经过清洗、转换、关联、比对等数据处理过程后形成的标准数据。

资源库的设计包括数据结构设计、数据表结构设计和加工过程设计。在资源库的数据结构设计上,以原始库数据结构为基础,补充必要的数据字段;在数据表设计上,将相同表结构的数据表进行适当的合并,并保留原始库的表名以方便进行溯源;数据加工过程设计是资源库设计中最核心的部分,这部分要进行数据标准、数据元的设计,以及原始数据和标准数据元的关联设计,从而将资源库的数据处理成符合标准的数据。

主题库

主题库是将分散在资源库各业务数据表中的要素提取出来,根据应急对象要素、要素特征等进行搭建,主要用于对资源库的存储层中的数据进行深度关联整合,为数据应用和产品提供公共数据服务,降低用户理解和获取数据的难度,降低数据加工的深度和复杂度,提升数据应用和产品获取数据的效率,保持系统内各个软件模块和应用服务间数据的一致性。

主题库逻辑模型的设计应采用自顶而下的方法,首先将需求涉及范围内的业务对象从高度概括的信息要素概念层次归类,即划分主题域,再针对各个主题设计实体关系图。

构建主题库的目的是要打破数据表之间存在的数据壁垒,通过梳理应急管理数据之间的关联关系,从逻辑上打通各个业务数据表,为主题库以及关联查询等提供数据支撑。

管理对象主题库

管理对象主题库包括人员对象、生产经营企业和自然灾害隐患点,其中:

(1)人员对象主题库实现与应急救援人员相关的基础数据的收集、汇总、存储,为在应急指挥救援过程中相关决策提供数据支撑。

(2)生产经营企业对象包括煤矿、非煤矿山(含地质勘探)、石油(炼化、成品油管道除外)、冶金等信息。

(3)自然灾害隐患点包括地震灾害隐患风险区、气象灾害隐患风险区、地址灾害隐患风险区和水旱灾害隐患风险区等数据内容。

针对目前XX市应急管理局的数据现状,数据所需支撑来源主要是大数据中心、市区公安分局、市区消防救援支队、市区水务局、市区气象局和区民政局、网格中心和区县等等。

灾害事件主题库

灾害事件主要包括自然灾害和安全事故两类:

(1)自然灾害信息:自然灾害事件库主要数据为:水旱灾害、气象灾害(极端天气)、地震灾害、地质灾害、森林草原火灾等。水旱灾害主要包括洪水、内涝、水库重大险情、堤防重大险情、凌汛灾害、山洪灾害事件、农业干旱、城镇缺水、生态干旱、农村人畜饮水困难等数据。气象灾害(极端天气)主要包括台风、龙卷风、暴雨、雪灾、寒潮、大风、沙尘暴、低温冻害、冻雨、高温天气、热浪、干热风、雪崩、雷电、冰雹、霜冻、大雾、灰霾等数据。地质灾害主要包括滑坡、泥石流、山体崩塌、地面塌陷、地裂缝、地面沉降、火山喷发等数据。森林草原火灾主要包括境内森林火灾、跨境森林火灾、境外威胁我国境内的森林火灾、其他森林火灾、境内草原火灾、跨境草原火灾、境外威胁我国境内的草原火灾等数据。

(2)安全事故信息:包括煤矿事故、金属非金属矿山事故、建筑工程安全事故、危险化学品事故、烟花爆竹和民用爆炸物事故、火灾事故、道路交通事故、水上交通事故、铁路交通事故、城市轨道交通事故、特种设备事故、基础设施和公用设施事故、环境污染和生态破坏事故、踩踏事件、核与辐射事故、能源供应中断事故、有毒有害气体中毒事件等。

针对目前XX市应急管理局的数据现状,需要如下数据进行支撑:区大数据中心、市区公安分局、市区公安分局、市区消防救援支队、市区水务局、市区气象局和区民政局、市网格中心和区县等等。

精彩内容

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: