搜索

《智能油田》数据湖建设之——数据融合

分享到:

智能油田数据湖建设之——数据融合


各种各样的数据源系统入湖后,如何实现这些多源异构数据的融合是数据湖建设面临的核心问题。所谓数据融合,不在是传统意义上的数据集成、整合,而是要实现数据库与数据库间的结构融合、关系融合、数据身份融合、主数据映射(ID唯一)等,以达到不同数据库之间的数据能够到标准一致、血缘清晰,实现数据关系的全维图谱表达,从而实现数据的全生命周期管理,数据按需融合流动。





图1 数据融合技术路线


我们采用复杂网络技术,从关系融合和数据融合两个方面入手,实现对数据湖的元数据治理和数据内容治理,最终达到多源异构数据融合的目的。

1、关系融合。在数据源库结构基础之上,将传统的二维表结构转变为高维的全维数据关系图谱,从元数据层面实现不同数据库、不同表间数据的关系融合。

表内字段关系分析。采用面向对象的数据建模理论,对入湖的每一张数据库表进行分析,梳理表内字段间的对象~对象、对象~活动、对象~属性、活动~属性之间的关系,建立最小业务单元图谱。





图2 业务最小单元关系图谱


表间关系梳理。对不同表间的相同的业务对象、业务活动,从全局视角梳理对象ID关联,建立联接关系,实现业务对象和业务活动的相互映射关系。

全局关系梳理。从数据湖全局层面,审视库间、表间元数据关系,形成全维数据关系图谱。




图3 数据湖全维数据关系图谱示意图


2、数据融合。建立不同库、不同表间的主数据映射关系,理清数据血缘关系,清晰标注数据多版本,最终实现数据融合。

主数据融合。在元数据关系图谱基础上,针对不同库、不同表间主数据命名和编码规则不一致的问题,梳理并建立数据映射关系,从全局视角梳理并实现对象ID关联,保证全部入湖数据的身份唯一,实现主数据的统一。

数据血缘关系和多版本关系梳理。针对属性数据项,梳理在不同库/表间的同名同义、同名不同义、同义不同名等现象,对于业务含义相同的数据项,若在不同库/表间存在或建立了相互引用或数据迁移关系,则定义为血缘关系;若不同库/表间是分别独立采集、独立存贮,则定义为存在多版本,建立多版本标签。

3. 标签建立和融合。从数据管理、应用出发,针对所有入湖数据,从数据身份、版本、质量、业务归属、应用等属性建立多类型、多维度、多层次、多场景标签体系,实现数据质量和分类管理和治理,提高数据应用的敏捷性。避免传统数据库只能按照唯一视角(标准)建立,无法兼顾个性化业务,难以支持敏捷应用的弊端。

相对于传统数据集成、整合技术,智能油田数据湖数据融合技术的优势在于:

1、从结构融合到关系融合。传统的数据集成、整合方案要么采取不同库与表间建立表间逻辑映射的方式,要么设计一套全新的数据结构,通过数据迁移的方式实现,工作量大、难度高、建设周期长。本方案将低维数据结构转变为高维关系图谱,真正从字段层面实现了数据融合。

2、数据关系的稳定性。高维数据关系图谱是从业务本质出发建立的数据之间的关系,不依赖于数据结构,且能与各种数据结构兼容,无论数据结构如何变化,都能保证数据关系的稳定性。

3、灵活多变、动态扩充。高维数据关系图谱不全依赖于数据标准,可根据数据源、数据库标准更新,可随时应用动态扩充、随时变化,且不对已有应用带来影响。符合敏捷数据治理、敏捷开发应用的理念。

智能油田数据湖应用大数据分析和AI技术,实现了数据关系融合和数据融合,构建了全维数据关系图谱,这为后续实现各类数据服务、敏捷数据治理提供了技术保障。


|
帮助信息
|
合作项目
|
版本说明