搜索

《智能油田》解读之(1)—— 数据湖及大数据时代的数据治理

分享到:

《智能油田》解读之(1)——

数据湖及大数据时代的数据治理


    随着物联网、云计算、大数据、人工智能等数字化技术的普及和广泛应用,数字时代已然到来,数据将逐步成为企业的核心资产之一,数据将成为企业数字化转型的基础资源和新的动力。如何保证数据规范、标准和安全?如何支持快速、敏捷的数据服务和共享?如何实现数据资产的管理?数据治理将成为解决这些问题的最有效办法,也是企业数字化转型的基本保障。大数据时代,传统的E-R关系型数据库、数据仓库为核心的数据中心管理和服务模式,已显的力不从心,结构化数据、非结构化数据、实时数据、体数据、图像数据、音视频数据等多种复杂类型海量数据的管理、集成、融合、共享已成为技术瓶颈和技术难题。数据湖,可以容纳大量、复杂的原始数据存储,支持强大的分布式处理能力,数据湖已经成为企业大数据时代数据治理和大数据分析的重要技术支撑和工具。

    1、问题和挑战

    随着应用系统的不断建设伴随着产生大量数据,“数据孤岛”现象普遍存在,数据标准不统一,数据共享难且效率低,跨业务应用面临越来越大的挑战。

企业一直试图找到一个统一的数据模型来表示企业中所有实体。复杂的业务逻辑和多变的管理模式,使这项工作有极大的挑战性。

传统数据库技术难以应对大数据时代数据的高效管理(类型复杂多变、允许数据有误差、数据几何级高速增长等),难以支持快速迭代的应用诉求、大数据分析和AI应用。

    2、数据湖

    数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是一个存储库,它以原始格式保存大量原始数据,包括结构化、半结构化和非结构化数据。在需要数据之前,不会定义数据结构和需求(见《智能油田》第5章)。数据湖有以下特点:

    数据湖能轻松地收集数据。数据湖与数据仓库的一大区别就是,Schema On Read,即在使用数据时才需要Schema信息;而数据仓库是Schema On Write,即在存储数据时就需要设计好Schema。这样,由于对数据写入没有特别限制,数据湖可以更容易的收集数据。

    从数据中发掘更多价值。数据仓库和数据集市由于只使用数据中的部分属性,所以只能回答一些事先定义好的问题。而数据湖存储所有最原始、最细节的数据,所以可以回答更多的问题。并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用AI、机器学习的技术,从数据中发掘更多的价值。

    具有更好的扩展性和敏捷性。Hadoop是最常用部署数据湖的技术,因此具有很高的扩展能力。数据湖的结构没那么严格,因此天生具有更高的灵活性,从而提高了敏捷性。




    3、大数据时代的数据治理能力

    大数据时代,数据总量始终以几何级速度在不断增长,数据的类型也由传统的二维结构化数据,扩展到文档、图形、音视频等多种类型,远远突破了传统“数据”的含义。与传统的数据治理理念相比,大数据时代的数据治理呈现出许多新的特点(见《智能油田》第4章):

多源异构数据的入湖能力,实现全域数据集成和管理。

    高维度数据关系融合能力,形成全维数据图谱,实现对数据的全维度管理。

   AI数据关系分析能力,基于AI和机器学习方法,构建数据血缘关系图,实现对数据全生命周期管理。

    数据搜索和发现能力,支持数据生产和消费(应用)的闭环管理,提供标准数据产品服务,形成数据资产。

   以上参考《智能油田》一书,简述了一些概念和关系。如何落地,是大家更关心和感兴趣的部分,后续我将分别就数据入湖、关系融合、数据图谱、数据融合/主题构建、数据服务等内容,写出一系列文章,论述数据湖及大数据时代数据治理的总体思路和实现。这些文章,我将分期发表,抛砖引玉,供读者参考和留言讨论。



01 AI数字助理

本书是世界首创的五维智慧图书,图书自带一名数字助理李肖帅,热心读者可以扫描下面的二维码,把可爱的数字助理领回家。可以对图书先睹为快,更可以和李肖帅对话、咨询、问答游戏等。


|
帮助信息
|
合作项目
|
版本说明