您的位置 首页 历史常识

数据管理技术(MIS 024:数据管理技术方案的演变)

数据管理技术

随着信息系统应用的深入,数据来源更加多源化,数据结构日益复杂,海量数据的存储、管理以及开发利用问题,越来越得到企业的重视。在数据库基础上,数据管理技术方面也相继形成了数据仓库、数据集市、数据联邦、数据湖等方案。01数据仓库关系型数据库主要应用于面向交易的、实时的事务型数据处理领域,而数据仓库是一个面向主题、集成、时变、非易失的分析型数据集合,用于支持管理部门的决策过程。数据仓库的主要工作是把分布在各个形态的与主题相关的数据抽出整合在一起,进行深度的分析挖掘,从而以一种合适的方式呈现加以利用。数据仓库有如下一些特点:①面向主题(Subject Oriented)。数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。②集成(Integrated)。数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。③时变(TimeVariant)。数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。④非易失(Nonvolatile)的数据集合。与传统数据库相比,数据仓库具有许多不同(参见表1)。数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,数据相对稳定,极少或根本不更新。表1 传统数据库与数据仓库比较传统数据库(事务型)数据数据仓库(分析型)数据面向应用:数据服务于某个特定的商务过程或功能(OLTP)面向主题:数据服务于某个特定的商务主题,例如客户信息等。它是非规范化数据(OLAP)细节数据,例如包含了每笔交易的数据对源数据进行摘要,或经过复杂的统计计算。例如一个月中交易收入和支出的总和结构通常不变结构是动态的,可根据需要增减易变性(数据可改变)非易变(数据一旦插入就不能改变)事物驱动分析驱动一般按记录存取,所以每个特定过程只操作少量数据一般以记录集存取,所以一个过程能处理大批数据,例如从过去几年数据中发现趋势反映当前情况反映历史情况通常只作为一个整体管理可以分区管理系统性能至关重要,因为可能有大量用户同时访问对性能要求较低,同时访问的用户较少数据仓库的体系结构并没有一个固定、严格的规定,从各部件的功能来分析,数据仓库在逻辑上可以分为数据获取/管理层、数据存储层、数据分析/应用层三个层次,如图1所示。图1 数据仓库体系结构示意图数据获取/管理层的主要任务是定义数据仓库数据的来源、数据组织方式、数据仓库维护和安全管理等,该层要保证数据仓库安全性、稳定性与有效性。数据存储层是数据仓库的主体,存储的数据包括三部分:①外部数据源经过抽取(extract)、转换(transform)和加载(load)处理(ETL),并按主题存放的业务数据;②数据仓库的元数据;③是针对不同数据挖掘和分析主题所生产的数据集市。为了兼顾数据仓库灵活性和高效性的需求,数据仓库会在存储层中增加“从属型数据集市”(下文还有涉及),从属型数据集市作为数据仓库的一个子集,与所服务的某个主题相对应,这样在对某个特定主题的查询时,只需在对应的数据集市中进行检索,而不必检索整个数据仓库,从而提高系统的使用性能。数据分析/应用层主要面向用户,用于展示查询和分析的结果,包括查询、统计、报表服务,联机分析处理(OLAP)服务,以及数据挖掘服务。1996年伴随着数据仓库提出了商业智能(Business Intelligence,BI),其被定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。02数据集市数据仓库是一项复杂、繁琐、成本高、周期长的工程。企业级的数据仓库能够对数据进行存储、采集和分析,满足用户的不同需求。然而,不同部门职责范围不同,需要采集和分析不同的数据,如果全部数据操作和处理都从数据仓库进行,会加重系统的负担,降低工作效率,造成资源浪费。数据集市就是在此背景下发展起来的。数据集市(Data Mart)也叫数据市场,是为满足专业用户群体的特殊需求,从企业数据库或数据仓库中抽取出来的,按照多维的方式进行存储,向决策分析需求的数据立方体。数据集市规模小,数据集市的规模通常是几十GB的数量级,是面向不同主题的,仅包含与特定业务或功能单元相关的源数据,通常只保存汇总数据,一些数据集市可能会包含完整的细节。数据集市通常由业务部门负责管理和维护,投资成本较低,能快速实现。数据集市作为企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题,数据集市存储的是预先计算好的数据,为了解决数据需求的灵活性与性能之间的矛盾,在一定程度上缓解了访问数据仓库的瓶颈。按照不同的数据来源和建立方法,数据集市可以分为独立数据集市和从属数据集市两类。独立型数据集市直接从操作型环境获取数据,有自己的源数据库,存储不同的异构数据,数据来自多个应用环境,要通过 ETL实现数据的一致性、完整性,不具有稳定的结构,无法实现“数据仓库内包括各种数据集市”的愿望。从属型数据集市从企业级数据仓库获取数据,根据分析的主题划分成若干子集,进行数据的组织与存储,进而可以面向特定的主题进行分析。图2 独立数据集市图3 从属数据集市?03数据联邦数据联邦(Data Federation)是目前比较成熟的一种企业数据集成方法,其本质是一种数据显示技术,通过创建对用户集成的视图,把分布在不同地方的计算机或数据库服务器上的数据库数据联合在一起,数据库之间通过接口查询,互相通信,从而在一个系统环境下,显示系统数据库中的数据。数据联邦的优势体现在:①不需要预先把数据从一个系统导入到另一个系统,从而保证了数据的实时性,避免形成数据冗余和不一致。②与其它数据集成技术相比,数据联邦能够实时、便捷地获取数据,有更少的数据时延,而以往利用批量任务或者ETL的方式创建数据集市和数据仓库的方式由于实时性较差,在很多应用场景中被数据联邦技术所取代。③联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。然而,数据联邦访问数据是通过一个“联邦”视图来实现的,由于视图是实时的,因此数据转换是一个重点,并且无法解决数据质量和性能问题。数据联邦查询反应慢,不适合频繁查询,容易出现锁争用和资源冲突等问题。04数据湖数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,其中的数据可供存取、处理、分析及传输。数据湖可以存储结关系型数据库中的构化数据,CSV、日志、XML等半结构化数据,以及图形、音频、视频等非结构化数据。因此,数据湖可以从企业的多个数据源获取原始数据,用户可以按数据原始格式进行存储,而无需事先对数据进行结构化处理。之所以称为数据湖,是因为这种数据库可以在自然状态下存储大量数据,就像一片未经过滤或包装的水体。数据从多种来源流入湖中,然后以原始格式存储。数据湖的核心价值是为企业带来数据平台化运营机制。例如,数据湖能实现企业数据的集中式管理,结合先进的数据科学与机器学习技术,帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,从而有助于企业通过吸引和留住客户、提高生产力、主动维护设备以及辅助商业决策,更快地识别和应对业务增长机会。在一些需要为数据设置大型整体存储库的企业中,数据湖正在成为一种更通行的数据管理策略。数据湖的优势表现在,能够为企业实现数据治理,集中式存储企业所有数据,实现数据传输优化的数据服务,通过应用机器学习与人工智能技术实现商业智能,帮助企业做更多灵活的关于企业增长的决策。然而,数据湖技术也存在一些挑战。例如,在数据发现方面,数据湖面临如何帮助用户发现数据、了解有哪些数据的问题;在数据安全方面,数据湖如何管理数据的权限和安全,敏感的数据应不应该开放给所有用户;在数据管理方面,如果多个团队使用数据,如何共享数据成果,避免重复开发。数据湖与数据仓库都是面向决策的数据管理技术,然而二者具有明显的区别,参见表2。表2 数据湖与数据仓库的区别区别数据湖数据仓库数据来源IOT设备、网站、移动应用程序、社交媒体、企业应用程序的非关系和关系数据事务系统、运营数据库和业务应用程序的关系数据数据类型结构化数据、非结构化数据、半结构化数据等以结构化数据为主且数据必须与数据仓库事先定义的模型吻合。数据处理计算能力强大,可以处理所有类型的数据,分析后的数据被存储供用户使用。将结构化的数据转为多维数据,或报表,以满足后续的高级报表及数据分析需求。数据使用包含更多的相关的信息,高概率被访问,为企业挖掘新的运营需求。通常用于存储和维护长期数据,因此数据可以按需访问。使用角色数据科学家、数据开发人员、业务分析师业务分析师分析场景机器学习、预测分析、数据发现批量处理报告、商业智能和可视化在存储数据类型方面,数据仓库是存储数据,进行建模,存储的是结构化数据;而数据湖以其本源格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据。在需要数据之前,没有定义数据结构和需求。在数据处理模式方面,加载到数据仓库中的数据,首先需要对它进行定义,即做写时模式(Schema-On-Write),而对于数据湖,不需要进行事先定义,只需加载原始数据,而当用户使用数据时,就给它一个定义,即做读时模式(Schema-On-Read),这是两种截然不同的数据处理方法。数据湖是在数据到使用时再定义模型结构,因此提高了数据模型定义的灵活性,可满足更多不同上层业务的高效率分析诉求。在分析处理方面,数据湖拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。而数据仓库主要用于处理结构化数据,将他们或者转换为多维数据,或者转换为报表,以满足后续的高级报表以及数据分析需求。数据湖通常包含更多的相关信息,这些信息被访问的概率很高,并且能够为企业挖掘新的运营需求,而数据仓库通常用于存储和维护长期数据,可以按需访问。【拓展阅读】AWS的数据湖平台服务2020年3月24日,AWS宣布AWS Glue与Amazon Athena在由西云数据运营的AWS中国(宁夏)区域正式上线。其中,AmazonAthena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据。AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。这两个服务都是AWS数据湖平台非常重要的组成部分。Amazon Athena可以让用户方便地对Amazon S3数据湖中的数据执行查询,由于Athena是一种无服务器服务,用户不用关心配置和管理服务器、集群等情况。茄子快传是一家全球化的互联网科技公司,通过搭建一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传此前面临数据量大、分析维度多、业务复杂等挑战,所以经常需要多维度多颗粒度的高并发分析。茄子快传数据运营负责人何诚表示:“茄子快传通过使用Amazon Athena,使其运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”AWS Glue让Amazon S3数据湖中的数据集可以被发现,可用于查询和分析。一般来说,客户在使用数据湖架构实现数据分析解决方案时,通常有75%的时间花在数据集成任务上,而AWS Glue消除了ETL作业基础设施方面的重复劳动,极大地缩短分析项目中做ETL和数据编目阶段的时间,让ETL变得很容易。——资料来源:AWS的“数据湖”观,《网络安全和信息化》2020(05) 午言大师 朝闻午言。 29篇原创内容 公众号 转载:请在微信后台回复“转载”商业合作或投稿:xvmaster130@163.com

数据管理技术相关文章