当前,很多组织的数据部门日常穷于应付各种需求,同时又面对不少抱怨:查找、组合和分析数据需要太多时间,用户对数据的正确性与时效性不满意,无法轻松回答跨域业务问题。最终导致一直在重复收集、管理和分发相似的不正确和冲突的数据,这些工作昂贵且费力,导致过多的IT成本和过高的复杂度,以及用户对数据资源缺乏信任。
数据是组织的战略资产,组织应该清楚地了解“数据的战略价值”以及如何释放和利用数据来产生积极的业务影响。企业需要善用这些数据特点来发挥最大价值,数据集成则在其中扮演了重要角色。
在此背景下,TheOpenGroup论坛总监、Lacibus创始人兼负责人ChrisHarding围绕《数据集成的技术标准》白皮书展开分享,通过专业视角的前沿解读,并结合自身实践,实现观点碰撞,阐释了如何解决数据集成层面的一系列问题。
让我们一起来回顾精彩时刻吧
∨
福利放送时刻
以下为演讲精华实录:
非常荣幸能向各位进行分享。今天我将分别介绍数据集合的概念、当前数据集成的技术趋势,以及TheOpenGroup在数据集成领域所做的工作。
什么是数据集成
首先,什么是数据集成,为什么它如此重要?
数据集成实际上是将来自不同来源的数据组合在一起,为用户提供统一的单一视图的过程,这是数据处理中最基本的事情之一。你从不同类型的数据中获取数据,需要创建一个单一的数据集,并给出单一的视图。
在这一过程中,你需要克服各种问题。比如,创建第一个数据集的人设定了一个特定的含义,而创建第二个数据集的人设定了一个稍微不同的含义,你就需要把这些数据进行组合,创建一个有用的、有意义的组合数据集。
其中,数据分析是很大的一个原因。常见的案例有3个:
各类活动开展。公司的管理层希望有一个统一的视图,能够展示整个公司正在开展的活动情况,为了提供这一视图,数据分析必须融合各个部门的数据。
兼并和收购。两个公司进行合并且都有自己的客户数据库,但合并后的公司需要有一个统一的数据库,就需要将两家公司的数据进行组合。显然,客户数据是数据组合的一个重要例子。
新型产品和服务的开发。公司通过将自身所拥有的信息,与其他地方获取的信息进行组合,来生产新产品。事实上,数据集成目前已经开始有一个相当大的市场。提供新型数据产品和服务是公司的首要任务,这一任务需要数据的集成。
数据集成的技术趋势
数据集成是一个很大的市场。一个数据显示,数据集成市场规模将在年增长到近亿美元,增长率为11%;Gartner则简单预测了软件市场的规模,他们认为,软件市场在年已经超过了30亿美元。
很明显,不同的机构持有不同的观点,他们的数字可能无法直接比较。但这两家公司的数据都可以,这是一个很大的市场且一直在增长。
至于原因,我认为,云计算是其中的一个主要部分。Gartner谈到云计算是由解决混合数据集成的挑战这一需求所驱动的。
关于数据集成这一不断增长的市场,有哪些技术可以帮助公司解决数据集成所遇到的问题?
数据结构是一个重要的概念。数据结构的概念是公司可以让其应用程序统一访问不同类型的数据。这些数据可能是SQL、NoSQL和IoT数据,可能在云端,可能在本地,也可能从边缘传感器获得。但应用程序把它看作是有组织的统一数据结构,这种方法的一个特点是使用连续的自动分析来处理元数据,并组织数据。
因此,这有助于应用程序以统一的方式看到不同种类的数据,通过查看不同种类的元数据并创建数据视图,让应用程序访问数据而不需要知道数据的来源,以及结构和通过什么来提供。这是数据结构的其中一个关键概念。
另一个目前流行的概念是数据网格。这个概念最初是由ThoughtWorks提出的。网上有关于数据网格的介绍:其基本概念是数据是一种产品。因此,正如任何一种被包装过的产品一样,需要