在以往,企业一直使用SQL等关系数据库技术来开发数据模型,因为它特别适合灵活地将数据集和数据类型链接在一起,以支持业务流程的信息需求。
不幸的是,大数据(现在占管理数据的很大一部分)不能在关系数据库上运行。它在NoSQL等非关系数据库上运行。这让人们相信不需要创建大数据模型。问题是,如果想充分利用大数据的潜力,确实需要对其进行数据建模。以下是以可访问且有效的方式建模大数据的6个技巧:
1.不要试图将传统的建模技术强加于大数据
传统的固定记录数据在增长过程中是稳定和可预测的。这使得大数据建模相对容易。相比之下,大数据的指数级增长是不可预测的,其无数形式和来源也是不可预测的。当网站考虑对大数据建模时,建模工作应该集中在构建开放和弹性的数据接口上,因为可能永远不知道什么时候会出现新的数据源或数据形式。在传统的固定记录数据世界中,这并不是优先考虑的问题。
2.设计系统而不是模型
在传统数据领域中,关系数据库模型可以涵盖业务信息支持所需的数据之间的大多数关系和链接。大数据则不是这样,它可能没有数据库,或者可能使用NoSQL这样的数据库,而后者不需要数据库模型。
正因为如此,大数据模型应该建立在系统上,而不是数据库上。大数据模型应该包含的系统组件包括业务信息需求、企业治理和安全、用于数据的物理存储、所有类型数据的集成和开放接口,以及处理各种不同数据类型的能力。
3.寻找大数据建模工具
如今有许多支持Hadoop的商业数据建模工具,以及像Tableau这样的大数据报告软件。在考虑大数据工具和方法时,IT决策者应该将为大数据构建数据模型的能力作为他们的需求之一。
4.关注对企业业务至关重要的数据
每天都有大量的数据涌入企业,其中很多都是无关紧要的数据。创建包含所有数据的模型是没有意义的。更好的方法是识别对企业至关重要的大数据,并仅对这些数据建模。
5.交付高质量的数据
如果企业专注于为他们的数据开发完善的定义和详尽的元数据(描述数据的来源、目的等),就可以为大数据建立高级的数据模型和关系。对数据了解得越多,就越能将其正确地放入支持业务的数据模型中。
6.寻找对数据的关键切入点
当今大数据中最常用的向量之一是地理位置。根据企业的业务和所在的行业的不同,还有其他用户想要的大数据通用密钥。越能识别数据中的这些常见入口点,就越能更好地设计支持企业关键信息访问路径的数据模型。