对于大数据市场的好消息是,我们一般都同意大数据的定义,也就是众所周知的 volume、velocity 、variety 和企业需要收集、存储、管理和分析以获取商业上的value,被归纳为“4V”。
当你开始你的的大数据旅程或项目时,一定要弄清楚究竟是什么业务需要。
对于大数据市场的好消息是,我们一般都同意大数据的定义,也就是众所周知的 volume、velocity 、variety 和企业需要收集、存储、管理和分析以获取商业上的value,被归纳为“4V”。但你一旦开始探究旁边的"V"所代表的真正价值时,你会发现这个定义过于广泛,它对于不同的人意味着不同的事。说实话,对于不同企业容量也意味着不同。对于有些人来说,是在他们的BI环境中超过10 TB的管理数据,对于其他人来说可能是PB级别。数十亿的日常记录以同样的速率通过各种外部和内部网络进入企业。当它真的发生的时候,每个企业的情况会有很大的不同,不仅从规模和速度的角度,更重要的是从业务需求方面来看。一家大型银行的大数据问题跟一个在线零售商或者航空公司可能是非常不同的。如果把公用事业提供商运行的智能电网或电信运营商和一家医院正在试图收集分析的所有患者的传感器数据对比一下,真的,你可以把它们都归类为机器生成的原始数据,但确切的数据类型可能是不同的,更不用说容量或者增长率。大概在上述所有行业中,一个独特的共同点是都会保留较长时间数据周期的数据,没有人把它扔了----甚至没有详细的数据。
许多成本要考虑的因素
取决于IT预算分配的分配不同,成本也会有所不同。但无论该公司如何分配IT预算,新的大数据举措都是需要考虑的。让我们面对现实吧,企业不会因为新的IT资产或系列产品而增加预算,当前世界经济形势也不建议如此。更可能的是现有预算重新被分配,而不是花费更多。现有的传统数据仓库或者装置资金被分配到新的项目上运行新的开源项目,其中包括Apache的Hadoop。它易于规模且成本低,更明显的是有最好的方法来管理和分析结构化的数据集。然后出现的困难是你怎么整合或让你的Hadoop环境与建立的BI及DW环境并存。
充分利用你已经拥有的
让我们假设如今你有一个数据仓库或数据集,你已经在使用各种ETL或数据移动工具、BI仪表板、分析或报告工具,你不希望扰乱企业用户不仅影响性能水平,但也有了一套新的工具,事实上,你可能已经依赖于各种业务报表和KPI严格的SLA响应时间。然而,业务同时要求访问新的数据集以搜集更好的见解,也可以直接分析这些数据或将它与现有客户数据混合。这可能采取网络日志、点击流数据及各种互动网站跟踪得来的社交媒体数据形式。只是无法避免影响利润率和获得竞争优势的承诺。
大数据是大企业,但也有严格的要求
众所周知,传统的关系型或柱状数据库不能处理非结构化数据类型,它需要推出一个不同的解决方案以满足业务需求。 评估可以采取多种形式,但通常从Hadoop发行版开始,除了MapReduce之外,还有NoSQL或NewSQL数据库查询访问工具。这当然是不容易的事,因为有大量的技术解决方案目前在市场上的声称上能运行或使用Hadoop提供的MapReduce和SQL类似的功能。它提供所有满足需求管理卷的非结构化数据。一些比别的更成熟,一些行之有效,但不都是低成本的。开放源码表面上看起来,一旦成本非常低,一旦你需要任何级别的支持,让我们面对现实吧,一旦它依赖关键业务环境,你将需要在预算上分配一条业务线。大数据的业务线不会只有一条,因为它需要包括所需的所有组件去适当的展示大数据解决方案并切实满足业务需求。就像其他IT环境明显的组件将包括:软件授权和支持、硬件、技术专用资源、专业服务和培训,企业用户提供专门的时间在关键的要求(指定类型的报表,查询和分析)上。随着时间的推移,这自然也会发生变化。
大数据成本会迅速攀升
从硬件所需开支方面管理新的大数据集,你可能会开始使用Hadoop集群是10个节点,这当然是可管理的,但如果你的数据速度是相当数量的,可以迅速达到100个以上的节点,现在你将面临诸多其他费用包括额外的员工和技术资源管理环境,潜在的软件等。你可能还需要一个商业工具提供的前端GUI仪表板追踪特定的关键绩效指标或者数据可视化工具好让企业用户可以很快明白是怎么回事。有关存储和硬件成本越来越少,围绕软件,专注于这个新数据集获得的最大价值。无可否认,大数据带来了巨大的新的机会,但在快速的时间内达到可量化的投资回报率的角度来说仍然是一个非常现实的挑战。每个人都在谈论大数据,所有的创新技术解决方法用于解决它,但仍然是很难找到任何一个行业内很多企业的成功案例。它仍然是相当不成熟,但好消息是,在当今它以比IT其他项目更快的速度发展,数据仓库和BI在过去二十年提供了经验教训。
[page]
对于大数据市场的好消息是,我们一般都同意大数据的定义,也就是众所周知的 volume、velocity 、variety 和企业需要收集、存储、管理和分析以获取商业上的value,被归纳为“4V”。
大数据是大企业,但它配备了严格的要求
如果我们想更仔细地检测一个大项目主要支出领域,最好看看特定类型的业务和使用情况。让我们以一家大型金融机构为例,它拥有一批现有的传统数据仓库/ BI环境,业务不希望扔掉任何数据 ,且企业要为持续的趋势和分析保留特定的数据集。这包括需要研究的问题,如“在特定的周期与客户统计里,什么是低风险客户的消费行为模式” 这将有利于机构更好地针对市场进行特定细分。考虑到数据增长,而IT预算不允许增加,需要减少成本,使用低规模成本的Hadoop环境,事实上它可以通过捕捉半结构化和非结构化数据来洞察客户动态。企业用户希望访问Hadoop环境和现有的传统数据仓库环境。由于我们正在谈论金融机构,安全性和可用性最为重要。同时,如果企业的用户要访问数据,SQL查询访问和使用BI工具,对新一组数据也是有要求的。如果你能避免频繁地从一个地方移动大量的数据到另一个,它成本会降低。在理想情况下,能利用你已设置的技能和避免工作重复是关键。
下面是一个快速列表,列出主要成本因素和要考虑的一些意见,对这些方面可以降低成本:
总结:考虑所有因素和获得商业支持
大数据基本上是一个商业问题,如果你开始考虑, “通过收集,存储和分析新数据集,什么是企业想要达到的目标” 你会开始正确的道路,实现业务收益。无论是外包,还是引进外部顾问和供应商管理项目,同样的问题都会出现,充分利用你已拥有的现有IT环境和技能,将能够更好地控制成本。此外,我们都爱创新技术的承诺,包括Hadoop和MapReduce,但都没有长久的测试和标准来检验,所以无论从技术上或经济上都不会有太大的意义。当你开始你的的大数据旅程或项目时,一定要弄清楚究竟是什么业务需要。我们都知道,企业用户购买和成功部署是成功的一半。