构建数据湖架构可以拖动毫无准备的用户

组织发现他们不能只是跳入数据湖中 - 它需要一种战略方法来构建能够支持它的架构。

通过

克雷格斯德曼，编辑很大

发表:2015年5月18日

Edo Interactive几年前遇到了一个大问题:它的数据仓库系统没有足够的时间来处理公司用来向零售商和餐馆推荐个性化促销活动的所有信用卡和借记卡交易数据。

“我们花了27个小时来处理我们的日常构建，当它工作时，”Edo的基础设施和信息系统高级副总裁Tim Garnto说。所以在2013年，江户取代了现有的系统，基于一个PostgreSQL关系数据库，具有Hadoop集群这已经成为该组织的数据湖架构。

Garnto的团队每天将超过5000万美国零售交易的数据汇总到一个20节点的集群中，该集群运行在Cloudera的Hadoop分发版上，并使用数据进行传输数据集成工具来自Pentaho。从银行和信用卡公司收集的数据被处理，然后通过预测模型进行，旨在查明优惠券的单个持卡人。优惠券在江户伊德的业务合作伙伴发送的每周电子邮件中宣传，并在购买时自动应用。

每日数据构建降至大约四个小时，Garnto表示，江户的数据分析师可以在几分钟或几小时内完成工作，具体取决于他们运行的模型的复杂性。“之前，”他补充说：“他们只是在水中死了。”

Tim Garnto, Edo Interactive

但也并非一帆风顺在数据湖上这一观点得到了其他领导过大型Hadoop系统实现的IT经理的认同。最初，江户只有一名IT人员有Hadoop和MapReduce编程框架的经验。这家公司在芝加哥和田纳西州的纳什维尔设有联合总部。该公司投资培训其他员工在内部建立Hadoop技能，但随后不得不让他们放弃以更熟悉的关系方式编写数据查询。“我们花了很多时间更新流程，”Garnto说。

为发出来创建两步例程原始数据一致性和生成标准化的分析数据集也需要时间去弄清楚。该集群目前拥有总计450亿条记录，总计255tb的数据，已经成为江户业务运营的中心，以至于Garnto需要谨慎管理它并添加新的Hadoop生态系统技术;否则，对公司某个部门所做的调整可能会影响到该系统对其他部门的运作。“在我们所面临的所有挑战中，这将是最有趣的，”他说，并补充说，可能需要一个指导委员会来帮助监督集群的发展路线图。

数据湖启用即时分析

WebTrends Inc.收集和处理来自网站，手机和物联网的活动数据，是另一个数据湖用户。Portland，Ore。，公司部署了一个基于Hortonworks的Hadoop集群，于2014年7月举办了一个软的推出，并在2015年初完全居住在2015年初 - 最初支持一个名为探索的产品，让公司营销人员进行Ad Hoc分析客户数据。Webtrends的产品架构总监Peter Crossley表示，每个季度向60节点集群添加大约500 TB的数据，现在总共高达1.28个Petabytes。

彼得•克罗斯利Webtrends

随着时间的推移，Webtrends计划使用Hadoop平台来取代在网络连接的存储设备上以平面文件形式存储数据的自产系统。Crossley说，使用Apache Kafka消息队列技术和自动处理脚本，互联网点击流数据可以流到集群中，并在20到40毫秒内准备进行分析。因此，报告和分析过程可以“几乎瞬间”启动——比旧系统快得多。Hadoop集群也支持更多高级分析而且硬件成本在其上降低了25％至50％。

不过，克罗斯利说，采用数据概念湖在管理和使用webtrends为其客户端收集的信息中需要内部“思维设置更改”。之前，该公司主要建立了来自其仓储的广泛数据的通用报告。但是，他说，一个数据湖“对自己的单一的真理来源不那么少，而且更多的是你可以在顶部构建多个数据集的单一的真理来源”for“不同的分析使用。

Webtrends还必须认真考虑其数据湖架构和数据治理用Crossley的话来说，是为了防止Hadoop集群变成“数据沼泽”。进入系统的原始数据结构松散，但他补充说，对于数据应该是什么样子，有“非常严格”的规则。此外，他的团队将集群划分为三个独立的层:一个用于原始数据，第二个用于扩充的日常数据集，另一个用于引入的第三方信息。根据不同数据集的具体情况，每一层都有自己的数据分类和治理策略。

不要失去对数据的控制

弗吉尼亚州雷斯顿的Razorsight Corp.首席技术官苏伦•内森(Suren Nathan)也指出，在建立和管理一家公司时，需要“非常有纪律和组织”Hadoop data湖。如果没有，内森说，系统可以快速变成一个遥控器倾倒的地面 - “就像一个没有人知道如何找到的所有这些文件的SharePoint门户。”

razorsight，提供一套基于云的分析2014年第二季度，该公司开始使用MapR Technologies提供的一个运行Hadoop分布的集群。来自客户的客户、运营和网络数据集通过一个自产的消化工具引入系统，并通过Spark处理引擎运行，为Razorsight的数据科学家进行分析做准备;集群有5个生产节点，存储容量为120tb。

Suren Nathan, Razorsight

和Webtrends一样，Razorsight也将其数据湖分成了三个分区。在Razorsight的案例中，只有一个数据湖持有数据还不到六个月;另一个包含旧的但仍然活跃的数据，第三个是一个不再使用但需要保留的信息存档。据内森说，目前，在两个活动区域有超过20tb的数据。他补充说，为了让系统顺利运行，Razorsight引入了在数据治理和分布式系统开发方面有经验的新员工，同时还对现有IT员工进行了使用Hadoop、Spark和相关技术的再培训。

它也在逐步向新平台转移。Hadoop集群的成本约为每TB 2000美元，相当于该公司之前使用的IBM Netezza数据仓库系统的十分之一。但Nathan表示，Razorsight最初仅为数据存储而建立集群，然后将处理和准备阶段也转移到那里。分析建模和数据可视化部分原因在于Netezza硬件和IBM的SPSS Analytics软件之间的关系。建模现在将留下来，但内森预计将在今年年底之前将可视化层和razorsight的分析结果进入数据湖建筑。

Craig Stedman是SearchBusinessAnalytics华体会体育官网-意甲赞助商的执行编辑。给他发电子邮件[电子邮件受保护]在Twitter上关注我们:@BizAnalyticsTT。