Michelangelus - Fotolia.
对于用户来说,Hadoop SQL工具与大数据框架是并行的
SQL-On-Hadoop查询引擎正在成为Hadoop在大数据系统中的常见伴侣,因为IT经理希望能够轻松编程分析应用程序和数据集成作业。
目前,SQL-ON-HADOOP采用仍然在低端 - 但它似乎以类似的步伐进行进展,以采用Hadoop本身。
这在一定程度上可以从技术会议上看出,在这些会议上,演讲者通常在他们的大数据环境中使用Hadoop和SQL-on-Hadoop软件。it研究和教育机构TDWI在2015年进行的一项新兴技术调查的结果证实了这一点。
只有16%的320个调查受访者表示,他们的组织正在使用商业化SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分;在另一个问题上,344名受访者中有22%表示Hadoop SQL技术被用于管理数据。然而,在后一种情况下,部署水平接近Hadoop,无论是在调查时还是在三年内都是如此——这是最明显的Hadoop的用户还实现SQL-On-Hadoop工具(参见图表)。
其中一个用户是Progressive Casualty Insurance Co.运行Hadoop集群在2013年底处理和分析从客户汽车上收集的远程信息处理数据,这是一个名为Snapshot的基于使用的汽车保险项目的一部分;这个集群是基于Hortonworks Inc.的Hadoop分布该公司还拥有用于为保险产品定价的研发数据,以及Progressive网站上的活动日志。
大多数分析查询和提取,转换和加载(ETL)集成进程与群集中的数据进行创建蜂巢这是一个开源的SQL-on-Hadoop工具。Progressive公司的数据和分析业务负责人Pawan Divakarla表示,该公司的业务分析师和数据科学家已经“大量使用SQL,所以我们希望为他们保持数据结构不变。”“我们有整个商业社区都在使用这些数据,让他们学习其他东西是没有意义的。”
给蜂巢提供帮助
它建筑师克里斯·贝伦特说,在部署它之后,逐步遇到了一些错误的错误,但现在技术更稳定,“我们需要的大部分都是”。但有助于增加蜂巢的表现并使它能够支持互动查询,俄亥俄州梅菲尔德村,保险公司增强了Hadoop的SQL引擎Tez是一个开源应用程序框架,起源于Hortonworks,旨在优化Hadoop系统中的数据处理吞吐量。
此外,Progressive的大多数数据分析师都是通过Tableau的BI软件或Hue与Hive合作,Hue是一种web应用的用户界面,最初由Hadoop供应商Cloudera Inc.开发。只有一些高级用户使用直接命令行SQL编码贝伦特说,在蜂巢中说。
在线约会服务Zoosk Inc.使用Hive for ETL和Cloudera的Impala SQL查询软件的组合,同时在前端的色调和Tableau,以便于其数据分析师进行编码。旧金山公司于2012年部署了一个基于Cloudera的Hadoop集群,最初可以处理大量的用户活动和系统日志数据由其网站生成,然后将信息的聚合视图传递给基于Microsoft SQL Server数据库的企业数据仓库。
在今年早些时候之前一直担任Zoosk分析和数据科学高级总监的马丁·林(Martin Lam)表示,在Zoosk还在公司的时候,开发人员就开始尝试这么做了Mapreduce编程, Hadoop的原始处理环境。但是,这比使用SQL要花更多的时间——编写和测试一个作业需要几个小时,而不是几分钟。然后Zoosk实现了Hive来支持集群中的ETL处理。然而,Hadoop SQL工具太慢了支持AD hoc分析据林岭东介绍,这些数据是由中国政府提供的。因此,“我们没有使用Hadoop作为分析平台,”他说。
Hadoop SQL天堂中的匹配?
在2012年底发布了Cloudera发布了Beta版本的Impala之后。Zoosk签署了早期的用户Lam表示,查询引擎的性能使得分析原始Hadoop数据更加可行。
例如,他说,结合Zoosk在2015年年中添加到其大数据架构的Hadoop柱状存储格式Parquet, Impala可以在8秒内运行一个关于网站用户交互的典型查询;相比之下,同样的查询,单独使用Hive只需要不到8分钟,同时使用Hive和Parquet需要将近6分钟。更快的速度也使得更高级的分析应用程序得以添加——特别是一种行为配对应用程序,它旨在根据Zoosk用户对该网站的使用情况预测他们之间可能的配对。
Benny Blum.Sell Points Inc.产品和数据副总裁
Zoosk在ETL方面坚持使用Hive,因为它每天都要处理从网站上获取的数亿行的数据,整个集群中总共有大约200tb的信息。“黑斑羚的速度非常快,但如果你不小心的话,它可能是不可预测的,”Lam说。"更容易保证Hive会完成任务"
黑斑羚也缺少一些标准SQL功能,包括支持可扩展的标记语言和JavaScript对象符号函数以及诸如地图和阵列之类的非匹配数据类型。“但差距正在越来越窄,”林现在在Facebook工作。“对于大多数[分析]用例,你可以得到。”
这同样适用于Apache火花位于加州埃默里维尔(Emeryville)的在线营销和广告公司selpoints Inc.负责产品和数据的副总裁本尼·布卢姆(Benny Blum)说,该公司的数据处理引擎的Spark SQL模块使用Spark SQL.用于ETL处理。
“现在有些事情我在Spark SQL中做不到,”Blum说。“你肯定会看到,你正处于一门正在发展的语言的最前沿。”另一方面,他指出,由于SQL技术的改进和公司对Spark的更有效使用,selpoints看到的Spark SQL的查询速度“比6到8个月前要快得多”。