Michelangelus - Fotolia.

管理

对于用户来说，Hadoop SQL工具与大数据框架是并行的

SQL-On-Hadoop查询引擎正在成为Hadoop在大数据系统中的常见伴侣，因为IT经理希望能够轻松编程分析应用程序和数据集成作业。

通过

克雷格斯德曼，编辑很大

发布：2016年7月21日

目前，SQL-ON-HADOOP采用仍然在低端 - 但它似乎以类似的步伐进行进展，以采用Hadoop本身。

这在一定程度上可以从技术会议上看出，在这些会议上，演讲者通常在他们的大数据环境中使用Hadoop和SQL-on-Hadoop软件。it研究和教育机构TDWI在2015年进行的一项新兴技术调查的结果证实了这一点。

只有16％的320个调查受访者表示，他们的组织正在使用商业化SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分;在另一个问题上，344名受访者中有22%表示Hadoop SQL技术被用于管理数据。然而，在后一种情况下，部署水平接近Hadoop，无论是在调查时还是在三年内都是如此——这是最明显的Hadoop的用户还实现SQL-On-Hadoop工具（参见图表）。

其中一个用户是Progressive Casualty Insurance Co.运行Hadoop集群在2013年底处理和分析从客户汽车上收集的远程信息处理数据，这是一个名为Snapshot的基于使用的汽车保险项目的一部分;这个集群是基于Hortonworks Inc.的Hadoop分布该公司还拥有用于为保险产品定价的研发数据，以及Progressive网站上的活动日志。

大多数分析查询和提取，转换和加载（ETL）集成进程与群集中的数据进行创建蜂巢这是一个开源的SQL-on-Hadoop工具。Progressive公司的数据和分析业务负责人Pawan Divakarla表示，该公司的业务分析师和数据科学家已经“大量使用SQL，所以我们希望为他们保持数据结构不变。”“我们有整个商业社区都在使用这些数据，让他们学习其他东西是没有意义的。”

给蜂巢提供帮助

它建筑师克里斯·贝伦特说，在部署它之后，逐步遇到了一些错误的错误，但现在技术更稳定，“我们需要的大部分都是”。但有助于增加蜂巢的表现并使它能够支持互动查询，俄亥俄州梅菲尔德村，保险公司增强了Hadoop的SQL引擎Tez是一个开源应用程序框架，起源于Hortonworks，旨在优化Hadoop系统中的数据处理吞吐量。

此外，Progressive的大多数数据分析师都是通过Tableau的BI软件或Hue与Hive合作，Hue是一种web应用的用户界面，最初由Hadoop供应商Cloudera Inc.开发。只有一些高级用户使用直接命令行SQL编码贝伦特说，在蜂巢中说。

在线约会服务Zoosk Inc.使用Hive for ETL和Cloudera的Impala SQL查询软件的组合，同时在前端的色调和Tableau，以便于其数据分析师进行编码。旧金山公司于2012年部署了一个基于Cloudera的Hadoop集群，最初可以处理大量的用户活动和系统日志数据由其网站生成，然后将信息的聚合视图传递给基于Microsoft SQL Server数据库的企业数据仓库。

在今年早些时候之前一直担任Zoosk分析和数据科学高级总监的马丁·林(Martin Lam)表示，在Zoosk还在公司的时候，开发人员就开始尝试这么做了Mapreduce编程， Hadoop的原始处理环境。但是，这比使用SQL要花更多的时间——编写和测试一个作业需要几个小时，而不是几分钟。然后Zoosk实现了Hive来支持集群中的ETL处理。然而，Hadoop SQL工具太慢了支持AD hoc分析据林岭东介绍，这些数据是由中国政府提供的。因此，“我们没有使用Hadoop作为分析平台，”他说。

Hadoop SQL天堂中的匹配?

在2012年底发布了Cloudera发布了Beta版本的Impala之后。Zoosk签署了早期的用户Lam表示，查询引擎的性能使得分析原始Hadoop数据更加可行。

例如，他说，结合Zoosk在2015年年中添加到其大数据架构的Hadoop柱状存储格式Parquet, Impala可以在8秒内运行一个关于网站用户交互的典型查询;相比之下，同样的查询，单独使用Hive只需要不到8分钟，同时使用Hive和Parquet需要将近6分钟。更快的速度也使得更高级的分析应用程序得以添加——特别是一种行为配对应用程序，它旨在根据Zoosk用户对该网站的使用情况预测他们之间可能的配对。

当一种语言被开发时，你肯定会看到你正处于它的最前沿。

Benny Blum.Sell Points Inc.产品和数据副总裁

Zoosk在ETL方面坚持使用Hive，因为它每天都要处理从网站上获取的数亿行的数据，整个集群中总共有大约200tb的信息。“黑斑羚的速度非常快，但如果你不小心的话，它可能是不可预测的，”Lam说。"更容易保证Hive会完成任务"

黑斑羚也缺少一些标准SQL功能，包括支持可扩展的标记语言和JavaScript对象符号函数以及诸如地图和阵列之类的非匹配数据类型。“但差距正在越来越窄，”林现在在Facebook工作。“对于大多数[分析]用例，你可以得到。”

这同样适用于Apache火花位于加州埃默里维尔(Emeryville)的在线营销和广告公司selpoints Inc.负责产品和数据的副总裁本尼·布卢姆(Benny Blum)说，该公司的数据处理引擎的Spark SQL模块使用Spark SQL.用于ETL处理。

“现在有些事情我在Spark SQL中做不到，”Blum说。“你肯定会看到，你正处于一门正在发展的语言的最前沿。”另一方面，他指出，由于SQL技术的改进和公司对Spark的更有效使用，selpoints看到的Spark SQL的查询速度“比6到8个月前要快得多”。

下一步

了解的三个基本事物SQL-on-Hadoop技术

从评估您的用例开始Hadoop SQL软件选项

大数据用户和供应商希望提高他们的数据Hadoop管理游戏

对于用户来说，Hadoop SQL工具与大数据框架是并行的

SQL-On-Hadoop查询引擎正在成为Hadoop在大数据系统中的常见伴侣，因为IT经理希望能够轻松编程分析应用程序和数据集成作业。

给蜂巢提供帮助

Hadoop SQL天堂中的匹配?

下一步

深入挖掘大数据分析

市场上Hadoop发行版的主要选择

发起者组成小组，以促进Presto SQL查询引擎

Apache Hive.

Starburst用SQL查询引擎发现了新的世界

给蜂巢提供帮助

Hadoop SQL天堂中的匹配?

下一步

相关资源

深入挖掘大数据分析

市场上Hadoop发行版的主要选择

发起者组成小组，以促进Presto SQL查询引擎

Apache Hive.

Starburst用SQL查询引擎发现了新的世界