大数据分析
大数据分析是审查大数据的往往是揭示信息的大数据 - 例如隐藏的模式,相关性,市场趋势和客户偏好 - 这可以帮助组织做出明智的业务决策。
在广泛的规模上,数据分析技术和技术为组织提供了一种分析数据集的方法并收集新信息。商业智能(BI)查询回答有关业务运营和性能的基本问题。
大数据分析是一种形式先进的分析它涉及复杂的应用程序,其中包含预测模型、统计算法和由分析系统支持的假设分析等元素。
为什么大数据分析很重要?
组织可以使用大数据分析系统和软件来做出数据驱动的决策,从而改善与业务相关的结果。这些好处可能包括更有效的营销,新的收入机会,客户个性化和提高运营效率。有了有效的策略,这些好处可以提供比对手更有竞争力的优势。
大数据分析如何工作?
数据分析师,数据科学家,预测建模,统计学家和其他分析专业人员收集,流程,清洁和分析常规BI和分析程序未使用的其他形式的数据卷。
以下是数据准备过程的四个步骤的概述:
- 数据专业人员搜集来自各种不同来源的数据。通常,它是一个混合半结构化和非结构化数据。虽然每个组织将使用不同的数据流,一些常见的来源包括:
- 互联网单击数据;
- web服务器日志;
- 云应用;
- 移动应用程序;
- 社交媒体内容;
- 来自客户电子邮件和调查响应的文本;
- 手机记录;和
- 机器数据捕获传感器连接到物联网(物联网)。
- 数据是处理。数据采集后存储在数据仓库或数据湖,数据专业人员必须组织,配置和分区数据以用于分析查询。彻底的数据处理可以从分析查询中实现更高的性能。
- 数据是清洗的质量。数据专业人员使用脚本工具或企业软件清理数据。他们寻找任何错误或不一致,如重复或格式错误,并组织和整理数据。
- 收集的,处理和清洁数据是分析使用Analytics软件。这包括以下工具:
- 数据挖掘,通过数据集SIFT搜索模式和关系
- 预测分析,建立模型,以预测客户行为和其他未来的发展
- 机器学习,哪种水龙头算法分析大数据集
- 深度学习,这是一个更先进的机器学习分支
- 文字矿业统计分析软件
- 人工智能(AI)
- 主流商业智能软件
- 数据可视化工具
关键的大数据分析技术和工具
许多不同类型的工具和技术用于支持大数据分析过程。用于启用大数据分析过程的通用技术和工具包括:
- Hadoop.那这是一个用于存储和处理大数据集的开源框架。Hadoop可以处理大量的结构化和非结构化数据。
- 预测分析硬件和软件,处理大量复杂数据,并使用机器学习和统计算法,对未来事件的结果做出预测。企业使用预测分析工具进行欺诈检测、营销、风险评估和运营。
- 流分析用于过滤,聚合和分析可以存储在许多不同格式或平台的大数据的工具。
- 分布式存储复制的数据通常在非关系数据库上。这可以是针对独立节点故障,丢失或损坏的大数据的措施,或提供低延迟访问。
- NoSQL.数据库,它们是非关系数据管理系统,在处理大型分布式数据集时非常有用。它们不需要固定的模式,这使它们成为原始和非结构化数据的理想选择。
- 数据湖是一个大型存储库,可在需要之前保存本机格式原始数据。数据湖泊使用平面架构。
- 一种数据仓库那它是一个存储库,存储由不同来源收集的大量数据。数据仓库通常使用预定义的模式存储数据。
- 知识发现/大数据挖掘工具,使企业能够挖掘大量结构化和非结构化的大数据。
- 内存数据结构,它在系统内存资源中分发了大量数据。这有助于提供数据访问和处理的低延迟。
- 数据虚拟化,使数据访问不受技术限制。
- 数据集成软件,这使得能够在不同的平台上简化大数据,包括Apache,Hadoop,MongoDB和Amazon EMR。
- 数据质量软件,清洁并丰富大数据集。
- 数据预处理软件,这准备了数据进行进一步分析。数据格式化并清除非结构化数据。
- 火花,这是用于批处理和流数据处理的开源集群计算框架。
大数据分析应用程序通常包括来自内部系统和外部源的数据,例如由第三方信息服务提供商编制的消费者的天气数据或人口统计数据。此外,随着用户期待执行的,流分析应用程序在大数据环境中变得常见实时分析通过Spark、Flink和Storm等流处理引擎将数据输入Hadoop系统。
早期的大数据系统大多部署在现场,特别是在收集、组织和分析大量数据的大型组织中。但云平台供应商,如亚马逊网络服务(AWS)和微软,已经使在云中建立和管理Hadoop集群变得更容易。对于像Cloudera-Hortonworks这样的Hadoop供应商来说也是如此,Cloudera-Hortonworks支持在AWS和AWS上分发大数据框架微软Azure.云。用户现在可以在云中旋转群集,只要他们需要,就可以运行它们,然后将它们脱机,并使用基于使用的定价来脱机,这不需要持续的软件许可证。
大数据变得越来越有益供应链分析。大供应链分析利用大数据和定量方法来增强整个供应链的决策过程。具体来说,大型供应链分析扩展了数据集,从而超越了传统的企业资源规划(ERP.)和供应链管理(SCM)系统。此外,大型供应链分析在新数据源和现有数据源上实现了高效的统计方法。
大数据分析使用和示例
以下是一些大数据分析如何帮助企业的例子:
- 客户获取和保留。消费者数据可以帮助公司的营销努力,这可以采取对提高客户满意度的趋势。例如,个性化引擎对于亚马逊,Netflix和Spotify可以提供改进的客户体验并创造客户忠诚度。
- 有针对性的广告。来自过去购买的来源的个性化数据,交互模式和产品页面查看历史可以帮助为个人级别和更大的尺度生成对用户的引人注目的目标广告活动。
- 产品开发。大数据分析可以提供洞察,以了解产品存活率,开发决策,进展测量和转向,以适应商务客户的指导。
- 价格优化。零售商可以选择使用和模拟来自各种数据源的数据来最大化收入的定价模型。
- 供应链和通道分析。预测分析模型可以帮助先发制人补货,B2B供应商网络,库存管理,路线优化和通知潜在的延迟交货。
- 风险管理。大数据分析可以从数据模式中识别新的风险,从而制定有效的风险管理策略。
- 改善决策。Insights业务用户从相关数据中提取相关数据可以帮助组织更快和更好的决策。
大数据分析效益
使用大数据分析的好处包括:
- 快速分析来自不同来源的大量数据,以许多不同的格式和类型。
- 迅速做出更好的知情决策,以有效策略化,这可以有利和改善战略决策的供应链,运营和其他领域。
- 节省成本,这可能是由新的业务流程效率和优化产生的。
- 更好地理解客户的需求、行为和情感,可以带来更好的市场洞察力,并为产品开发提供信息。
- 改进,更好的通知风险管理从数据的大量样本尺寸绘制的策略。
大数据分析面临的挑战
尽管使用大数据分析具有宽大效益,但其使用也具有挑战:
- 数据的可访问性。具有较大数量的数据,存储和处理变得更加复杂。应正确存储和维护大数据,以确保它可以由不经验丰富的数据科学家和分析师使用。
- 数据质量维护。具有从各种来源和不同格式的高卷数据,数据质量管理对于大数据需要大量的时间,努力和资源来正确维护它。
- 数据安全。大数据系统的复杂性提出了独特的安全挑战。在这种复杂的大数据生态系统中正确解决安全问题可能是一个复杂的事业。
- 选择合适的工具。从市场上大量可用的大数据分析工具和平台中进行选择可能会令人困惑,因此组织必须知道如何选择符合用户需求和基础设施的最佳工具。
- 潜在缺乏内部分析技能和招聘经验丰富的数据科学家和工程师的高成本,有些组织正在难以填补空白。
大数据分析的历史和增长
第一个术语“大数据”首先用于在20世纪90年代中期提及增加数据量。2001年,Doug Laney,然后是咨询元集团Inc.的分析师,扩大了大数据的定义。这种扩展描述了增加:
- 组织存储和使用的数据量;
- 组织产生的各种数据;和
- 速度或速度,其中正在创建和更新数据。
这三个因素被称为3V大数据。Gartner在收购Meta Group和2005年招聘Lane后推广了这一概念。
另一个大数据历史上的重大发展Hadoop分布式处理框架的发布。Hadoop是作为Apach.2006年开源项目。这将种植用于在商品硬件顶部的集群平台的种子,可以运行大数据应用。软件工具的Hadoop框架广泛用于管理大数据。
到2011年,大数据分析开始在组织和公众眼中举行坚定的持有,以及Hadoop和各种相关的大数据技术。
最初,随着Hadoop生态系统的形成和成熟,大数据应用主要被Yahoo、谷歌、Facebook等大型互联网和电子商务公司以及分析和营销服务提供商使用。
最近,更广泛的用户将大数据分析带到一个关键技术驾驶数字转型。用户包括零售商,金融服务公司,保险公司,医疗组织,制造商,能源公司等企业。