- 使用您的网络分享此项目:
- 下载
商业信息
Fotolia
数据可视化技术,高级分析的核心工具
数据可视化在高级分析应用中的核心作用包括规划和开发预测模型的用途,以及报告它们产生的分析结果。
预测建模和其他类型的高级分析是通过专门为在大型数据集上运行复杂算法而构建的强大软件完成的,比如像R和Python这样的编程语言,以及像SAS和IBM SPSS这样的分析工具。但许多数据科学家和分析经理会告诉你,他们的很多工作——最终是他们的能力提供有用的信息对业务主管——也严重依赖于更普通的数据可视化工具。
远离分析应用程序的比特播放器,数据可视化在整个过程中担任几个关键角色。从最初的数据探索到推动预测模型要报告分析发现模型,数据可视化技术和软件是数据科学家工具包的关键组件。没有他们,分析团队正在参与几乎不可能的任务,这些任务在蒙住眼睛的同时飞行飞机。
Macys.com高级分析总监赵大庆表示:“数据可视化让我们的分析更加高效。”“人类的大脑只能理解这么多。看到模式的唯一方法就是用你的眼睛。”
Macys.com的高级分析团队 - 零售商Macy of Cuence的旧金山在线手臂 - 主要负责网站的性能和功能。赵建国管理的数据科学家建议推荐发动机,执行A / B测试新的网页布局并帮助营销团队计划并执行有针对性的电子邮件运动。它们可以混合一系列机器学习和预测建模应用,需要各种工具和方法,以及数据可视化在这个过程的早期就开始了。
事实上,赵说,他的团队通过可视化它与之合作的数据来开始每项工作。例如,分析师可能将一些特定变量释放到图表中,以查看它们之间是否存在任何相关性。或者他们将图表基本摘要统计数据 - 像均值和中位数,数据传播和标准偏差度量等的东西 - 以获得数据的范围。探索数据与看一个巨大的电子表格相比,视觉上让他们在建立分析模型时更清楚地知道应该把注意力放在哪里。
Software Smorgasbord.
部分分析师使用Tableau软件探索和可视化数据集。其他人使用可视化组件内置于更复杂的分析软件中,例如SAS,R和H2O开源机器学习平台。有些人甚至是直接在Excel电子表格中可视化数据。“我们是工具 - 不可知论者,”赵说,在进行高级分析环境中,最好支持您的数据科学家们觉得最舒适的任何工具。
在BuildingIQ,一个分析服务提供商,帮助建筑业主和设施管理公司预测和控制他们的能源使用,数据可视化同样帮助缩小数据集,并为开发提供指导预测模型和算法对该公司的分析师来说。BuildingIQ,成立于澳大利亚,现位于加州圣马特奥,从建筑的采暖、通风和空调系统收集数据;识别电力消耗趋势;并寻找建筑可以变得更节能的区域。该公司首席数据科学家鲍里斯·萨夫科维奇(Boris Savkovic)将数据可视化描述为该过程的“第一步”。
萨夫科维奇和他的团队创造领先机器学习算法使用Mathworks的Matlab软件。该算法考虑了诸如历史能源使用,未来的天气预报,功率计读数,来自HVAC压力传感器和能量成本数据的信息的考虑变量。它立即采取了很多,因此分析师首先采用一些简单的数据可视化技术。通常,它们将几个变量放入线图中以查看指标轨道是否在一起。如果是,可能是调查是否存在真正的统计相关性并在数据周围构建分析模型的理由。
“可视化是面包和黄油,”Savkovic说。“它有助于暴露模式随着时间的推移以及不同变量之间的模式。绘制许多变量有助于绘制一张图片可以在给定的建筑物中存在的问题。”
互补技术
预测分析程序在组织中变得越来越普遍,部分原因是大数据架构的兴起和机器学习技术的日益商业化。因此,预测建模和数据可视化工具似乎彼此之间发展出了更大的亲和力。
在TechTarget公司正在进行的一项调查中,数据可视化是最顶尖的商业智能和分析技术,受访者表示,他们的组织在接受调查前的六个月里投资了这些技术。截至8月底,2950名受访者中有43.5%报告了最近的数据可视化购买情况。与此同时,预测分析在受访者被问及的技术列表中排名第四(20.7%)。
不过,在未来12个月的投资计划中,这两项技术基本上并列第一。在3980名受访者中,预测分析占38.3%,而数据可视化占37.8%(见“绑定的纽带”)。这些结果与另一项由TechTarget开展的“BI和大数据分析市场景观研究”的结果一致。基于2015年末和2016年初对612名IT、BI和分析专业人士的调查,该研究将数据可视化列为“支出强度”方面的顶级技术,但将预测分析列为显示对实施兴趣增加的“势头指数”的首位。
两种技术之间的联系不仅适用于分析计划阶段。数据可视化技术和工具还可以帮助保持开发和“培训”预测模型的轨道。在这个高度技术化的分析过程中,流行的数据科学家的形象弓着背在键盘上解开一行行的代码,这与事实相去甚远。但是很容易在括号、括号和命令的迷宫中迷失方向。在这一点上,一张图片可以抵得上一千行代码。
弗吉尼亚州麦克莱恩(McLean)的银行和信用卡公司Capital One的数据科学家布兰登·埃尔格(Brendan Herger)说,他使用的是数据可视化软件在他编写和测试预测模型时监控数据。这有助于他了解模型是否如预期的那样工作,它的输出是否有意义。作为机器学习应用程序的一部分,Herger使用H2O来构建和运行这些模型,他还使用H2O Flow可视化数据。H2O Flow是供应商H2O ai提供的一种基于web的交互式用户界面。
除了为了自己的利益而可视化数据,Flow还让Herger与Capital One的数据科学团队的其他成员分享他的工作结果,这样他们也可以看看并确认他正在建立的预测模型的有效性。“能够抽查并确保数据看起来正确,这是非常酷的,”他说。
全包分析循环
报告结果由预测模型生成是有效的数据可视化技术可以真正退还 - 或者相反,高级分析举措可以出版的地方。如果数据科学家无法展示企业高管和商业管理人员完成了预测模型正在提供有价值的信息,有可能改善内部决策和运营流程,支持可能会干涸,分析项目可以完全削减或放弃。
Macys.com高级分析主任大庆赵
“当你将模型呈现给业务主管时,可视化是至关重要的,”位于阿肯色州史密斯堡(Fort Smith)的货运和物流公司ArcBest Corp.的It子公司ArcBest Technologies的首席业务洞察分析师布雷特·斯派塞(Brett Spicer)说。“他们需要以一种可理解的方式看到(数据)。”
目前,ArcBest在其卡车载体经纪服务中使用了一个预测模型,该服务将希望寻找与具有可用容量的第三方货运公司运输商品的企业客户。Spicer说该模型,在R.开发,帮助Arcbest员工比手动可以更有效地匹配货运载体的负载。他补充说,使用MicroStrategy的BI和Analytics软件创建具有嵌入式数据可视化的报告,以共享有关匹配过程的信息。
同样在Macys.com,Zhao'sAnalytics团队使用数据可视化工具它被用于为营销经理生成关于电子邮件活动表现和流行产品的报告。他说,可视化数据可以让营销人员知道,他们是否在向正确的客户推广正确的产品,从而帮助营销业务更受数据驱动——这对于缺乏高级定量分析技能的商业用户来说,是很难实现的。
“可视化让更广泛的受众可以访问数据,这有助于发展组织的分析文化,”赵说。
将上下文添加到原始数据
在预测建模和预测性建模中分析的大多数数据大数据分析项目只不过是一系列和零。独自一下,数据并不意味着太多。它需要上下文,这就是数据可视化可以提供的内容。
Omega Point Research Inc.销售的分析软件使用机器学习算法,根据一系列经济指标检查投资组合,以评估潜在的金融风险。该平台是围绕Spark处理引擎的Databricks分布和Spark的MLlib机器学习库构建的,由一个博士团队开发,其中一些人有在瑞士CERN研究实验室从事高能粒子物理工作的经验。但对这家纽约公司的联合创始人兼首席执行官奥梅尔·雪松(Omer Cedar)来说,从战略上讲,这家公司机器学习模型的技术能力并不比向投资经理提供具有视觉吸引力的报告的能力更重要。
对于客户来说,Omega Point创建了一个仪表板,在通过市场资本化衡量的全球范围内的各种金融指标对各种金融指标的投资组合。可视化是使用的开源可视化库并反应,一个用于设计用户界面的JavaScript库在Facebook上创建。
“我们对可视化部分的关注与对机器学习的关注一样重要,”雪松说,并补充说,该公司算法生成的分析数据“除非以直观的方式可视化,否则对人类没有用处。”
下一个步骤
数据可视化技术在大数据分析中发挥重要作用
可视化数据的工具是使功能更加丰富和复杂
专注于使用数据可视化工具应该总是对业务有价值吗