Fotolia
为什么越来越多的人开始使用图表分析技术来分析大数据
由于不同的原因,图表分析在各个行业都得到了应用。继续往下读,看看他们如何改进组织决策、网络分析、生产等等。
如果你想了解关系,图表分析是最好的方法。虽然图数据库和图论并不是什么新东西,但图分析终于准备好迎接黄金时代了。
“我们需要一个真正具有弹性的计算环境,才能让图形(分析)真正发挥作用,”Gartner杰出的副总裁分析师马克·拜尔(Mark Beyer)说。“我们需要一个弹性的计算环境来弄清楚在图表中需要什么有意义的边界。”
在云计算由于可用,很难确定在实验室环境之外的图应该是多大或多大。但现在这项技术变得更简单了,对大数据使用图表分析变得更加流行。
什么是图形分析?
图表分析使用算法探索图数据库中条目之间的关系,包括不同的人、事务或组织之间的联系。使用案例包括接触追踪、网络安全、药物交互、推荐引擎、社交网络和供应链。
数据科学家和数学家Adrian Zidaritz说,从竞争的角度来看,企业不能只选择不同数据点之间的众多关系中的一个子集将它们挤到关系表中。
“对这些图数据进行分析需要对当前的深度学习算法进行调整,以利用图结构,而不是关系表的平面几何结构,”Zidaritz说。”这个词几何深度学习几年前这种用法还很少见,但现在却越来越多了。”
图可以被转换成向量,用线性技术分析,比如文本分析。
“文本中的单词和图表中的节点都被上下文强有力地定义了,”Zidaritz说。“正如j·r·费斯(J.R. Firth)所说,‘从它的同伴中你就能知道一个词。’”同样地,你可以通过节点所在的公司来了解节点。”
运行中的图形分析
LatentView Analytics首席技术官兼数据服务主管拉梅什•哈里哈兰(Ramesh Hariharan)表示,对大数据使用图表分析可以更快地做出决策,包括自动决策。
Hariharan说:“推荐引擎是图表分析的经典应用。“另一件事是产品趋势预测。(消费者)经常谈论健康和人际关系趋势。公司想知道这些趋势中哪些是重要的,哪些是流行的。”
马克•拜尔尊敬的Gartner副总裁分析师
一个明显的用例是识别社交媒体上的影响者,以及哪些信息正在像病毒一样传播。事实上,图表分析可以分析各种网络。
“如果你在一个关系数据库中有数据,你想知道在一个组织中有多少人的职位高于我,编写一个SQL查询来实现这一点是非常困难的。用图表处理要容易得多,”哈里哈拉说。“图表帮助我们很容易地发现关系,这样我们就可以试着理解(他们的)属性。”
电子表格咨询公司Senacea的商业智能专家迈克•奇扎诺夫斯基(Mike Chrzanowski)表示,他的团队使用图表来确定是什么原因导致输出出错。事实证明,资源匹配是问题所在。通过避免有风险的配对,它们能够快速地进行修复生产过程。
Chrzanowski说:“问题的视觉表现帮助我们从信息噪音中脱颖而出,专注于找到一个精简而有效的解决方案。”“图表可以帮助突出元素和数百万现有因果路径之间复杂关系的庞大数据集中的重要关系。它可以成为从数据到影响决策的信息过程中的一块垫脚石。”
然而,使用图表有时具有挑战性。例如,一些社交媒体的影响者拥有不成比例的联系数量。
哈里哈兰说:“巴拉克·奥巴马的推特账户有1.276亿粉丝,是该平台上粉丝最多的。”“用图表分析来探索他的联系,对计算来说是一项挑战,而且,由于数量庞大,分析起来可能更难。”
期待数据管理的发展
据高德纳咨询公司称数据管理的未来始于2019年,与图形分析相关。Gartner在2019年的一份报告中提出了一些有趣的问题,比如如果我们有足够的数据会怎样?如果我们有这么多的数据,这些数据试图找到自己呢?
“如果我在数据集中看到相关性,而且这些相关性不断重复出现,那可能就不再是相关性了。可能存在某种程度的因果关系,”拜尔说。“一旦你有了这么多数据,你就可以开始弄清楚数据是如何结合在一起的,相关性,因果性,真正强制的完整性等等。你可以充分利用弹性环境。”
拜尔还说,一个根本性的转变正在发生,从一个期望的范例到一个经验的范例。
拜尔说:“传统的元数据和传统的分析被设计成一种特定的行为方式。“我们总是专注于迫使事情按照预期运行,识别异常值和错误,迫使错误得到纠正,并将异常值分割开来,进行单独管理。当你想到COVID-19大流行和疾病管理时,所有关于我们将如何做的假设都不再正确,所以我们必须转向经验反应模式。”
Gartner发布了一份关于如何利用大数据图形分析来解决流行病问题的特别报告。疾病管理需要将患者分组,比如有潜在疾病的人或服用特定药物的人。然而,还有其他考虑因素,如供应链中断,这可能会影响呼吸机或药品的供应。
拜尔说:“现在,我们必须分析这些经历,为了分析这些经历,你需要分析所有的联系。”