- 与您的网络共享此项目:
- 下载
业务信息
agsandrew——Fotolia
大数据挑战包括用于使用的信息 - 以及什么不是
希望从大数据中获得实际价值的企业,避免压倒性的系统,需要选择他们分析的内容。
RichRelevance Inc.面临着一个典型的大数据挑战:大量数据,却没有足够的时间来分析数据。例如,这家市场分析服务提供商为塔吉特(Target)、西尔斯(Sears)、尼曼(Neiman Marcus)、科尔斯(Kohl’s)和其他零售商运营着一个在线推荐引擎。Hadoop集群上运行,其预测模型必须能够提供产品建议消费者在40到60毫秒——不是一个简单的任务对一个公司有两个pb的客户和产品数据系统,全面,随着零售商更新和扩大他们的在线产品目录。“我们浏览了大量数据,”RichRelevance的副总裁马克·海姆(Marc Hayem)说面向服务的体系结构平台。
我们很容易被这些数据淹没。哈伊姆说,明智地管理它至关重要,既可以确保这家旧金山公司提出的建议与购物者相关,又可以避免花费太多时间和处理资源分析重要数据。该公司采用的方法是将被分析的数据精简为所需的基本元素,以便迅速为购物者提供建议。
历史数据的完整宽度Richrelevance.其客户的客户商店用于定义客户配置文件,这有助于推荐引擎将购物者和产品匹配起来。但是当解析算法在预测模型在实时决定推荐哪些特定产品时,他们只看四个因素的数据:购物者最近的浏览历史、人口统计数据、零售商网站上的产品以及零售商目前正在提供的特别促销。Hayem说:“有了这四个要素,我们就可以决定做什么了。”他还补充说,在这个过程中,诸如过去的购物记录、顾客通常的消费金额以及他们在哪家零售商购物等数据并不重要。
在时代大数据在很多情况下,知道分析应用程序需要什么信息,不需要什么信息,从来没有比这更重要——或者更困难。数据存储成本的下降和Hadoop的崛起数据湖概念使组织更加可行存储大量结构化、非结构化和半结构化数据从内部系统和外部来源收集。但是,如何使用、如何把握未来以及如何错误地抛弃这些问题,可能会带来即时和长期的后果。
即使某个特定的数据集现在看起来不重要,但它将来可能会有用处。另一方面,用无用的数据把Hadoop系统、数据仓库和其他存储库弄得乱七八糟,可能会造成不必要的成本,而且很难在混乱中找到真正的信息宝库。如果不仔细、不明智地考虑需要为特定应用程序分析的数据,就很难从中获得真正的业务利益大数据分析程序。
知道何时说'什么时候'
去年11月,凯捷咨询(Capgemini Consulting)进行的一项调查显示,在226名参与调查的分析、IT和商业专业人士中,只有35%的人这样描述他们的大数据举措成功或非常成功。该调查的一份报告称,其中一个重要原因是,大多数组织“远远不能有效利用(大)数据”。例如,只有35%的受访者表示,他们的组织拥有捕获、整理、验证和保留数据的强大流程,而79%的受访者表示,他们尚未完全整合所有数据源。此外,顶端大数据实施挑战他们引用了包括数据仓库不同组之间缺乏协调和无效的数据治理。
和RichRelevance一样,幸运集团(The Lucky Group Inc.)也试图从分析工作中获得价值。这家位于加州圣塔莫尼卡的公司出版了这本书幸运的该杂志专注于购物,运营着几个与该杂志绑定的会员制零售网站。幸运集团的业务范围很广。它收集月度收入、产品销售以及访问者在其网站上浏览哪些页面的内部数据,其中包括Jewelmint.com.和StyleMint.com。该公司还收集客户数据,包括人们购买的产品和消费金额。它使用Pentaho的数据集成和分析工具将信息拉到MySQL数据库中,然后进行分析。
但是,在分析当前的销售业绩或投影未来需求时,幸运集团的高管和其他最终用户通常不需要手头的所有数据。它销售的产品混合不断变化,客户品味也经常变化。因此,公司的商业智能和数据仓库高级经理Jay Khavani表示,新数据是最有价值的。“2010年的相关内容现在不一定相关,”他指出。“我们不会分析所有数据。”
Lucky Group不是简单地将数据转储到一个中央存储库供业务用户和分析师研究,而是对信息进行划分,主要是按年划分。除了产生更多相关的结果,Khavani说,这种方法通过使分析运行得比其他方法更快,从而节省了时间和资源。但他补充说,用户仍然可以得到他们需要的信息,以便做出更明智的商业决策——例如,哪些产品表现良好,以及近几个月来客户偏好的演变情况。
对的人,遇到对的数据
尽管您缩小了所需的数据类型,但是,预测分析和数据挖掘应用程序也可能无法使用剩余的全部金额。在去年10月的拉斯维加斯软件供应商SAS Institute的2014年首次商业领导系列会议上,哈佛商学院克莱顿克里斯滕森教授表示,他对较大和更广泛的数据集运行预测模型的价值持怀疑态度。“大数据缘故的大数据只是给了我们更多的数据,这并不是我认为我们需要的洞察力,”他说。
有效的预测模型的关键是找到正确的数据,准确和快速地回答问题,克里斯滕森补充说。他说,为了实现这一点,组织应该确保他们拥有熟练的数据科学家或其他有经验的分析专家,他们可以精心地收集所需的数据,然后建立设计良好的分析模型,以客观的方式提取所需的结果。
但波士顿资本市场交流总裁的Sarah Miller表示,数据科学家不能自行自自。分析服务公司提供投资组合管理人员,并根据持续分析社交媒体职位和商业新闻故事的持续分析,该公司提供企业债券如何履行债券市场的其他信息。它将分析结果与更多传统数据相结合,如过去的特定债券和市场的过去的性能,以产生预测。
Biller说,为了理解这些不同的数据,资本市场交易所投资了一个拥有专业数据管理和分析技能的团队。该过程从一个数据架构师谁为分析构造数据。然后一些数据科学家开发并运行分析数据的算法,使用一个自主研发的系统和R编程语言。接下来是一组业务分析师和数据可视化专家,他们解释结果,并准备要在基于Web的仪表板上呈现给公司客户的调查结果。
管理复杂性,而不仅仅是数量
正如柜员的经验所显示的那样,更多的数据比卷更多。许多组织正在尝试的各种数据类型融入大数据分析应用这也使得项目经理的工作变得困难。除了将所有数据收集在一起并确定何时分析什么这一技术挑战之外,组织问题还会使流程复杂化。
Eugene Kolker,首席数据官西雅图儿童医院他在去年10月由IBM主办的一次小组讨论中说,他的主要职责是管理由于需要分析许多不同类型的数据而产生的复杂性。和其他医疗保健提供者一样,西雅图儿童医院依赖于多个部门的多种系统,包括电子健康记录,实验室信息系统和调度应用程序。Kolker表示,该系统以不同的格式生成数据,使其成为组合所有信息的挑战。
他补充说,协调不同数据类型的技术方面可能很棘手,但这是他的大数据挑战中最不困难的。更大的问题是数据所有者过分保护他们系统中的信息。科尔克说,为了使有效的分析成为可能,他与部门经理密切合作,并试图与他们建立良好的工作关系。“人的角度不仅仅是重要的,”他说。“这是一件大事。”
正是这种对获取商业价值的关注,才能使大数据分析计划易于管理——并获得成功。最重要的是,收集数据并不是最重要的部分——真正重要的是你如何处理这些数据。
下一个步骤
了解更多关于处理大数据的挑战
为什么有效的治理能否帮助企业最大限度地利用大数据
亚马逊的工具是如何解决大数据问题的大数据分析
相关资源
- CW APAC - 1月2021:趋势表 - CIO趋势-ComputerWeekly.com
- AI |IOT |大数据:解锁云中的创新-ComputerWeekly.com
- 保护大数据分析-comforte AG
- 每周计算机 - 2017年1月24日:世界领导人讨论社会动荡的风险......-ComputerWeekly.com