此内容是基本指南的一部分: 大数据分析工具,趋势和最佳实践指南

基本指南

浏览部分
管理 学习应用最佳实践并优化您的操作。

大数据环境中的分析模型通常最好留下

在许多情况下,数据分析师可以通过检查大数据系统中可用的数据样本来查找他们正在寻找的结果。

大数据环境为数据科学家和其他分析专家提供了大量的信息。但在很多情况下,经验丰富的数据分析师和顾问表示,为大数据分析应用开发有效分析模型的关键是违反直觉的:从小处入手。

拥有大数据池并没有改变分析建模旅游网站运营商TripAdvisor LLC的业务部门TripAdvisor的分析总监迈克尔•贝里(Michael Berry)表示,这是一种预测性分析和数据挖掘技术。在2013年波士顿召开的世界预测分析大会(Predictive Analytics World)上,Berry在一场主题演讲中表示,隐藏在大数据集合中的模式和关系通常可以通过查看可用信息的代表性样本来发现,而无需进行全部梳理。

“我不倾向于使用非常多的数据[在分析模型中],”贝利说。“模式迅速揭示自己。当您有足够的数据来发现模式时,如果添加更多数据,结果不会更改。”通常,他补充说,他在分析查询中获得更好的答案“如果我在较短的时间内看出比我花更多的时间,请看更多的数据并查看更多数据。”

马萨诸塞州温彻斯特市的咨询服务公司Rexer Analytics的总裁卡尔·雷克斯表示赞同:“抽样是一件强有力的事情。在开发预测潜在客户流失的分析模型时,大型公司的分析团队可能会访问数十万客户的数百万条记录。“但是,”雷克斯说,“你需要使用所有这些数据吗?”很多时候,答案是否定的。”

小样本大小产生大结果

匹兹堡的型号局LLC的高级顾问和培训总监Tony Rathburn通常在他建立时只有大约5,000个数据记录开始预测模型对客户来说,即使有更多的信息可供索取。大多数情况下,为了识别建模者正在寻找的客户行为或其他参数预测分析应用程序拉斯本说,只需要“手榴弹关闭”。他在那里提供了良好的选择数据,他补充说 - 并在分析模型中抛出更多数据,而不会对采样进行采样,通过向等式添加“噪声”,可以使它们不太准确。

存储技术供应商NetApp Inc.自动收集其在客户网站的产品中的性能监测数据;关于Petabyte存储在Hadoop集群中,并且设备上的设备上的传感器每周发送多达1 TB的新数据,Sunnyvale,加利福尼亚州Sunnyvale的高级数据仓库建筑师和商业分析师,Company的AutoSupport操作。Patil和他的同事使用数据来尝试在发生之前预测设备故障,以防止停用并尽量减少对客户的中断。

更多关于建立有效的分析模型

观看咨询师埃里克·西格尔关于如何进行抬升建模的问答视频

阅读技巧来帮助您避免开发有缺陷的预测模型

获取有关如何促进预测分析结果的信仰的用户和分析师建议

但是AutoSupport分析团队建立其预测模型关于样本数据集,而不是整个数据仓库。为了找到它正在寻找的模式,“我们不需要分析所有的数据,”帕蒂尔说。创建有效的样本需要一些努力和实验,但一旦它们到位,他说,超越它们只是“添加更多不必要的数据”。

不是所有的大数据分析应用程序可以通过采样来完成。例如,提升建模是一种预测性分析的形式,旨在精确定位可以被说服购买产品的潜在客户,以便营销努力取决于他们而不是以某种方式编制主意的人。基于明尼阿波利斯的广告局Carmichael Lynch正在使用在线广告购买平台供应商Rocket Full Inc的自动分析服务。分析数百万的汽车经销商交易和其他数据记录,以推动美国客户斯巴鲁的提升建模计划。

用数据变量填充它

火箭燃料的分析模型在大约300,000个不同的变量的基础上,从邮政编码和网页浏览活动从邮政编码和网络浏览活动进行了约300,000个不同的变量来评分,例如人口统计数据,性别,种族和当地天气模式等因素。“我不知道是否同意你有足够的饱和点[数据],”Carmichael Lynch的分析策略家Peter Amstutz表示,在预测分析世界的斯巴鲁计划的演讲之后。“也许那里有另一个变量可以预测。”

尽管Rathburn建议采用“小数据”的方法来规划和建立分析模型,但他说拥有一个大数据全配可供选择。“它类似于一个图书馆,”他说。“你不会读所有的书,但你需要在不同的时间读不同的书。”

即使正在使用采样技术,也能够扩大对大数据的集合可以扩展可行的分析建模范围,即使在San Diego的咨询雅培分析总裁Dean Abbott表示。例如,人口数据可以切成较小的地理区域以进行建模,因为有更多的记录来帮助平滑数据,并且仍然足以创建统计有效的样本。“你可以建立更复杂的模型,这意味着您可以可靠地构建更精确的模型,”Abbott表示。

Craig Stedman是SearchBusinessAnalytics华体会体育官网-意甲赞助商的执行编辑。给他发电子邮件(电子邮件保护)在推特上关注我们:@bizanalyticstt.

深入挖掘大数据分析

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭