数据准备
数据准备是收集、组合、结构化和组织数据的过程,以便将数据用于商业智能(BI),分析和数据可视化应用程序。数据准备的组件包括数据预处理,分析,清洁,验证和转型;它通常还涉及从不同内部系统和外部源的拉动数据。
数据准备工作由信息技术(IT),BI和数据管理团队完成,因为它们将数据集集成到加载到a数据仓库, NoSQL数据库或数据湖当开发新的分析应用程序时。此外,数据科学家,其他数据分析师和业务用户可以使用自助数据准备工具自己收集和准备数据。
数据准备通常被称为数据准备。它也被称为数据争吵,尽管一些从业者在狭义上使用这个术语,将数据清理、结构化和转换作为整个数据准备过程的一部分,这与数据预处理阶段有所不同。
数据准备目的
数据准备的主要目的是确保所阅读的数据处理和分析的原始数据是准确的,并且结果BI和分析应用程序将有效。数据通常以缺少值,不准确或其他错误创建。此外,单独的数据集通常具有需要协调的不同格式。纠正数据错误,验证数据质量数据集的连接是数据准备过程的重要组成部分。
数据准备还包括寻找要包含在分析应用程序中的相关数据,以确保它们提供分析师或业务用户正在寻找的信息。数据也可以被丰富和优化,使其更有信息和有用——例如,通过混合内部和外部数据集,创建新的数据字段,消除异常值和解决可能扭曲分析结果的不平衡数据集。
另外,BI和数据管理团队可以利用数据准备过程来实现为业务用户提供数据集分析。这样做有助于简化和指导自助式BI应用程序的业务分析人员,行政人员和工人。
数据准备过程中的步骤
准备数据的过程包括几个不同的步骤。不同数据准备供应商和数据专业人员列出的步骤中存在变化,但该过程通常涉及以下任务:
- 数据收集。相关数据从操作系统,数据仓库和其他数据源收集。在这一步,BI团队的成员,其他数据专业人员和收集数据的最终用户自己应该确认这些数据非常适合计划中的应用程序的目标。
- 数据发现和分析。下一步是探讨收集的数据,以更好地了解它包含的内容以及需要做什么,以便为预期用途做好准备。数据分析帮助识别数据集中的模式、不一致、异常、缺失数据和其他属性和问题,以便解决问题。
- 数据清理。在此步骤中,将校正已识别的数据错误,以创建准备处理和分析的完整和准确的数据集。例如,错误的数据被删除或固定,缺失的值被填充,不一致的条目被协调。
- 数据结构。此时,数据需要结构,建模和组织成统一的格式,以满足计划的分析用途的要求。
- 数据转换和丰富。在结构化数据方面,通常必须对其进行转换,使其保持一致,并将其转换为可用的信息。根据需要,数据充实和优化进一步增强数据集,以产生所需的业务洞察。
- 数据验证和发布。为了完成准备过程,对数据运行自动化例程,以验证其一致性、完整性和准确性。然后将准备好的数据存储在数据仓库或其他存储库中,供使用。
数据准备的好处
数据科学家经常抱怨他们花费大部分时间定位和清理数据而不是分析它。在进行有效的数据准备过程的大效益是它们和其他最终用户可以花费更少的时间找到和结构化数据,而是更多地关注数据挖掘以及数据分析——交付业务价值的bi相关活动。例如,可以更快地完成数据准备,准备好的数据可以自动提供给用户进行重复分析。
一个管理良好的数据准备程序还可以帮助组织完成以下工作:
- 确保用于BI的数据,机器学习,预测分析和其他分析应用程序有足够的质量水平,以产生可靠的结果;
- 避免在准备可用于多个应用程序的数据时重复工作;
- 以经济有效的方式准备数据进行分析;
- 识别和修复数据问题,否则可能无法检测到;
- 做出更明智的商业决策,因为高管可以获得更好的数据;和
- 从BI和分析计划中获得更多的业务价值和更高的投资回报(ROI)。
有效的数据准备在有数据湖的大数据环境中尤其有用Hadoop集群,通常以原始形式存储大量结构化、半结构化和非结构化数据。在许多大数据应用中,数据准备在很大程度上是一项自动化的任务:机器学习算法可以通过检查数据字段、自动填充空白值、修复错误或重命名字段来加快速度,以确保数据集连接时的一致性。
数据准备工具和市场
数据准备是一项耗时的任务,可能会把熟练的BI、分析和数据管理从业者从更高价值的工作中拉出来,特别是在分析应用程序中使用的数据量持续增长的情况下。然而,各种软件厂商已经引入了自助式数据准备工具自动化数据准备方法,使数据专业人员和业务用户能够以简化的交互式方式发现、访问、配置、清理和转换数据。
在收集数据并协调之后,数据准备软件通过工作流运行文件,在此期间将特定操作应用于它们。例如,该步骤可以涉及创建聚合来自预先存在的字段的计数或应用统计公式的新字段,例如线性或逻辑回归对数据进行建模。在完成工作流之后,数据将输出到最终文件中,该文件可以加载到数据仓库或其他要分析的数据存储中。
自助数据准备工具通常还具有图形用户界面(gui),这些图形用户界面旨在简化数据准备过程中的各个步骤。
在2019年4月的一份关于数据准备市场的报告中,咨询公司Gartner表示,可用的工具已经从基本的自助服务功能发展到支持企业规模的BI和分析数据集的创建。然而,它警告说,市场“拥挤而复杂”,从数据准备专家到将数据准备软件整合到BI、数据科学或其他软件的供应商,都有多种选择数据集成平台。Gartner建议组织评估工具的扩展能力和功能,如连接性,机器学习自动化和数据编目。
专注于自助数据准备的供应商包括Paxata和Trifacta。Alteryx, SAS, Tableau, Tibco Software和其他BI和分析供应商也支持数据准备,以及各种数据集成和管理供应商,如Altair, Boomi, Datameer, IBM, Infogix, Informatica, SAP, Talend和Tamr。