文本挖掘(文本分析)
文本挖掘是探索和分析大量的过程非结构化文本数据通过软件辅助,可以识别数据中的概念,模式,主题,关键字和其他属性。它也被称为文本分析,尽管有些人之间的区别是两种术语;在该视图中,文本分析指的是使用文本挖掘技术进行排序的应用程序数据集。
由于发展,文本挖掘对数据科学家和其他用户变得更加实用大数据平台和深度学习可以的算法分析大规模套装非结构化数据。
挖掘和分析文本有助于组织在公司文件,客户电子邮件,呼叫中心日志,逐字调查评论,社交网络帖子,医疗记录和基于文本数据的其他来源中找到潜在有价值的商业洞察。越来越多地,文本挖掘能力也被纳入AI聊天和虚拟机构该公司部署为为客户提供自动回复,作为其营销,销售和客户服务业务的一部分。
文字挖掘如何运作
文本挖掘本质上类似数据挖掘,但专注于文本而不是更具结构化的数据形式。然而,文本挖掘过程中的第一步之一是以某种方式组织和结构数据,因此可以进行定性和定量分析。
这样做通常涉及使用自然语言处理(NLP.)技术,适用计算语言学解析和解释数据集的原则。
前期工作包括分类,群集和标记文本;总结数据集;创造分类;并提取有关单词频率和数据实体之间的关系的信息。然后运行分析模型以生成可以帮助推动业务策略和操作动作的调查结果。
过去,NLP算法主要基于统计或基于规则的模型,为数据集中寻找的内容提供了方向。但是,在2010年中期,深入学习模式,以较少的监督方式作为文本分析和其他的替代方法高级分析涉及大数据集的应用程序。深度学习用途神经网络使用迭代方法分析数据,该方法比传统更灵活和直观机器学习支持。
因此,即使数据科学家在项目开始时,即使数据科学家们没有良好地了解他们在项目开始时,也能够更好地揭示文本数据中的潜在的相似性和关联。例如,无人监督的模型可以将文本文档或电子邮件组织到一组主题中,而没有分析师的任何指导。
文本挖掘的应用
情感分析是一个广泛使用的文本挖掘应用程序,可以跟踪客户的情绪。也被称为意见采矿,情感分析挖掘来自在线评论,社交网络,电子邮件,呼叫中心交互和其他数据源的文本,以识别指向客户的正面或负面情绪的公共线程。这些信息可用于解决产品问题,改善客户服务和计划新的营销活动以及其他事情。
其他常见的文本挖掘包括根据其简历中的措辞,阻止垃圾邮件,分类网站内容,标记保险声称可能是欺诈,分析医疗症状的描述,以辅助诊断,以及将公司文件作为一部分审查电子发现过程。文本挖掘软件还提供信息检索能力,类似于搜索引擎和什么企业搜索平台提供,但这通常只是较高级别的文本挖掘应用程序的元素,而不是本身的用途。
Chatbots回答有关产品的问题并处理基本的客户服务任务;通过使用自然语言理解来这样做(nlu.)技术,NLP的子类别,有助于机器人理解人类的言论和书面文本,以便他们可以妥善响应。
自然语言生成(nlg.)是另一个与挖掘文档,图像和其他数据的相关技术,然后自己创建文本。例如,NLG算法用于写出房地产列表的邻居的描述和解释关键绩效指标追踪商业智慧系统。
文字挖掘的好处
使用文本挖掘和分析来获得客户情绪的深入了解,可以帮助公司检测产品和业务问题,然后在他们成为影响销售的大问题之前解决它们。在客户评论和通信中挖掘文本也可以识别所需的新功能,以帮助加强产品。在每种情况下,该技术都提供了提高整体客户体验的机会,希望能够提高收入和利润。
文本挖掘也可以帮助预测客户流失,使公司采取行动,以便作为其营销的一部分,以潜在的竞争对手丧失潜在的叛逃客户关系管理程式。欺诈检测,风险管理,在线广告和Web内容管理是其他功能可以从使用文本挖掘工具中受益。
在医疗保健中,该技术可能能够根据他们报告的症状帮助诊断患者的疾病和医疗病症。
文本挖掘挑战和问题
文本挖掘可能具有挑战性,因为数据通常模糊,不一致和矛盾。分析它的努力是因差异而导致的含量进一步复杂化句法和语义,以及使用俚语,讽刺,区域方言和技术语言特有的个别垂直行业。因此,必须培训文本挖掘算法,以便在分类,标记和汇总文本数据集时解析此类歧义和不一致。
此外,许多文本挖掘应用中使用的深度学习模型需要大量的培训数据和处理能力,这可以使它们运行昂贵。数据集中的固有偏差是如果数据科学家在模型开发过程中不识别偏差,则可以引导深度学习工具以产生缺陷的结果。
还有很多文本挖掘软件可供选择。提供了数十种商业和开源技术,包括来自主要软件供应商的工具,包括IBM,Oracle,SAS,SAP和TIBCO。