这就是任何其处理或分析对您没有商业价值的东西。此类数据可能会扭曲您的业务分析结果。 一个很好的例子是为特定汽车品牌构建预测维护模型。在这种情况下,您不需要所有车型的数据来训练您的机器学习算法。因此,您将删除包含不相关车辆条目的行。 如果您正在研究人群的总体健康状况,您也会做类似的事情。在这种情况下,您的表格不需要“电话号码”列。 但是,请确保要删除的功能对于您正在分析的数据集来说不是必需的。咨询其他利益相关者,以确保您不会丢失有一天可能需要的数据。
删除重复数据
重复数据使用服务器或处理资源而不增加价值。此外,重复的记录可能会影响您对客户的了解。因此,从仓库中删除重复数据是数据清理过程的关键部分。 记录重复可能是由各种情况导致的。一个例子是当您从多个源获取数据时。例如,电子表格文件可能具有与CRM 记录相同 沙特阿拉伯电报号码数据 的客户信息。抓取同一网页两次也会导致此问题。 考虑一下客户通过两个单独的表单提交两个不同的电子邮件地址的情况。将此信息视为属于两个不同客户的可能性很高。数据清理将有助于发现任何此类重复。然后,您可以合并这些记录或删除其中一项。 数据库表或文件中具有相同唯一 ID 的任何两条记录都是重复的。
数据标准化
数据清理合并这些记录以消除冗余。合并规则可能因组织而异。 结构性错误/差异 结构错误有多种类型,从拼写错误到大小写不一致。这些可能是分类数据或分组数据集中的问题,因此需要清理。 拼写错误可能源于人们输入字符串的不同方式。将“性别”的示例视为分类变量。在这种情况 CL列表 下通常应该有两个类别:男性和女性。但您可能会在数据集中遇到两个以上不同类别的变量。例如: 中号 男性 女性。 F 数据清理有助于识别此类标签错误或大写不一致的类别。示例中的结果将是对分组数据集(即男性和女性)进行更清晰的分类。 考虑使用条形图来发现数据集中的结构或大写错误。