发布时间:2022-07-17 09:53:45 人气:1904 来源:天云祥客服外包
数据清理是检测和删除数据中的不一致性和错误以提高数据质量的过程。当集成多个数据源时,对数据清理的需求显著增加。这个使数据准确一致的过程充满了许多问题,下面提到的很少:
大量数据:目录
1大量数据:2个拼写错误:3个词汇错误:4个错场值:5个域格式错误:6个不规则:7个缺失值:8个矛盾:9个重复:10个完整性约束违规或非法值:11个隐值和缩写:12个违规属性依存关系:13个错误引用:14个嵌入值:应用程序(如数据仓库)不断从各种来源加载大量数据,并且携带大量脏数据(数据错误)。在这种情况下,数据清理的任务变得既重要又艰巨。拼写错误:拼写错误主要是由于键入错误。拼写错误可以检测并纠正常见单词和语法错误,但是,由于数据库限制了大量独特的数据,很难在输入级别检测拼写错误。此外,姓名、地址等数据中的拼写错误始终难以识别和纠正。词法错误:由于数据项的结构和指定格式之间的名称差异,数据中会出现词法错误。例如,一个特定的数据库记录了姓名、年龄、性别和身高的属性。当个人未输入中间值(如年龄)时,以下属性的数据将更改字段。在上述情况下,当个体未输入年龄值、性别值时,即男性被解读为年龄,身高值被解读为性别。
失磁值:失磁值问题发生在输入的值就格式而言是正确的,但不属于该字段时。例如在城市领域,记录的值是德国。
域格式错误:当特定属性的值正确但不符合域格式时,会发生域格式错误。例如,一个特定的名称数据库要求名字和姓氏用逗号分隔,但输入没有逗号。在这种情况下,虽然输入可能是正确的,但它不符合域格式。
不规则:不规则处理单位或值的非统一使用。示例在输入员工工资时,使用不同的货币提及工资。这类数据需要主观解释,往往会导致错误的结果。
缺失值:缺失值是由于在收集数据时出现遗漏而导致的。它们表示在数据输入过程中值不可用。缺失值中包括伪值和null值。例如,电话号码字段中的000-0000和999-9999。
矛盾:矛盾错误发生在同一真实世界实体由数据中的两个不同值描述时。同一个人的个人数据库示例