admin管理员组

文章数量:1531460

2024年6月26日发(作者:)

1)请阐述什么是数据清洗?

数据清洗(Data cleansing/Data cleaning/Data scrubbing)可以有多种表述方式,其定

义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。例如,在数据

仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,要考虑数据仓库的集成性与面

向主题的需要(包括数据的清洗及结构转换)。不过,现在业界一般认为,数据清洗的含义是

检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背

景下的白噪声。

2)数据清洗有哪些应用领域?

目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。

3)数据清洗的原理是什么?

数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据

转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为手工清洗和自动清

洗。

4)什么是数据标准化?

数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落

入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数

量级等特征属性的差异,将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的

数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。

5)数据清洗的工具有哪些?

OpenRefine又叫做GoogleRefine,是一个新的具有数据画像、清洗、转换等等功能的工

具,它可以观察和操纵数据。DataCleaner是一个简单,易于使用的数据质量的应用工具,

旨在分析,比较,验证和监控数据。它能够将凌乱的半结构化数据集转换为所有可视化软件,

并可以读取的干净可读的数据集。此外,DataCleaner还提供数据仓库和数据管理服务。Kettle

是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽

取高效稳定。Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具。此外,在进行

数据清洗时,还可以使用Excel进行最简单的数据清洗工作。也可以使用编程工具Python

来实现数据清洗

6)请简述如何安装常见的数据清洗软件。

要安装 Kettle必须首先从网上下载,此外,由于 Kettle是基于java开发的,所以需要java

环境。jdk网址:/technetwork/java/javase/downloads/ 。

1)下载,首先从官网上下载jdk。

2)配置path变量,下载完之后进行安装,安装完毕后要进行环境配置。在我的电脑、

高级、环境变量中找到path变量,并把java的bin路径添加进去用分号隔开,注意要找到

自己安装的对应路径。例如D:Program FilesJavajdk1.8.0_181bin。

3)配置classpath变量,在环境变量中新建一个classpath变量,里面的内容要填java

文件夹中lib文件夹下 和的路径。例如D:Program

FilesJavajdk1.8.0_,D:Program FilesJavajdk1.8.0_。

4)在配置完后运行cmd命令,输入命令java

习题2

1)请阐述什么是数据质量。

数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质

量的数据则必然拉低数据应用的下限。数据质量一般指数据能够真实、完整反映经营管理实

际情况的程度

2)请阐述如何提高数据质量。

(1)定义一套标准化的数据规范

(2)加大对数据质量的管理

(3)加大对开源工具的应用

3)请阐述什么是数据预处理。

数据预处理是对于数据的预先处理,数据预处理的作用就是为了提高数据挖掘的质量。

数据预处理有多种方法:数据清洗,数据集成,数据变换,数据归约等。这些数据处理技术

在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

4)数据清洗有哪些常用方法?

数据缺失值的处理,噪声数据的处理,冗余数据的处理

5)什么是正态分布?

正态分布也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种。它是一个在

数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

正态分布的曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之

为钟形曲线

6)如何识别离群点?

(1)分箱法

(2)回归法

(3)聚类分析

(4)估算分析法

(5)3∂原则

本文标签: 数据清洗质量进行变量