数据预处理的基本方法:

1、墓于粗糙集( Rough Set)理论的约简方法,粗糙集理论是一种研究不精确、不确定性知识的数学工具。现在受到了KDD的广泛重视,利用粗糙集理论对数据进行处理是一种十分有效的精简数据维数的方法。

2、基于概念树的数据浓缩方法,在数据库中,许多属性都是可以进行数据归类,各属性值和概念依据抽象程度不同可以构成一个层次结构,概念的这种层次结构通常称为概念树。概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序排列。

3、信息论思想和普化知识发现,特征知识和分类知识是普化知识的两种主要形式,其算法基本上可以分为两类:数据立方方法和面向属性归纳方法。

4、基于统计分析的属性选取方法,可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析、公共因素模型分析等。这些方法的共同特征是,用少量的特征元组去描述高维的原始知识基。

预处理常用的方法有哪些?

一、混凝-絮凝

混凝是指向水中投加一定剂量的化学药剂,这些化学药剂在水中发生水解,和水中的胶体粒子互相碰撞,发生电性中和,产生吸附、架桥和网捕作用,从而形成大的絮体颗粒,并从水中沉降,起到了降低颗粒悬浮物和胶体的作用。

二、介质过滤

介质过滤是指以石英砂或无烟煤等为介质,使水在重力或压力下通过由这些介质构成的床层,而水中的的颗粒污染物质则被介质阻截,从而达到与水分离的过程。粒状介质过滤基于“过滤-澄清”的工作过程去除水中的颗粒、悬浮物和胶体。

工业水处理

在工业用水处理中,预处理工序的任务是将工业用水的水源——地表水、地下水或城市自来水处理到符合后续水处理装置所允许的进水水质指标,从而保证水处理系统长期安全、稳定地运行,为工业生产提供优质用水。

预处理的对象主要是水中的悬浮物、胶体、微生物、有机物、游离性余氯和重金属等。这些杂质对于电渗析、离子交换、反渗透、钠滤等水处理装置会产生不利的影响。

大数据预处理的方法有哪些?

1、数据清理

数据清理例程就是通过填写缺失值、光滑噪声数据、识别或者删除离群点,并且解决不一致性来进行“清理数据”。

2、数据集成

数据集成过程将来自多个数据源的数据集成到一起。

3、数据规约

数据规约是为了得到数据集的简化表示。数据规约包括维规约和数值规约。

4、数据变换

通过变换使用规范化、数据离散化和概念分层等方法,使得数据的挖掘可以在多个抽象层面上进行。数据变换操作是提升数据挖掘效果的附加预处理过程。

大数据处理之道(预处理方法)

大数据处理之道(预处理方法)

一:为什么要预处理数据?

(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)

(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)

(3)原始数据中存在的问题:

不一致 —— 数据内含出现不一致情况

重复

不完整 —— 感兴趣的属性没有

含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据

高维度

二:数据预处理的方法

(1)数据清洗 —— 去噪声和无关数据

(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。

(5)图说事实

三:数据选取参考原则

(1)尽可能富余属性名和属性值明确的含义

(2)统一多数据源的属性编码

(3)去除唯一属性

(4)去除重复属性

(5)去除可忽略字段

(6)合理选择关联字段

(7)进一步处理:

通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据

四:用图说话,(我还是习惯用统计图说话)

结尾:计算机领域存在一条鄙视链的 ---- 学java的鄙视学C++的,有vim的鄙视用IDE的等等。

数据清洗的路子:刚拿到的数据 ---->和数据提供者讨论咨询 ----->数据分析(借助可视化工具)发现脏数据 ---->清洗脏数据(借助MATLAB或者Java/C++语言) ----->再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) ----->再次发现脏数据或者与实验无关的数据(去除) ----->最后实验分析 ---->社会实例验证 ---->结束。