电子与信息
慎用“机器学习中的数据预处理:缩放和中心化”
投稿人:真傻 投稿时间:2018.06.22 00:12 访问量:

机器学习中经常采用的数据预处理有:

(1)min-max标准化(min-max scaling)

对于原始数据x,通过其最小值和最大值,映射成为区间[0,1]中的值:

(2)z-score标准化(z-score standardizd)

采用原始数据x的均值(mean,μ)和标准差(standard deviation,σ)进行数据的标准化:

从数学角度看,经过“减法”、“除法”之后性质仍然不变的系统,一般为“线性系统linear system”,即同时满足

①“叠加性additivity or superposition principle”

f(x+y) = f(x) + f(y),

②“齐次性homogeneity”

f(kx) = kf(x),k≠0是一个实数。

的系统f(·)。

对于非线性系统(nonlinear system),由于不同时满足叠加性和齐次性,而min-max标准化、z-score标准化中的减法(“x - xmin”、“x -μ”)、除法分别要求叠加性和齐次性,所以会产生一定的误差。

简言之,min-max标准化、z-score标准化:

(1)对线性系统完全适用;

(2)非线性系统的局部线性化,很好地适用;

(3)非线性系统的全局分析,可能会引起明显的偏差。

所以,要慎用“机器学习中的数据预处理:缩放和中心化”。

例如,在风速的空间相关性预测里,采用Pearson相关系数(Pearson product-moment correlation coefficient)找到的有风速时间序列的参考矢量(红色)的“相似矢量(黑色粗线)”,相当地不合适。请看下图:

因为Pearson相关系数r采用了减法、除法,

一般只保证对线性系统是完美的。                     

参考资料:

[1] Hugo Bowne-Anderson,2016-04-27,Preprocessing in Data Science (Part 1): Centering, Scaling, and KNN

https://www.datacamp.com/community/tutorials/preprocessing-in-data-science-part-1-centering-scaling-and-knn

[2] 刘翔宇(翻译),数据科学与机器学习管道中预处理的重要性(一):中心化、缩放和K近邻

https://blog.csdn.net/starzhou/article/details/51473696

[3] Zheng-Ling Yang, Reng-Xiang Liu, Zhen-Zhen Li, et al. An explicit analytical estimation of the validity of the Tanimoto similarity by confidence intervals in mathematical statistics[C]. WCICA 2018,录用。