智能数据标准化:分类和有序数据,“成对”功能

本文是临时的。上一次的不同数据标准化方法我看着细微差别和挑战。直到出版后,我才意识到我没有提到一些重要的细节。在某些人看来,它们似乎很明显,但我认为最好是明确地说出来。



归类分类数据



为了不使基本内容杂乱无章,我假设您知道什么是分类数据和序数数据,以及它们与其他数据有何不同。



显然,任何归一化只能对数字数据执行。因此,如果只有数字适合您的算法/程序进行进一步的工作,则必须将所有其他类型转换为它们。



分类数据很简单。如果目标不是简单地用一些数字对值进行编码(加密),则唯一可用的选择是将它们表示为每个可能类别的值``1''-``0''(是-否)。这就是所谓的单热编码什么时候出现新的“布尔”功能,而不是一种分类功能,因为存在可能的类别。





就这样。



没有中值或算术平均值计算,没有偏移。



如果您正在准备用于神经网络输入的数据,这正是您所需要的。



重要的是要理解,将标准化之类的转换应用于分类/“布尔”特征至少是无用的,而且至多有害。因为它会不合理地增加或减少其值的范围。我上次详细介绍了这些间隔相等的重要性。



, , , , “” “”. “ ”, , “” . , , — .



, - , « , 0 1». , . , .





. “” ( ) . , . .



1. . ( ). ( ) , , , . , , .





2. ( ). , “” .



, , . — , , , .



— ..





“”



, , . , .



. “” , . “” .



. , , , . — , , , ( ). .



“” , “”. .





. . , , 100 , 100 . 100 .



,





. “” , , . - , .



“” ( ) “” .





, , “”. .





“” “” .



. /, . “-” ( ), “-” ( ). , - , “-” , “-”.





. . “” .



, , (- ), “-”, , “-”, . .. “”.



, “”, .



, — - , . - .



P.S. — , - AdjustedScaler, “” .




All Articles