美文网首页
离散特征one-hot编码

离散特征one-hot编码

作者: 程序媛啊 | 来源:发表于2020-10-30 11:16 被阅读0次

哑编码,又称为独热编码(One-Hot Encoding),作用是对特征进行量化。例如某个特征有三个类别:“大”“中”和“小”,要将这一特征用于模型中,必须将其数值化,很容易想到直接给它们编号为“1”“2”和“3”,但这种方式引入了额外的关系(例如数值间的大小关系),“误导”模型的优化方向。一个更好的方式就是使用哑编码,例如“大”对应编码“100”,“中”对应编码“010”,“小”对应编码“001”。如果将其对应到一个三维的坐标系中,则每个类别对应一个点,且三个点之间的欧氏距离相等,均为[插图]。

比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用one-hot编码,则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的,显得更合理。

https://www.jianshu.com/p/cb344e1c860a
https://www.imooc.com/article/35900

相关文章

  • One-Hot编码

    对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。 离散特征进行one-hot编码后,编码后的特征...

  • SparkML 实现 LR 算法

    离散特征 举例 性别的男和女就是离散的特征; 离散特征 | 处理 one-hot 编码,就是一维的编码,比如性别可...

  • one-hot encoding 与dummy encoding

    One-Hot编码和哑变量应该怎么用 考虑一个具有三个类别的离散型特征,采用One-Hot 编码后: 其中 因此有...

  • 为什么要用one-hot编码

    将离散型特征使用one-hot编码,确实会让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离...

  • one-hot

    为什么使用one-hot编码来处理离散型特征?1、Why do we binarize categorical f...

  • 离散特征one-hot编码

    哑编码,又称为独热编码(One-Hot Encoding),作用是对特征进行量化。例如某个特征有三个类别:“大”“...

  • pandas中使用get_dummies和one-hot编码

    一: 为什么要用one-hot编码   在进行机器学习的模型训练时,通常在数据集中会遇到一些离散特征.  这些特征...

  • 推荐系统-重排序-CTR-FM模型及FFM等

    1 概述 重排序模型中,特征主要使用离散one-hot编码的特征。这是由任务本身特点与历史发展以及模型特点决定的。...

  • 特征提取之pd.get_dummies()

    one-hot encoding one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征...

  • 数据预处理方法(2)之数据编码和分块

    第一部分:离散特征编码 1、独热编码 在为离散特征编码时,如果某一特征的取值之间没有大小的意义,比如颜色、月份,那...

网友评论

      本文标题:离散特征one-hot编码

      本文链接:https://www.haomeiwen.com/subject/buulvktx.html