美文网首页
从数据中提取有用特征

从数据中提取有用特征

作者: 松松土_0b13 | 来源:发表于2020-01-09 15:43 被阅读0次

几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。

  • 数值特征:这些特征通常为实数或整数,比如年龄
  • 类别特征:它们的取值只能是可能状态集合中的某一种。性别、职业或者电影类别便是这类特征。
  • 文本特征:它们派生自数据中的文本内容,比如电影名、描述或评论。
  • 其他特征:大部分其他特征最终都表示为数值。比如图像、音频和视频,地理位置则可由经纬度或地理散列(geohash)表示
类别特征

当类别特征为原始形式时,其取值来自所有可能取值所构成的集合,而不是一个数字,故不能作为输入。
将类别特征表示为数字形式,常可借助k之1(1-of-k)编码方法进行。

词袋分词法

如果每个单词都是一种可能的取值,那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次,学习效果也不理想,因此需要将原始的文本转换为一种更便于机器学习的形式。

  1. 分词(tokenization):可用的方法如空白分词法,在空白处对文本进行分割,可能同时还删除标点符号和其他非字母或数字字符
  2. 删除停用词:比如the、and和but
  3. 提取词干:将各个词项简化为其基本的形式或者干词。比如dogs变为dog
  4. 向量化:一般用k之1编码,然后用稀疏矩阵来表示

另外还有一个特征抽取的神器:word2vec,有兴趣可以参考这篇文章《通俗理解word2vec》

相关文章

  • 从数据中提取有用特征

    几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。 数值特征:这些特征通常为...

  • 特征工程

    机器学习之特征工程 特征工程的作用 从数据中抽取出对预测结果有用的信息 从数据中构建出对结果有用的信息 更好的特征...

  • #Python3组数据挖掘实战总结 6、7章#

    数据挖掘实战 特征工程 数据处理 Data vs Feature 列:特征 从原始数据中提取特征供算法和模型使用 ...

  • 监督学习之我见

    统计学习的对象时数据,它是从数据出发,提取数据的特征,抽取出数据的模型,发现数据中的知识,又回到对数据的分析...

  • 计算机视觉 OpenCV Android | SURF特征检测(

    0. 特征检测定义、作用和使用相关 特征检测是从图像中自动提取对象特征用以表述该对象,同时还可以利用得到的特征数据...

  • Boruta 特征选择

    机器学习任务中,在正式训练模型之前,我们一般会从原始数据中尽可能多的提取特征,作为模型的输入。 但是特征也不是越多...

  • 解构赋值

    解构赋值对提取 JSON 对象中的数据,尤其有用。 遍历 Map 结构

  • 特征工程-特征预处理

    特征工程 -Data PreProcessing(数据预处理)-Feature Extraction(特征提取)-...

  • 数据挖掘常用算法

    数据挖掘常用算法 逐步补充中... 特征工程 特征工程在实践中是很重要的一个环节,其中主要是特征提取(...

  • 深度学习中的特征工程

    什么是特征工程?顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据...

网友评论

      本文标题:从数据中提取有用特征

      本文链接:https://www.haomeiwen.com/subject/zupsactx.html