学习笔记-数据预处理

学习笔记-数据预处理

作者: Pluto_wl | 来源:发表于2020-04-06 10:35 被阅读0次

机器学习笔记
大师兄的Python机器学习笔记:数据重抽样
学习笔记-数据预处理
学习笔记：数据预处理
TCGA-识别哪些是lncRNA，各种类型的RNA差异分析
100天搞定机器学习|Day2简单线性回归分析
【1%】100小时机器学习——数据预处理
大师兄的数据分析学习笔记(十四）：机器学习与数据建模
大师兄的数据分析学习笔记(十三）：特征预处理（四）
大师兄的数据分析学习笔记(十二）：特征预处理（三）

看到一篇数据预处理很全面的文章，所以将链接贴了过来 https://www.jianshu.com/p/37e529c8baa9

对上述文章的补充

词标准化的方式
词标准化
分词方式

最大匹配算法
前向最大匹配算法：

前向最大匹配算法

后向最大匹配算法：

后向最大匹配算法
基于语言模型的分词方法

1
2

在进行计算时，会对类乘取log，将类乘转化为log累加，可以避免数值过小

3

拼写纠错
计算出错词与词标中编辑距离最近的单词，这个单词就是正确的词。

利用编辑距离拼写纠错流程：
(1) 判断是否是措词：当前词在vocab中没有出现，那么当前词就是拼写错误
(2) 生成候选词：对错词生成编辑距离为1到k的词,然后将生成的词与vocab比较，若生成的词在vocab中就保留，若不在就说明当前词是错词，直接删除。

1

(3) 利用噪声信道模型来选取候选词
流程如下图所示：

2.png
具体可以参考https://zhuanlan.zhihu.com/p/58357300

参考文献：

噪声信道迷信（推荐）
拼写纠错实现（推荐）

相关文章

机器学习笔记
精品笔记 ML AI 斯坦福机器学习笔记 GTD 数据预处理数据预处理预处理终版.
大师兄的Python机器学习笔记:数据重抽样
大师兄的Python机器学习笔记:数据预处理大师兄的Python机器学习笔记:实现评估模型一、重抽样方法 1. ...
学习笔记-数据预处理
看到一篇数据预处理很全面的文章，所以将链接贴了过来 https://www.jianshu.com/p/37e52...
学习笔记：数据预处理
数据归一化Preprocessing.MinMaxScaler公式 (x-min(x))/(max(x)-min(...
TCGA-识别哪些是lncRNA，各种类型的RNA差异分析
本文内容本文为笔者个人的学习笔记，包括以下内容 TCGA count数据下载 count数据预处理，标准化差异...
100天搞定机器学习|Day2简单线性回归分析
第一天机器学习100天|Day1数据预处理，我们学习了数据预处理。知道了，数据预处理是机器学习中最基础和最麻烦，未...
【1%】100小时机器学习——数据预处理
数据预处理前言： What's This：我自己的学习笔记，如果你不想看GitHub，这里搬运的应该也很全面。 ...
大师兄的数据分析学习笔记(十四）：机器学习与数据建模
大师兄的数据分析学习笔记(十三）：特征预处理（四）[https://www.jianshu.com/p/e5582...
大师兄的数据分析学习笔记(十三）：特征预处理（四）
大师兄的数据分析学习笔记(十二）：特征预处理（三）[https://www.jianshu.com/p/5e334...
大师兄的数据分析学习笔记(十二）：特征预处理（三）
大师兄的数据分析学习笔记(十一）：特征预处理（二）[https://www.jianshu.com/p/fe9c6...

网友评论

自然语言处理学习笔记

本文标题：学习笔记-数据预处理

本文链接：https://www.haomeiwen.com/subject/wszsphtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

自然语言处理学习笔记

热点阅读

自然语言处理学习笔记

关于我们|服务条款|联系我们|学习笔记-数据预处理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！