学习笔记-数据预处理

作者: Pluto_wl | 来源:发表于2020-04-06 10:35 被阅读0次

看到一篇数据预处理很全面的文章,所以将链接贴了过来 https://www.jianshu.com/p/37e529c8baa9

对上述文章的补充

  1. 词标准化的方式
    词标准化
  2. 分词方式
  • 最大匹配算法
    前向最大匹配算法:


    前向最大匹配算法

    后向最大匹配算法:


    后向最大匹配算法
  • 基于语言模型的分词方法


    1
    2

    在进行计算时,会对类乘取log,将类乘转化为log累加,可以避免数值过小


    3
  1. 拼写纠错
    计算出错词与词标中编辑距离最近的单词,这个单词就是正确的词。

利用编辑距离拼写纠错流程:
(1) 判断是否是措词: 当前词在vocab中没有出现,那么当前词就是拼写错误
(2) 生成候选词: 对错词生成编辑距离为1到k的词,然后将生成的词与vocab比较,若生成的词在vocab中就保留,若不在就说明当前词是错词,直接删除。


1

(3) 利用噪声信道模型来选取候选词
流程如下图所示:

2.png
具体可以参考https://zhuanlan.zhihu.com/p/58357300

参考文献:

  1. 噪声信道迷信 (推荐)
  2. 拼写纠错实现 (推荐)

相关文章

网友评论

    本文标题:学习笔记-数据预处理

    本文链接:https://www.haomeiwen.com/subject/wszsphtx.html