美文网首页
文本挖掘HW5---文本向量化及词频统计

文本挖掘HW5---文本向量化及词频统计

作者: 在做算法的巨巨 | 来源:发表于2018-07-18 19:16 被阅读0次

文本向量化这个概念应该是我第二次看到了,第一次看到的时候还是朴素贝叶斯对文本进行预测时预处理的时候,将文本转化为向量,很大程度上简化了问题的处理难度,向量化为矩阵将文本问题转为更为直接的数学问题,更是亮点所在。
我写了一个向量化的函数,也算是练练手。

import pandas as pd
def word2vec(verblist): #define input format should be list
    #func1 find unique word and build matrix
    uniquemat=set([])
    for words in verblist:
        uniquemat = uniquemat | set(words)
    uniquemat=list(uniquemat)
    #statistics for TF
    vectormat=[]
    for words in verblist:
        vector=[0]*len(uniquemat)
        for word in words:
            if word in uniquemat:
                vector[uniquemat.index(word)]+=1
        vectormat.append(vector)
    vectormat=pd.DataFrame(vectormat)
    vectormat.columns=uniquemat
    return(vectormat)

我们输入一个英文文本



运行

word2vec(word)

查看输出


相关文章

  • 文本挖掘HW5---文本向量化及词频统计

    文本向量化这个概念应该是我第二次看到了,第一次看到的时候还是朴素贝叶斯对文本进行预测时预处理的时候,将文本转化为向...

  • Python文本挖掘: 词频统计,词云图

    在中文的文本挖掘中,对海量文本进行准确分词是其中至关重要一步。当前的Python语言下存在多种开源文本分析包,其中...

  • 如何使用python实现词云

    如果想要生成词云图,首先我们需要对输入的文本进行词频统计。这里我们使用的是《小王子》中的一段文本进行统计: 词频统...

  • 文本挖掘

    1文本词频分析(中英文各一份)及列表的sort()使用2如何利用python统计英文文章词频3主题模型 LDA 入...

  • 简年就要收简红包 ·互联网金融之量化投资深度文本挖掘

    互联网金融之量化投资深度文本挖掘(附源码文档) 一、 功能概述关键词词频&网络图是以股票论坛、 个股新闻、研究报告...

  • 机器学习(十二) 特征提取 TF-IDF

    一、概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词...

  • 2018-12-12 词频统计

    Hamlet词频统计(含Hamlet原文文本) #CalHamletV1.py defgetText(): txt...

  • 文本分析-词频统计

    词频:指的是某一个给定的词在该文档中出现的次数概念了解:1.语料库:预料库是我们要分析的所有文档的集合2.中文分词...

  • python 中文,英文做词频统计小计

    作为一个爬虫工程师,词频统计还是要有所了解的,对于舆情的文本处理,统计每个词出现的次数,亦或是统计文本出现top1...

  • 怎样把文档转换成向量

    文本分析 文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。它是文本挖掘...

网友评论

      本文标题:文本挖掘HW5---文本向量化及词频统计

      本文链接:https://www.haomeiwen.com/subject/mncapftx.html