美文网首页
Python加载预训练Word2vec-GoogleNews-v

Python加载预训练Word2vec-GoogleNews-v

作者: 吐舌小狗 | 来源:发表于2018-02-05 23:13 被阅读2953次

在自然语言处理中常常使用预训练的word2vec,来自GoogleNews-vectors-negative300.bin, 下面函数将一句话中的单词转换成词向量,词向量的维度是(300,1), 没有在该word2vec中的单词采用其他的方式,如采用均匀分布,高斯分布等随机初始化

# -*- coding= utf-8 -*-
import numpy as np
# loads 300x1 word vectors from file.
def load_bin_vec(fname, vocab):
    word_vecs = {}
    with open(fname, "rb") as f:
        header = f.readline()
        vocab_size, layer1_size = map(int, header.split()) # 3000000 300
        binary_len = np.dtype('float32').itemsize * layer1_size # 1200
        for line in xrange(vocab_size):
            word = []
            while True:
                ch = f.read(1)
                if ch == ' ':
                    word = ''.join(word)
                    break
                if ch != '\n':
                    word.append(ch)
            if word in vocab:
                word_vecs[word] = np.fromstring(f.read(binary_len), dtype='float32')
            else:
                f.read(binary_len)
    return word_vecs

# add random vectors of unknown words which are not in pre-trained vector file.
# if pre-trained vectors are not used, then initialize all words in vocab with random value.
def add_unknown_words(word_vecs, vocab, min_df=1, k=300):
    for word in vocab:
        if word not in word_vecs and vocab[word] >= min_df:
            word_vecs[word] = np.random.uniform(-0.25, 0.25, k)

vectors_file =  './GoogleNews-vectors-negative300.bin'
vocab=['I', 'can', 'do']

vectors = load_bin_vec(vectors_file, vocab)  # pre-trained vectors
add_unknown_words(vectors, vocab)
print vectors['I']
print '*'*40
print vectors['can']
print '*'*40
print vectors['do']

相关文章

  • Python加载预训练Word2vec-GoogleNews-v

    在自然语言处理中常常使用预训练的word2vec,来自GoogleNews-vectors-negative300...

  • pytorch 加载预训练模型

    1 加载内置的预训练模型 2 加载自己定义的预训练的模型 3 加载部分模型参数 参考链接https://www.c...

  • 2020-05-18 神经网络保存训练模型

    Tensorflow加载预训练模型和保存模型

  • 《Estimator工程实现》系列一:使用Estimator时f

    1. 本文重点 本篇博客主要介绍如何使用 training_hooks进行预训练模型参数加载, 实现单预训练模型或...

  • pretrain model

    1 加载预训练模型注意: I'm not sure which file you are trying to lo...

  • 预加载与智能预加载 (VIA)

    预加载与智能预加载(iOS) 网络与性能 预加载无限滚动列表Threshold惰性加载智能预加载 总结 前两次的分...

  • 图片预加载

    背景 利用图片的预加载技术获得更好的用户体验 什么是有序预加载和无序预加载 jQuery插件的写法 图片预加载,预...

  • 踩坑记录

    模型加载参数不匹配 出现场景,使用transformers包的预训练模型 from_pretrained加载hug...

  • (7)PyTorch预训练

    (1)直接加载预训练模型 如果我们使用的模型和原模型完全一样,那么我们可以直接加载别人训练好的模型: my_res...

  • Python内存分析

    1. 内存分析 1.1 程序运行方式 Python执行一个程序:程序就从解释器申请内存 Python解释器:预加载...

网友评论

      本文标题:Python加载预训练Word2vec-GoogleNews-v

      本文链接:https://www.haomeiwen.com/subject/zclwzxtx.html