keras使用word2vec pretrained vector注意事项

摘要:
在使用预训练的embedding层的时候,一定要注意词表的index,在word2vec中,model.wv.index2word这个是一个list,index就是词的index,这个是固定的,即便是换到linux平台,这个index也是不变的,所以使用这个。w2v_for_s2s=Word2Vec.load('model/word2vec_6_3_word.bin')word2idx={"UNK

在使用预训练的embedding层的时候,一定要注意词表的index,在word2vec中,

model.wv.index2word 这个是一个list, index就是词的index,这个是固定的,即便是换到linux平台,这个index也是不变的,所以使用这个。

w2v_for_s2s = Word2Vec.load('model/word2vec_6_3_word.bin')
word2idx = {"UNK": 0}
# vocab_list = [(k, w2v_for_s2s.wv[k]) for k, v in w2v_for_s2s.wv.vocab.items()]
index2word = w2v_for_s2s.wv.index2word
embeddings_matrix = np.zeros((len(index2word) + 1, w2v_for_s2s.vector_size))
print(index2word[:50])
for i in range(len(index2word)):
word = index2word[i]
word2idx[word] = i + 1
embeddings_matrix[i + 1] = w2v_for_s2s.wv[word]

免责声明:文章转载自《keras使用word2vec pretrained vector注意事项》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇SQL分组取每组前一(或几)条记录(排名)vue+iview实现一行平均五列布局下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【一致性检验指标】Kappa(cappa)系数

1 定义 百度百科的定义: 它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。 这对于新手而言可能比较难理解。什么混淆矩阵?什么像元总数? 我们...

从0开始 图论学习 邻接表 STL vector

邻接表表示 用vector实现 writer:pprp 代码如下: #include <bits/stdc++.h> using namespace std; const int maxn = 1000; struct node { int to; int w; node(int tt, int ww):to(tt),w...

leetcode 36 有效的数独 哈希表 unordered_set unordersd_map 保存状态 leetcode 37 解数独

leetcode 36 感觉就是遍历。 保存好状态,就是各行各列还有各分区divide的情况 用数组做。 空间小时间大 class Solution { public: bool isValidSudoku(vector<vector<char>>& board) { int row[9][9]={...

python机器学习sklearn 岭回归(Ridge、RidgeCV)

  1、介绍     Ridge 回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题。 岭系数最小化的是带罚项的残差平方和,          其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量越大,这样系数对共线性的鲁棒性也更强。        2、参数         alpha:{float,array-like}...

吴恩达机器学习笔记 —— 12 机器学习系统设计

本章主要围绕机器学习的推荐实践过程以及评测指标,一方面告诉我们如何优化我们的模型;另一方面告诉我们对于分类的算法,使用精确率和召回率或者F1值来衡量效果更佳。最后还强调了下,在大部分的机器学习中,训练样本对模型的准确率都有一定的影响。 更多内容参考 机器学习&深度学习 机器学习最佳实践 针对垃圾邮件分类这个项目,一般的做法是,首先由一堆的邮件和是否...

C++中容器的使用(一)

      C++中有两种类型的容器:顺序容器和关联容器。       顺序容器主要有vector、list、deque等。其中vector表示一段连续的内存,基于数组实现,list表示非连续的内存,基于链表实现,deque与vector类似,但是对首元素提供插入和删除的双向支持。       关联容器主要有map和set。map是key-value形式,...