词向量

多层神经网络及TensorFlow使用

一、文本的预处理---文本转数字列表 TensorFlow的Keras库有文本预处理功能。Tokenizer是一个用于向量化文本,或将文本转换为序列(即单词在字典中的下标构成的列表,从1算起)的类。如下面示例的: ['ha ha gua angry','howa ha gua excited naive'],按照每个词的位置重新编号为 [[1, 1, 2...

pytorch的Embedding使用

torch.nn.Embedding存储的是形如num_embeddings*embedding_dim的矩阵,以词向量为例,num_embeddings表示词向量的个数,embedding_dim表示词向量的维度。 初始化: 它提供了从已知Tensor进行初始化的方法:nn.Embedding.from_pretrained 配合torch.from_n...

Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization论文笔记

Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization论文笔记 Abstract 本文的作者解决的是一个无监督的开放域识别(UODR)问题,而在开放域中的源域与目标域的情况中,⭐源域是目标域的一个子集,即一个未标记的目标域T和一个仅覆盖目标域分类子集的有差异的标记源...

词向量之word2vec实践

首先感谢无私分享的各位大神,文中很多内容多有借鉴之处。本次将自己的实验过程记录,希望能帮助有需要的同学。 一、从下载数据开始     现在的中文语料库不是特别丰富,我在之前的文章中略有整理,有兴趣的可以看看。本次实验使用wiki公开数据,下载地址如下:         wiki英文数据下载:https://dumps.wikimedia.org/enwik...

word2vec改进之Hierarchical Softmax

首先Hierarchical Softmax是word2vec的一种改进方式,因为传统的word2vec需要巨大的计算量,所以该方法主要有两个改进点: 1. 对于从输入层到隐藏层的映射,没有采取神经网络的线性变换加激活函数的方法,而是采用简单的对所有输入词向量求和并取平均的方法。 比如输入的是三个4维词向量:(1,2,3,4),(9,6,11,8),(5,...

Text-CNN 文本分类

1.简介 TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图 图1-2 网络盗图 合理性: 深度学习模型在计算机视觉...

word2vec 独热编码One-Hot

独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和f...