词向量

多层神经网络及TensorFlow使用

一、文本的预处理---文本转数字列表 TensorFlow的Keras库有文本预处理功能。Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）的类。如下面示例的： ['ha ha gua angry','howa ha gua excited naive']，按照每个词的位置重新编号为 [[1, 1, 2...

pytorch的Embedding使用

torch.nn.Embedding存储的是形如num_embeddings*embedding_dim的矩阵，以词向量为例，num_embeddings表示词向量的个数，embedding_dim表示词向量的维度。初始化：它提供了从已知Tensor进行初始化的方法：nn.Embedding.from_pretrained 配合torch.from_n...

Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization论文笔记

Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization论文笔记 Abstract 本文的作者解决的是一个无监督的开放域识别（UODR）问题，而在开放域中的源域与目标域的情况中，⭐源域是目标域的一个子集，即一个未标记的目标域T和一个仅覆盖目标域分类子集的有差异的标记源...

词向量之word2vec实践

首先感谢无私分享的各位大神，文中很多内容多有借鉴之处。本次将自己的实验过程记录，希望能帮助有需要的同学。一、从下载数据开始现在的中文语料库不是特别丰富，我在之前的文章中略有整理，有兴趣的可以看看。本次实验使用wiki公开数据，下载地址如下： wiki英文数据下载：https://dumps.wikimedia.org/enwik...

word2vec改进之Hierarchical Softmax

首先Hierarchical Softmax是word2vec的一种改进方式，因为传统的word2vec需要巨大的计算量，所以该方法主要有两个改进点： 1. 对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。比如输入的是三个4维词向量：(1,2,3,4),(9,6,11,8),(5,...

Text-CNN 文本分类

1.简介 TextCNN 是利用卷积神经网络对文本进行分类的算法，由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图图1-2 网络盗图合理性: 深度学习模型在计算机视觉...

word2vec 独热编码One-Hot

独热编码独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：我们的feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。feature_2 和f...

词向量

多层神经网络及TensorFlow使用

pytorch的Embedding使用

Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization论文笔记

词向量之word2vec实践

word2vec改进之Hierarchical Softmax

Text-CNN 文本分类

word2vec 独热编码One-Hot

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表