文本分析

【科研】之毕业论文排版技巧分享

引言 国内毕业论文大部分是使用微软(MicroSoft)的Office来进行排版。为什么论文排版后看起来“好看”?其实可以将排版看做是一系列格式的集合。 本文诣在提供一个简洁、高效的硕士毕业论文技巧(方法),并通过MicroSoft Word来实际操作讲解。 本文排版思想:先排版,全局设置格式。即根据样式设置确定整体的排版结构 + 个别的局部格式调整。 Wo...

自然语言处理-中文语料预处理

自然语言处理——中文文本预处理 近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。 1、中文语料的特点   第一点:中文语料中词与词之间是紧密相连的,这一点不同与英文或者其它语种的语料,因此在...

《StackGAN》

StackGAN 周枫 少年,愿有一天,你能用内心的沉稳安宁,洗去身上的躁动和铅华 已关注 12 人赞同了该文章 未经授权,严禁任何形式转载!能力有限,欢迎指正批评! 参考 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversa...

基于层次过滤的文本生成

  基于层次过滤的文本生成   引言   目前文本生成最常用的算法基于 fully autoregressive 模型,比如 RNN 和 transformer。在 fully autoregressive 模型中,生成下一个词的概率取决于之前所有的词。   给定一个 fully autoregressive 模型,文本生成通常使用 beam search...

使用Roslyn的C#语言服务实现UML类图的自动生成

最近在项目中实现了一套基于Windows Forms的开发框架,个人对于本身的设计还是比较满意的,因此,打算将这部分设计整理成文档,通过一些UML图形比如类图(Class Diagram)来描述整个框架的设计。然而,并没有找到一款合适的UML设计工具,商用版的功能强大,但即便是个人许可,一个License也不下千元;免费社区版的UML工具中,draw.io...

Web挖掘技术

  一、数据挖掘 数据挖掘是运用计算机及信息技术,从大量的、不全然的数据集中获取隐含在当中的实用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。 数据挖掘...

R语言对NASA元数据进行文本挖掘的主题建模分析

原文链接:http://tecdat.cn/?p=9424 目录 什么是主题建模? 获取和整理NASA元数据 制作DocumentTermMatrix LDA主题建模 探索建模 每个文档都属于哪个主题? 将主题建模连接到关键字 NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集...

一个人工智能项目里的中文分词方案

做搜索的都知道,中文分词,一般都是先建一个词库,再根据词库进行分词。但是这样做有两个问题:1.存在歧义词,2.不容易发现新词。尤其第2点,在处理舆情类内容时更是如此。如果想减少这类问题,现在的主要解决手段,一般都是在后端建一个词条系统,通过累积找到高频词,然后把高频词加到词库中,再进行分词。但是这样做仍然有一个时间差问题,不适合即时性的内容判断。最近接手了...

MATROSKA 文件格式

MATROSKA 文件格式 1.EBML (Extensible Binary Meta Language): EBML语言使用不定长整数,这种方式相对于固定长度的32位/64位字长的整数值更节约空间.放置的位置也不受字节对齐约束..这种长度编码方式来自于UTF-8编码规范. 不定长度的无符号整数值(“vint”): 长度的计算方法: 长度 = 1 + 整...

PHP文本的读写

1 <?php 2 $txtPart="test0.txt"; //export 3 $txtPartContent=fopen($txtPart,"r"); //读文件,返回TRUE,FALSE 4 if($txtPartContent){ //若文件存在继续 5 while(!fe...